关键词:
文本检测
文本识别
深度学习
智能阅卷
摘要:
小学数学口算练习能为学生打下数学基础,培养学生的思维习惯、增强问题解决能力、提高数学素养和增强竞争力。而口算能力的提升离不开大量的练习,大量的练习必然会带来大量口算试题和试卷,人工批改这些口算试题需要耗费大量时间和人力,导致无法及时向学生提供反馈,影响学生的学习效果。此外,批改试题的准确度还会受到批改者疲劳程度的影响,容易出现批改错误的情况。对此,本文基于深度学习的计算机视觉技术,研究了一种能够自动检测、识别和批改数学口算题的智能算法,从而有效提高阅卷效率,帮助老师和家长减轻工作压力,避免人工批改出现错误。针对真实应用场景下每张录入的口算试题图像可能存在试题类型不一、光照不均、背景复杂、存在无关干扰信息,且口算试题中同时存在试题印刷体和答案手写体两类字体,不同学生的手写笔迹之间亦存在着巨大差异等问题,本文的主要研究工作如下:1、构建口算试题数据集。分析口算试题在实际应用下的录入场景,通过手机拍摄、扫描和网络爬虫三种方法采集图像数据,并针对录入的图像数据数量可能无法保证模型的训练规模,研究了一种训练样本生成方法。该训练样本生成方法基于真实数据,同时具有自动标注功能,能在保证模型训练效果的同时减轻人工标注的负担。2、研究口算试题文本行检测定位算法。通过比对分析多种深度学习的文本检测算法,研究了一种基于DBNet网络的文本检测模型。为避免口算试题图像在自然场景下可能存在的试题类型不一、光照不均、背景复杂、存在无关干扰信息等影响文本检测模型的效果,在原有网络的基础上引入更深层次的图像特征提取网络ResNet-50以充分提取试题图像中不同维度的特征。同时,通过增强语义信息和空间位置信息以提高网络的特征表达能力,从而更有效地提取口算试题特征,规避无关噪声的干扰。3、研究了口算试题文本行识别算法。考虑到单个口算试题图像同时包含印刷体字符和手写体字符,且不同试题图像中字符样式、大小等可能存在巨大差异。为充分提取识别所需要的各类特征,采用拥有四个Dense Block的DenseNet网络作为特征提取网络。同时使用BiLSTM将卷积层提取的特征表示进行整合,捕捉文本序列中字符之间的顺序关系,提高模型的性能。最后引入CTC解码模型,实现一个端到端的试题图像文本识别模型。最后,在完成文本检测模型和文本识别模型的基础上,设计并实现了口算试题智能批改算法,同时通过采集多张在真实应用场景下的口算试题图像进行实验,结果表明本文研究的口算试题智能识别与批改算法可以应用于现实工程任务。