关键词:
数学公式识别
深度学习
超分辨率技术
多尺度特征
注意力机制
摘要:
数学公式识别技术旨在将图片中的数学公式转换为可编辑的标记语言(例如La Tex)。随着人工智能技术的飞速发展,教育智能化的步伐不断加快,智慧教育已然成为当下的研究热点。智慧教育中的很多应用,包括以图搜题,机器阅卷等都离不开数学公式识别技术。数学公式识别可分为传统的方法和基于深度学习的方法。传统的数学公式识别方法通常包括字符分割,符号识别,结构分析三个阶段,由于其繁琐的处理机制,传统方法识别结构复杂的数学公式时准确率较低。基于深度学习的数学公式识别方法主要依靠编码器-解码器框架实现,目前已取得了不错的效果,但仍然存在以下问题:(a)识别公式中较小字符时易出错;(b)识别较长公式容易发生错误和重复识别的情况;(c)识别多行公式时准确率较低。针对上述问题,本文的主要工作:1.提出了一种结合超分辨率辅助单元的数学公式识别算法(Mathematical Expression Recognition Embedding With Super-Resolution Auxiliary Unit,MER-SRAU)。算法在公式识别模型的基础上增加了超分辨率辅助单元。训练阶段,超分辨率辅助单元与公式识别模型共享特征提取模块的参数,以此帮助模型获取更有效的特征表示,进而提高公式中较小字符的识别准确率。测试阶段,超分辨率辅助单元可被移除以减少计算量。实验验证了MER-SRAU算法识别公式中较小字符的有效性。2.提出了一种基于覆盖注意力机制的细粒度数学公式识别算法(Fine-Grained Mathematical Expression Recognition based on Coverage Attention Mechanism,MER-FCA)。算法运用了一种可提取多尺度特征的特殊残差结构以帮助模型获取细粒度的特征表示;同时,在注意力机制中引入覆盖向量以避免重复识别,实验验证了MER-FCA算法识别长公式的有效性。3.提出了一种基于后处理模块的数学公式识别算法(Mathematical Expression Recognition with Reprocessing Module,MER-RPM)。后处理模块会对多行公式的识别结果进行修正,其主要思路:通过目标检测算法定位多行区域,通过水平投影法分离出多行区域中的单行公式,进而对单行公式进行识别并重组。后处理模块避免了整体识别多行公式时由于行与行之间互相影响而造成的错误。实验验证了MER-RPM算法识别多行公式的有效性。