关键词:
离线手写数学公式
YOLOv5s
空间注意力机制
双向长短期记忆网络
符号关系树
摘要:
随着互联网的发展,人们能轻易实现信息的远距离交换,极大促进了教育及科研领域的发展。数学公式作为教育及科研领域不可缺少的一份子,其在互联网中的流通尤为重要,特别是老师及科研人员在思考推理过程中写在纸上的公式。因此,如何将这种手写公式转化成便于互联网流通的可编辑形式成为人们关注的话题。离线手写数学公式具有二维结构且书写随意,这给确定符号之间的逻辑关系带来很大困难,故离线数学公式识别具有很大挑战。本文根据其特点,提出一种基于YOLOv5s的公式识别模型,完成的主要工作如下:1.对现有公式识别模型进行分析,本文提出了一种能有效避免错误累计问题的公式识别模型。该模型将公式识别分成两部分,第一部分是用目标检测模型YOLOv5s对公式符号进行识别,第二部分是用符号关系树分析公式结构。2.根据YOLOv5s的数据格式需求,本文制作了一个离线手写数学公式数据集。先从CROHME的官方网站获取在线形式的手写数学公式数据集,该数据是以inkml文件形式存储的;其次用分解、重组和失真的方式对在线数据集进行增强;然后通过Python程序将inkml文件转化成离线图像形式,同时生成本文模型对应的标签;最后,对于公式中书写连笔导致错误的标签,用Labelimg重新标注。3.对公式符号识别部分进行改进。为提高符号识别的识别率,从符号类别角度分析,引入空间注意力机制SAM,利用其中的最大值和平均值池化扩大符号类别的差异特征;从符号自身含义角度分析,引入双向长短期记忆网络Bi LSTM,使符号具有上下文相关联的信息;从Bi LSTM提取或利用上下文相关联信息是否充分的角度分析,改变其层数进行实验,实验证明其层数为3时,信息利用率最大化,最终得到的符号识别模型简记为YOLOv5s_SB3(S表示空间注意力机制,B3表示3层的双向长短期记忆网络),通过与其他符号识别模型进行对比证明了其符号识别的有效性。4.对公式结构分析部分进行改进。将符号识别模型YOLOv5s_SB3与符号关系树结合得到公式识别模型,简记为YOLOv5s_SB3T(T表示符号关系树)。用该模型对公式进行识别,对错误识别的公式进行总结和分析,分数和根号容易出现覆盖范围较小造成结构分析错误。故本文在YOLOv5s_SB3T中引入聚类来减少这类错误,最终得到的公式识别模型简记为YOLO v5s_SB3CT(C表示聚类),通过与其他公式识别模型进行对比证明了其公式识别的有效性。实验结果表明YOLOv5s_SB3CT模型能有效避免传统识别模型中的错误累计问题,识别过程的可见性高于基于神经网络端到端模型。本文提出的符号识别模型YOLOv5s_SB3在CROHME2019 test上的符号识别率为95.67%;公式识别模型YOLOv5s_SB3CT在CROHME2019 test上的表达式识别率为65.47%,本文模型不管是在符号识别还是公式识别领域都取得了较好成果。