关键词:
公式识别
字符识别
结构识别
系统设计
摘要:
随着社会信息技术的发展,电子档书籍已经成为重要的知识载体。数学公式是书籍重要的页面信息,其识别不仅要识别字符还要公式识别结构,一直以来都是实体书籍电子化的一个难点。本文设计了一种数学公式识别的方法,该方法应用卷积神经网络结构进行字符识别,利用运算符号的作用域和中心线来实现公式结构的识别。本文采取公式字符切割、字符识别、公式结构识别这三个步骤实现数学公式的识别。首先采用连通域与规则相结合的方法实现常见数学公式的有效切割。本文设计了卷积神经网络作为字符识别器,由3个卷积层和3个全连接层组成,卷积核大小为33,最后一层的全连接层的神经元个数为275。该字符识别器在Infty的数据集测试集的准确率可以达到98.90%。在公式结构识别方面,提出了一种基于运算符号和中心线的方法。首先,充分利用了公式中不同种类运算符作用域固定的特点将其分为三类,分别是分号、特殊符号和二元运算符号,其中特殊符号包括根号、求和符号、积分符号等大符号,这些运算符有多个作用域。先将这些作用域内的子式判别出来并进行识别,将识别结果直接送入运算符的Latex语言表达式,再进行识别上标和下标等位置关系。然后基于字符在书写时受四线格约束的情况,提出中心线的概念,将常见字符分类为向上类、向下类、全占类和中心类,依据字符的中心线类别不同计算阈值判断两个字符之间的位置关系。这样的方法能够全面地识别常见数学公式的结构。本文设计并实现了一个书籍内容识别系统。该系统应用客户端、服务器的架构实现。获取页面图片之后,在客户端进行页面预处理和页面图片分割,将分割结果发送到服务器。利用页面目标分类模型将页面信息分类后,对文本行和公式进行识别。然后服务器向客户端发送页面目标识别结果,最后在客户端文件生成可编辑文件。其中文本识别应用的是CRNN模型,公式识别中字符识别应用的是本文提出卷积神经网络结构,公式结构识别应用的是本文提出的方法。本文最终实现了书籍内容识别系统。