关键词:
神经网络
公式识别
神经网络集成
数据挖掘
并行计算
摘要:
随着计算机存储技术的发展,很多纸质文档经扫描仪扫描后被保存成图像格式。然而,这些图像格式的文档不能被重新编辑。如何将这些图像转换成可重新编辑、再次利用的格式已经引起了很大的关注,并由此产生了文档图像分析技术(Image DocumentAnalysis:IDA)。光学字符识别(OCR)是文档图像分析的核心技术,用于处理印刷体和手写体字符识别。许多科技文献里常包含大量的数学公式,而公式中不仅有特殊符号,其结构也非常复杂。目前市场上见到的OCR产品对含有二维结构的数学公式处理的结果还不甚理想。
我们课题组在数学公式识别方面做了一些工作,并且取得了初步的成果,但与实际应用尚有距离,在字符的正确识别率、识别系统的泛化能力等方面需做进一步的改进。为此,本文提出了一种基于神经网络集成的数学公式识别方法,并设计了一种基于神经网络集成的并行BP算法分类器。
本文的结构安排如下:第一章介绍了神经网络、公式图像分析、神经网络集成和并行算法的一些基础知识。第二章探讨了数学公式识别技术及基于神经网络集成的数学公式字符识别器的设计,并结合数值实验对其泛化能力及识别率进行了检验。在第三章我们提出了一种新的BP神经网络并行算法,实验表明该算法在对大样本数据训练时,能较好地提高网络的学习效率及泛化能力。最后,我们分析了现有数学公式识别系统中仍存在的问题,提出了神经网络并行算法的改进方向。