关键词:
信息抽取
标注
GATE
有限状态机
概率论
摘要:
Web的迅速增长和普及使得互联网成为一个巨大的信息源。由于Web信息源的异构性和结构欠缺,早期存取这些信息的手段都局限在浏览和搜索上。如今出现了很多诸如检索、集成、抽取和数据挖掘等的智能信息处理技术,帮助人们方便存取所需的Web数据。信息抽取(IE)就是这样一种把输入网页自动转化成结构化数据的努力。 目前已经出现很多IE系统及工具,如SoftMealy和SRV等,它们大多是一种监督式的系统,需要手工标注训练实例学习得到抽取规则。然而,这样的标注是单调的,费时费力的,还易受到变化的影响,特别是网站升级时的变化。因此,如何为训练文档提供语义标注变得尤为必要,好的办法就是自动化这种标注工作,使其能够方便处理各种数据源。 针对标注问题,本文提出一种基于有限状态机的包装器生成方法实现自动标注,应用于Web信息抽取领域。本文的主要思想是通过少量的训练例子集训练生成有限状态机,然后利用状态机对其他同类型的网页进行自动标注。状态机的状态即需要标注的数据,本文利用开源工具GATE进行实体识别形成状态;状态转移条件是两个状态间的上下文规则。利用状态机进行标注可以很好的解决半结构化网页存在属性缺失、属性多值和属性无序的情况。另外,我们将概率引入状态机,通过规则和概率的结合来决定状态机的状态转移,从而减少状态机的不确定性。 我们选择了真实在线的网页进行了实验分析,通过召回率和正确率来评价算法的性能,结果表明我们的算法能够很好的标注存在属性缺失、属性多值和属性无序的网页。