关键词:
条件随机域(CRF)
机器学习模型
地名识别
古代汉语
摘要:
命名实体识别是自然语言处理的重要内容,它的研究和实现具有重要的理论意义和实用价值。但目前这方面的研究多集中在现代文献领域,古籍中命名实体的识别是古典文献信息化进程中的关键所在,是一个值得探索研究的问题。本文以《三国演义》为例对基于条件随机域(Conditional Random Fields,CRF)的古籍地名自动识别做了一些探索,本文的结构和主要内容安排如下:
第一章、绪论
首先说明了本文研究的目的、意义。再围绕本文中心任务介绍了相关的基础理论和研究背景,主要是自然语言理解的含义和思想,还简述了古代文献电子信息化的研究现状和前景。
第二章、命名实体的识别及其方法
先引出命名实体识别这个问题,然后介绍了命名实体识别的意义和方法,重点在基于统计的方法。
第三章、CRF模型
CRF模型是本文中研究古籍地名自动识别的主要方法,本章就是从理论上对CRF模型的介绍,重点讨论了该模型应用于命名实体识别时的情况。
第四章、基于CRF模型的古籍地名自动识别——以《三国演义》为例
这一章是本文的核心部分,以《三国演义》为实例,分三个阶段共13个步骤具体详细地介绍了利用CRF模型对古籍地名进行自动识别的实验研究过程。
第五章、结语
最后对本次研究工作进行总结,并对今后的后续研究作出展望。