关键词:
古代汉语
嵌套命名实体识别
数据集
预训练语言模型
全局指针网络
摘要:
一部史料的文本中最能体现出其研究意义的就是人、物、事件、时间、地点,它们代表一部史料的脉络。那么如何从庞大的史料中自动提取出这些富有研究价值的专有命名实体便是一个重要课题。前人为此展开了大量的研究,但都集中在古代汉语扁平命名实体识别的研究,而对古代汉语嵌套命名实体识别研究鲜少涉及。因此,面向该领域开展研究不仅具有创新性,更具有实用价值。
以下工作基于前人的研究开展:
选择“二十四史”之首《史记》作为研究语料,制定实体标注规范,并构建精加工的古代汉语嵌套命名实体识别数据集。古代汉语在词汇特征、语法、句式表达、文体风格等方面与现代汉语存在明显差异,现代汉语中表现较好且成熟的规范体系无法直接迁移到古代汉语相关任务中加以应用,因此需要标注古代汉语的嵌套命名实体识别数据集。为了获得高质量的数据集,必须首先制定古代汉语实体标注规范,确定古代汉语嵌套命名实体识别数据集的实体界定、实体类型划分、实体的内部构造成分、实体标注原则。同时,针对古代汉语语义丰富而导致的实体分类模糊问题,分别构建了基于字词本义和语境义两个标注标准的古代汉语嵌套命名实体数据集,探讨了分类模糊实体的标注方法和原则。经过前期准备,使用Fastlabel工具完成命名实体的标注。
开展模型对比实验。对比了RoBERTa-Classical-Chinese、Siku Ro BERTa、Siku BERT、Ro BERTa-wwm-ext、BERT-wwm-ext和Guwen BERT六种预训练模型配合Global Pointer在古代汉语嵌套命名实体识别任务上的表现。
最终,RoBERTa-Classical-Chinese模型调和平均数(F1值)为84.71%,表现最好。与此同时,通过已构建的古代汉语嵌套命名实体识别数据集对比六个预训练语言模型的优缺点,发现上述模型各有特色:Guwen BERT模型倾向于简体古文的任务,Siku系列模型拥有最大的词表,Ro BERTa-Classical-Chinese弥补了Guwen BERT模型无法适应繁体古文任务的缺憾,引入精加工的依存结构(从属)语料库,同时也扩大了词表。
大量前人关于“命名实体”的研究为实体标注规范的制定提供了参考,因此得以完成古代汉语嵌套命名实体识别数据集的构建,这一研究填补了古代汉语在嵌套命名实体识别任务上的学术空白。此外,不同于以往研究常用的变体Ro BERTa模型和CRF的搭配,Ro BERTa-Classical-Chinese和Global Pointer在命名实体识别任务中使用率均较低,并取得了较为理想的实验结果。