关键词:
知识图谱
命名实体识别
双通道网络
双向长短期记忆网络
非物质文化遗产
摘要:
中国的非物质文化遗产是中华民族的瑰宝,随着信息技术的进步和人们文化需求的增长,非物质文化遗产的数字化日益重要。然而,当前非物质文化遗产数字化大多停留于静态页面展示的形式,无法反映不同非物质文化遗产项目之间的相互关系,也缺乏对数据动态跟踪和更新的有效支持。此外,缺乏统一的知识管理和查询平台,非物质文化遗产领域的研究者收集、整理数据的时间和劳动成本很高。本文课题源于实际的项目需求,课题研究了非物质文化遗产知识图谱检索系统的构建与应用,并在深入研究非物质文化遗产领域数据特征的基础上提出了改进的命名实体识别算法。本文的主要工作如下:
(1)针对目前缺乏公开非物质文化遗产领域数据集的现状,本文构建非物质文化遗产领域数据集。首先,使用爬虫爬取非物质文化遗产相关数据;接着,通过人工筛选与算法程序对数据集进行清洗;然后,使用Doccano平台进行实体标注;最后,将标注好的数据进行格式转换,得到三位序列标注法标注的非物质文化遗产领域数据集。该数据集包含6种命名实体类型和30189个命名实体。
(2)研究了面向非物质文化遗产领域的预训练命名实体识别模型。基于本文所构建的非物质文化遗产领域数据集,通过实验验证了BERT作为基线模型的合理性。通过选择最优超参,以BERT作为基线模型,并与Bi LSTM、CRF、Bi LSTM-CRF模型进行融合,发掘了BERT-Bi LSTM-CRF融合模型在非物质文化遗产领域实体识别任务中的优异性能。
(3)针对非物质文化遗产中项目名称、保护单位、所在地等长实体识别效果不佳的问题,提出一种双通道与实体预测特征的命名实体识别模型。该模型以BERT-Bi LSTM-CRF融合模型为基础,通过引入了非物质文化遗产领域的词性特征,增加了特征向量编码中的实体边界信息;同时,在Bi LSTM特征提取层加入IDCNN模型,并创新性地提出了特征向量差异性和相似性的计算方法,增强了上下文的特征提取。在非物质文化遗产领域数据集上,该模型的精确率、召回率、F1值分别为93.5%、94.01%、94.74%,F1值比基线模型提高了4.33%,实验证明了该模型在非物质文化遗产领域命名实体识别任务上具有性能优势。
(4)基于本文构建与设计的数据集,设计并实现一个非物质文化遗产知识图谱检索系统。该系统基于本文提出的命名实体识别模型、关系抽取算法和地址解析算法,实现了非物质文化遗产领域知识图谱构建、非物质文化遗产项目查询、关系查询和主题知识图谱展示功能。为研究学者提供了一个可以进行非物质文化遗产领域知识图谱动态扩充和查询的平台。