关键词:
档案信息资源
实体识别
档案知识库
Neo4j
共享服务系统
摘要:
随着计算机技术的高速发展,大数据分析和各行各业密切结合到一起,庞大的信息资源不仅给我们的社会与生活带来诸多的便利,也带来了如何集成以及高效使用这些数据的问题。档案领域是受到信息化发展影响比较深远的行业,随着科学技术的进步,传统档案管理模式已经不能满足档案用户利用的需求。如何进行档案信息资源的整合和资源共享,并向档案使用者提供智能化、个性化的档案知识服务,从而提高用户使用档案的体验,已经成为档案信息系统建设的研究重点。本文以甘肃省档案信息化建设提供的原始数据为依据,探究档案实体识别和关系抽取的实现方法,通过构建智能的档案知识库,设计与实现档案信息资源共享服务系统。本文的主要内容如下:第一,基于本体的档案知识库构建。首先,以档案多源异构数据为基础,采用一种针对非结构化档案文本数据的嵌套标注策略。然后,本文选取Bi Lstm-CRF、Multi Feat-Bi Lstm-CRF、Albert-Bi Lstm-CRF、Ro Berta-Bi Lstm-CRF、Bert-wwm-Bi LstmCRF以及Bert-Bi Lstm-CRF六种模型进行了档案实体抽取对比实验,实验结果表明,基于Bert-Bi Lstm-CRF模型的档案实体识别效果最好,为构建档案知识库提供了理论基础。最后,依据档案信息化建设的需求以及档案数据结构的特点,提出一种基于规则的关系抽取方法,并将抽取的档案知识存入Neo4j图数据库中,成为档案用户使用的主要数据来源。第二,档案信息资源共享服务系统的设计与实现。根据已构建的档案知识库,系统将按照B/S模型进行总体设计,从档案用户需求分析出发,以Flask开发框架为核心实现档案信息资源共享服务系统,完成了用户功能需求、系统功能需求、系统总体设计、系统整体实现与测试过程。经测试,该系统功能较为齐全且运行稳定,不仅能够增强档案数据资源整合和资源共享的作用,而且为档案用户的利用需求提供了更好的服务,进一步提高了用户利用体验和效率。