关键词:
文本分类
图书分类
预训练模型
深度学习
智慧图书馆
摘要:
作为高校的学习资源中心,图书馆在其学科发展中扮演着至关重要的角色。随着高校“双一流”学科建设的不断推进,图书馆资源建设与服务能力愈发受到重视,可以说高校图书馆承担着推动高校学科发展的重要使命。近年来,新一代人工智能技术的发展,为高度自动化的图书馆资源管理提供了可能,如何利用人工智能技术实现中文图书的科学编目和自动分类成为开展智慧图书馆研究的重要内容。然而由于缺乏高质量领域数据集、技术手段运用不够深入等问题,基于人工智能技术的中文图书分类研究目前仍处于探索起步阶段。因此,本文重点开展高校图书馆中文图书自动化学科分类的应用研究,构建了中文图书学科分类数据集,采用先进的自然语言处理技术实现中文图书的自动分类,为未来智慧图书馆的自动化管理和智能化、精准化的知识服务提供技术支撑。本文研究工作主要包括:(1)中文图书学科分类数据集构建。针对传统中图分类法在高校学科知识服务方面的不足,基于学科目录建立了中图分类法到学科分类的映射方法,采用了 Python编程实现对高校图书馆的馆藏、流通和订购数据进行数据清洗和补全,构建了包含五种标签的中文图书学科分类数据集,其中完整的二级学科条目包含109类、52773条数据。(2)基于预训练模型的中文图书自动分类。利用自然语言处理领域前沿的预训练语言模型构建了中文图书分类模型,并与深度学习传统的神经网络模型进行性能对比,通过在公开数据集和自建数据集的多组对比实验,验证了基于多头自注意力机制的预训练语言模型在文本表示和特征提取能力方面的优势,同时也证明了基于预训练模型的中文图书分类模型的有效性。(3)基于预训练模型与特征融合的细粒度中文图书分类。针对中文图书学科分类任务,对BERT类预训练模型的参数进行了优化,并在此基础上提出了一种基于特征融合思想的预训练模型特征增强方法PLM-LCN,充分利用不同类型网络的特性增强预训练模型的特征表示能力。通过与多种基准模型的消融和对比实验,验证了 PLM-LCN提升分类性能的有效性及良好的模型泛化能力。(4)高校中文图书自动分类系统设计与开发。依据高校图书馆实际需求,基于提出的中文图书分类模型算法,设计开发了高校中文图书自动分类系统。该系统实现了通过图书相关内容自行进行学科分类,同时支持基于学科分类的图书管理、图书检索和图书推荐,为高校图书馆的精准化学科知识服务提供技术支撑。