关键词:
西藏旅游
大语言模型
知识图谱
检索增强
问答系统
摘要:
近年来,大语言模型在通用领域取得了显著进展,但在特定领域问答上仍存在不足,针对西藏旅游领域的相关研究更为稀缺。由于领域大模型的重新训练或微调资源消耗巨大且知识更新不及时,因此本文提出了一种面向西藏旅游领域的知识增强方法,以在通用大模型中注入领域知识,从而实现合理、准确的问答能力。
本文的知识增强研究包括两方面:一是通过构建西藏旅游领域知识图谱,通过检索其中的结构化三元组实现知识图谱增强;二是构建西藏旅游领域知识库,通过检索其中的文本知识实现知识检索增强。基于此,本文以Chat GLM3-6B为基座模型,结合知识增强技术,构建了一个基于B/S架构的西藏旅游领域的问答系统,可以为用户提供便携友好的服务。具体工作如下:
(1)知识图谱的构建与知识抽取研究。针对知识图谱构建中知识抽取阶段存在处理长距离依赖与复杂结构方面不足的问题,本文提出了一种基于对抗训练和旋转位置感知的知识抽取模型。在西藏旅游领域知识图谱的构建方面,采用自顶向下策略,根据领域专家知识定义本体层,包含6类实体与14类实体间关系。将采集的非结构化数据经过人工标注,形成了6800个知识三元组。知识抽取模型通过FGM对抗训练在嵌入层注入对抗扰动,提高了模型对噪声的鲁棒性与未知词汇的泛化能力。采用Ro PE旋转位置编码技术充分建模实体间的相对位置信息,提升了联合抽取的准确性。融合知识抽取与采集的结构化、半结构数据,形成了西藏旅游领域知识图谱。
(2)问答知识库的构建。针对西藏旅游领域缺乏公开问答知识库的现状,构建了西藏旅游领域问答数据集。采集旅游垂直网站中的评论信息和景点介绍数据,经过人工筛选后,采用大语言模型生成初步的问答对,并通过人工审核和校正,最终构建出规模为15000条问答对的知识库。
(3)检索增强模型的研究。在第二部分工作的基础上,针对用户查询口语化和单一检索方法的不足,提出了一种检索增强模型。该模型利用大语言模型对查询进行改写,采用稀疏检索(BM-25)与稠密检索(ERNIE-Search)相结合的混合检索策略,并引入重排序机制以优化检索效果。
(4)基于知识增强的问答系统的构建。结合前三项工作,设计并实现了西藏旅游领域问答系统。系统采用Streamlit构建交互界面,通过Text2Cypher模块进行知识图谱查询,同时结合知识检索增强模型获取多源知识,并将获取的知识以提示模板的形式注入大模型,实现外部知识增强,获取回答。通过系统测试,验证了问答系统可以满足用户的需求。