关键词:
BERT
细粒度特征提取
注意力机制
自然语言处理
摘要:
随着法律信息数字化的不断推进,数据法学研究与普及逐渐成为法学领域的一大焦点,但由于数据法学的网络数据过于零碎,并无整合,查阅者通常难以从中获取准确的信息。因此需要一种面向数据法学的专业问答系统,来为人们提供智能化的咨询服务。而本论文提出了一种基于BERT(Bidirectional Encoder Representation from Transformers)与细粒度特征提取的方法,构建一种高效、准确的数据法学问答系统,以解决用户在法律问题查询中的需求。本文的主要研究内容如下:
(1)数据法学领域知识数据库的构建。为了构建高效且准确的数据法学问答系统,本研究采用了多阶段的数据收集与处理策略。初始阶段涉及利用Scrapy框架爬取数据,主动从各大专业法律咨询网站中爬取丰富的法学领域知识数据。随后,本研究进一步对电子法律书籍内容进行深入分析,运用命名实体识别技术精准提取出问答数据,捕获数据法学的核心实体及其相互关系。通过对这些关键数据的详细分析和处理,本文成功地提炼出了对问答系统建设至关重要的实体和关系信息。数据在筛选和优化后,再系统地存储进MySQL数据库中。
(2)提出基于BERT与细粒度特征提取的方法。该方法通过BERT对问题和答案转化成编码数据,然后通过使用门控机制对输入的信息做细粒度特征提取,最后对提取后的信息进行相似度计算,通过计算得出的分数作为排序输出分数较高的答案。并且与多个模型在一个中文法律问答数据集中进行了实验对比。对比于BERT模型,本文的模型在准确度,精确度,召回率和F1分数有着1.9%,2.8%,3.4%和0.7%的提升;对比于RoBERTa(Robustly optimized BERT approach)模型,本文的模型在准确度,精确度和召回率有着0.4%,0.5%和1.2%的提升;对比于ALBERT(A Lite BERT)模型,本文的模型在准确度,精确度和召回率有着1.2%,2.0%和2.4%的提升;对比于GPT-3(Generative Pre-trained Transformer3),本文的模型在准确度,精确度和F1分数有着3.1%,3.3%和1.3%的提升。
(3)面向数据法学的问答系统开发研究。首先使用了Django框架,系统采用Django框架,遵循模型-视图-模板设计模式,利用其强大的ORM(Object Relative Mapping)、灵活的URL(Uniform Resource Locator)路由和自动化管理后台等功能,降低模块间耦合度,提升开发效率。搭建了面向数据法学问答系统的平台,实现用户与系统通过文本的形式进行问答的交互。
本文在数据法学与自然语言处理相结合的研究领域,进行了有益的理论与实验探索。