关键词:
自然语言处理
深度学习
词性标注
语料库
摘要:
随着计算能力的大幅提高和互联网技术的飞速发展,人类对自然语言处理的研究不断深入.在此背景下,语料库语言学逐渐茁壮成长起来.尤其是近几年来,随着深度学习的崛起,语料库更是成为了神经网络算法得以有效运行的基础.在自然语言处理领域,词性标注是实现自然语言处理任务目标的一个基础环节,也是对文本数据的一个预处理过程,它的准确度将很大程度上影响到后续目标任务的性能.语料库的词性标注准确率越高,语料库的规模越大,神经网络模型的性能就越好.故词性标注语料库的构建与研究逐渐成为了国内外学者的研究热点.数学学科作为自然科学的基础学科,与各行各业的发展都有着密切的联系,它的发展对于我国科技的进步起着至关重要的作用.而目前国内外尚没有专门的带有词性标注的数学专业语料库,这严重影响了数学学科文献的机器翻译及其他自然语言任务的实现.因此,本文以词性标注为主,针对数学科技文献数据构建了一个具有一定规模的词性标注语料库.本文设计了构建数学专业词性标注语料库的算法.首先,我们将神经网络,条件随机场进行结合,构建神经网络框架;其次,我们借助新闻词性标注语料库数据,不断添加数学数据到训练集,测试集,验证集中,同时去掉相同句数的新闻数据,之后使用新闻和数学的混合数据去训练新的模型;最后,神经网络模型在多次迭代之后,我们得到一个对数学数据词性标注效率较高的模型以及一个数学专业词性标注语料库.语料库的准确率为98.36%,而现存的新闻词性标注语料库的准确率介于94%-98%之间,由此可见,我们构建的词性标注语料库的准确率是非常高的.以此语料库为基础,我们可以进行自然语言处理的其他任务研究.本文使用训练过程中产生的模型在纯数学数据上进行了测试实验,实验结果显示,随着模型不断优化,新产生的模型学习到的数据分布逐渐由新闻数据分布转变为数学专业数据的分布,在测试数据上解码效率越来越高,直到模型解码正确句子占全部数据比例不发生变化,则得到最优模型.最优模型在解码纯数学数据时,它的解码效率为69.85%(以句为单位),这比纯新闻数据训练的模型解码纯数学数据的解码效率(为12.82%)要高很多.通过对比分析可得,我们得到的最优模型学习到了数学数据的分布,使用它去标注数学专业文献原始语料,通过特定的阈值筛选,可以得到标准的词性标注语料库数据,从而避免了人工标注的高成本,低效率的缺点.除此之外,文章中我们设计的构建数学专业文献词性标注语料库的算法,也为其他学科科技文献语料库的构建提供了借鉴.