关键词:
语音合成
泰语分词
条件随机场
机器学习
摘要:
语音合成就是利用计算机等电子设备产生流利语音的技术。在汉语、泰语等语音合成系统中,需要对输入的文本进行分词。在大部分的印欧语系中,词与词之间存在着自然分界符,可以轻易地辨别和标记词边界。在泰语文本中,泰语单词之间则不存在自然分界符。在泰语文本分析过程中,我们需要从连续的泰语字符序列中划分词边界,这也是泰语语音合成的前提。
泰语属汉藏语系壮侗语族壮傣语支。泰语是一种分析型、孤立型语言,单音节词汇占据了大部分基本词汇,泰语通过声调的不同来区分词汇和语法。泰语的构词非常灵活,词的数目非常大,传统的基于字典匹配方法难以构造完备的字典,因此,利用机器学习算法实现泰语分词成为值得深入研究的问题。
本文以提高泰语分词效果为目的,分别采用多种机器学习方法,实现泰语分词。论文的主要工作包括:
1、阐述泰语分词研究现状与背景,结合中、英文及越南语等语言的分词方法,阐述了目前常用的几种分词方法,包括基于词典匹配算法和基于机器学习的方法。
2、阐述了朴素贝叶斯算法分类器,J48决策树算法分类器和支持向量机算法分类器模型,并介绍了在Weka平台下分别使用这三种分类器对泰语文本进行标注和分词的实现步骤。
3、在介绍隐马尔科夫模型和最大熵隐马尔科夫模型的基础上,阐述了条件随机场(CRF)模型的基本原理,以及应用于泰语标记和分词的优势。作为论文的主要内容之一,提出了利用CRF模型实现泰语分词的具体方案。
4、采用四种机器学习,进行泰语分词对比实验,并对实验结果进行分析讨论。
5、对四种机器学习进行不同的字符标注,分析其实验结果并进行讨论。
实验结果表明:
(1)多类分类问题中利用条件随机场算法对泰语文本分词的准确率、召回率和F值都远高于朴素贝叶斯、决策树和支持向量机算法的准确率、召回率以及F值。
(2)两类分类问题中朴素贝叶斯算法、J48决策树算法和支持向量机算法的准确率、召回率以及F值都比多类问题分类的高。条件随机场的准确率得到了提高,但是其召回率和F值下降明显。