关键词:
语音识别
说话人自适应
最大后验概率
变换
特征空间
高斯化
摘要:
近年来,人工智能开始越来越多的出现在不同的场景当中,无人车平台的交通广播音频信息检索系统就是其中的一个应用。交通广播音频信息检索系统是基于语音识别、自然语言处理等技术的用于辅助无人车平台路径规划的智能系统。该系统中,其中的一项关键技术就是语音识别技术。从现在的语音识别技术的发展水平来看,特定说话人语音识别系统已达到了令人满意的水平,但是交通广播音频信息检索中存在的说话人变异因素导致识别系统的性能出现了急剧的下滑。因此交通音频信息检索系统要走向实用,就必须克服说话人变异的困难。
本文从说话人之间的差异性对语音识别系统的影响入手,分析了说话人之间的声学差异,并讨论了各种不同的说话人自适应技术,实现了两种典型的自适应算法:最大似然线性回归(Maximum Likelihood Linear Regression, MLLR)和最大后验概率(Maximum a Posteriori, MAP)。接着,作者也尝试将上述两种算法结合在一起应用,互相补充,识别率比两种算法单独使用有了提高。接着本文还研究了这两种在特征空间的自适应算法:约束的最大似然线性回归(ConstrainedMLLR,CMLLR)和特征空间高斯化(Feature Space Gaussianization, FSG)。CMLLR算法是一种作用在特征空间的线性变换方法,其自适应原理和MLLR算法是一样的;而FSG算法是一种作用于特征空间的非线性变换的方法,并且它还是一个完全无监督的方法。最后,本文研究了在交通音频信息检索系统中自适应算法对其的影响,并将自适应算法应用到系统当中,使得系统的性能有了很大的提高。