关键词:
方言口音语音识别
说话人识别
意图识别
低资源预训练语音识别
语音翻译
摘要:
近年来,在国际电信网络业务快速发展的大环境下,诈骗电话等电信网有害语音层出不穷,不仅影响群众正常生活、工作,也对国家安全、社会稳定造成不良影响。针对海量电信网语音数据,如何实现特定电信诈骗主题的自动预警与实时处置,对电信网络数据安全、人民财产保护和社会稳定等方面具有重要意义。
当前诈骗呈现专业化、团队化现象,诈骗术语通常有完整剧本,剧本不时更新,从事诈骗的人员有进有出但往往比较固定,诈骗活动的通道主要依靠电话或互联网通信。针对上述现象,以诈骗人员身份和诈骗内容主题为分析切入点,运用说话人识别技术快速锁定诈骗人员,通过语音识别技术将涉诈通话转换成文字内容,再进一步利用意图识别技术对文字内容进行意图理解、确定诈骗类型,多技术融合实现诈骗通话检测。本文面向防电信诈骗关键技术及系统研究,涉及到语音识别、说话人识别、文本的意图识别以及应用系统等方面的内容。
首先,针对防电信诈骗方言口音的语音识别问题,提出一种将多语言统一建模的语音识别与机器翻译融合的端到端转写方法,构建语音到中文普通话的识别系统,从而有效提升方言转写内容的可懂度。针对方言口音数据集难以采集、数据标注难度大、标注数据量少等问题,研究了低资源语音识别方案,并提出了多语言统一建模的训练方法;针对方言语音识别文本可读性低和可懂度差的问题,提出结合机器翻译的方言语音识别技术方案。本文提出的方法改善了方言语音识别建模难和识别结果可读性差的问题。
其次,针对防电信诈骗中复杂场景下的说话人识别问题,从损失函数、说话人模型结构和数据采样等方面开展研究。针对说话人语音复杂多变、语音带噪和跨信道等因素导致的识别性能下降问题,提出了一种新的样本到样本损失函数,并引入倒瓶颈和深度可分离卷积操作改进说话人识别网络,提升了同说话人类内紧凑性,改善了复杂场景情况下说话人识别性能;针对大数据量训练效率低和训练样本不均衡的问题,提出了基于部分采样和均衡采样的策略。本文提出的方法有效改善了复杂通信场景下海量数据中目标说话人检出的问题。
再次,针对防电诈领域特定主题的意图识别,从数据增强、要素抽取以及多策略融合等方面开展研究。首先,针对训练样本不足,研究了基于逻辑规则和知识图谱的数据增强算法,解决数据稀缺和不均衡问题;其次,针对海量无标签数据的语义特征学习,提出一种基于对比学习的意图识别方法,增强无监督学习的效果,同时实现新类别自适应拓展;再次,提出一种基于要素抽取的意图识别方法,利用关键要素的语义增强来缓解任务过程中长文本意图模糊和文本错误的影响;最后,提出了一种多策略融合的意图识别方法,实现高精准和高召回的诈骗意图检出。本文提出的方法实现了特定意图的精准检出。
基于上述研究工作,设计实现了一套防电信诈骗系统。综合应用文章研究的多种人工智能算法,完成海量并发数据实时接入、在线处理和算法服务流程构建的软件架构设计工作;同时,针对实际应用中诈骗剧本和诈骗人员信息缺失的问题,设计和实现了一套自主样本增广策略,能够实现半自动的模型迭代训练;最后,研发实现了完整可用的软硬件系统解决方案。
基于本文为核心而研发的防电信诈骗系统,创新实现了电话诈骗精准识别、智能预警,为预警防范电信诈骗犯罪提供了新技术途径和有力支撑。