关键词:
度量
安全分析
声纹识别
内容识别
语音学
语言学
声学特征
人工智能
统计分析
摘要:
语音,是人类传达信息的重要载体。随着数字化和智能化水平的提高,人类使用语音识别技术从语音中提取内容、说话者身份等信息。语音识别目前已在教育、医疗、车载、家居、制造等多个行业广泛应用,从各个方面改变人类的生产和生活方式。现有研究发现,语音识别存在大量安全与隐私问题,例如,重放语音可以欺骗声纹识别模型通过用户身份验证,进行诈骗或窃取用户钱财;对抗语音可以欺骗内容识别模型执行错误指令,导致财产损失甚至威胁人身安全;不法分子可以从语音识别模型中窃取语音数据,推导个人生物特征和机密谈话内容,威胁个人隐私安全和国家安全。然而,现有研究工作集中于提出单点的攻击和防御方法,难以发现多个安全问题的共性特性和本质原因,因此亟需对语音识别的安全问题进行统一分析与精准度量。本文针对声纹识别与内容识别中四个典型的安全问题,以语音学原理为基础,提出了面向语音识别的声纹与内容安全度量关键技术。
·针对对抗攻击下的语音内容安全问题,本文度量多种攻击下对抗音频的共性,揭示对抗音频的独特属性,分析对抗的工作原理和攻击成功原因并指导防御。语音识别模型将人类语音转换为文本,在语音控制、转录、搜索等场景中应用广泛。现有研究表明,内容识别模型易受对抗攻击威胁,然而目前缺乏对对抗音频特性的度量。为此,本文提出了一种基于声学特征的对抗音频共性特征度量方法,通过设计255种声学-统计特征来刻画语音特性,通过测量612,000个声学-统计特征向量,发现了对抗音频中填充能量间隙、类语音形态、信号无序、语言模式异常四类共性特征,分析了它们在攻击中的作用;提出了一种音频自然度评估指标来评价对抗音频的隐蔽性;形成了一种对抗样本检测器,实现了对多种对抗攻击的精准检测。与现有工作相比,本文探究了对抗音频共性特征这一关键问题,填补了现有工作的空白,增强了对对抗攻击原理的理解,有助于对抗攻击的精准防御。
·针对给定语音内容下的声纹安全问题,本文度量语音内容对声纹安全性的影响,分析准确提取声纹所需的最少语音内容,提升声纹识别的安全性。声纹作为重要的生物特征,已在金融交易、资产管理、刑侦、语音助手等行业中用于身份识别。然而,现有研究仅从模型和说话人的角度提升声纹的安全性,未度量不同语音内容对声纹安全性的影响。为此,本文提出了一种基于音素特征的语音内容声纹安全性度量方法,通过设计四种音素特征来刻画语音内容的分布空间,通过测量14,600,000条测试语句的声纹识别结果,发现了声纹安全性与音素特征之间的映射关系;提出了一种衡量语音内容声纹安全性的指标PROLE Score;评估了商用语音设备唤醒词的安全性,并对厂商和用户提出了安全建议。与现有工作相比,本文细粒度地探究了语音内容对声纹安全性的影响,实现了任意语音内容声纹安全性的评估,有助于提升声纹识别系统的安全性。
·针对重放攻击下的声纹安全问题,本文度量扬声器重放会造成的语音信号畸变,揭示不同重放方式产生畸变的共性,分析信号畸变的原因,指导重放攻击防御。现有研究表明,声纹识别易受重放攻击威胁,然而目前缺乏对重放产生的音频畸变的度量。为此,本文提出了一种基于声学特征的重放音频畸变度量方法,该方法从语音学的角度刻画了重放音频与真实语音在时频域上的能量分布差异和信号模型差异,测量了来自四种扬声器的重放音频和自适应重放音频,发现了重放会产生中低频能量下降、时频谱散射噪声、中高频细节缺失、录制缺陷增加、信号模型改变五类信号畸变,分析了畸变的来源;提出了一种轻量级的重放攻击检测方法,实现了对重放攻击和自适应重放攻击的精准检测。与现有工作相比,本文全面探究了重放造成的语音信号畸变,并对畸变产生的物理原理进行了分析与解释,有助于重放攻击的精准防御。
·针对声纹-内容信息耦合导致的隐私泄露问题,本文度量两类模型使用语音数据的耦合程度,分析与声纹或内容信息强相关的语音数据,探索信息解耦和数据去冗余的可能性,为保护语音系统的用户隐私提供理论基础。语音包含声纹、内容、情绪等多种耦合信息,可以被语音识别模型提取。然而,语音识别模型存在过量使用数据的问题,数据中的冗余信息可能导致用户隐私泄露。为此,本文提出了一种基于声学特征的声纹-内容信息耦合度量方法,通过构造语音数据基本单元和模型提取信息能力指标,设计了一种语音模型信息解析器;通过测量944,000条语音在五个语音模型中的识别结果,发现了声纹识别和内容识别模型对不同语音数据的敏感度和使用语音数据的重合度,对语音数据去冗余和隐私保护问题提出了建议。与现有工作相比,本文以语音模型为出发点探索了声纹和内容信息解耦的可能性,填补了此类工作的空白,有助于解决语音隐私问题。