关键词:
自然语言处理
文本分类
后门攻击
数据安全
摘要:
近年来,随着自然语言处理(NLP)领域模型规模的不断扩大及训练资源需求的增加,第三方数据集、模型和训练平台的应用日益广泛,这显著增加了白盒攻击形式的文本后门攻击安全威胁。作为NLP的重要任务之一,文本分类已成为研究者关注的重点领域。当前针对文本分类的后门攻击方法研究趋势朝着隐蔽且动态触发器的方向发展。基于此背景,本文从攻击与防御两个角度出发,设计了相应的方法,并开发了一个文本后门安全评估与触发器过滤系统。本文的主要研究内容如下:
(1)针对动态触发器文本后门攻击的有效性和毒化样本质量问题,提出了一种基于注意力机制的动态触发器文本后门攻击方法(DTBAM)。该方法利用语义信息筛选规则及依赖于目标模型权重训练出的毒化操作选择模型,生成高质量的毒化样本,并通过注意力机制增强后门注入效果。
(2)为了解决现有部署阶段的文本后门触发过滤方法对动态触发器过滤能力不足的问题,提出了一种基于隐藏特征的在线触发器过滤防御方法(HF-OTF)。该方法通过提取目标模型隐藏层中的特征来训练触发检测器,从而实现对触发器的高效检测与过滤。
(3)基于上述研究成果,本文开发了一个文本后门安全评估与触发器过滤系统。该系统经过需求分析、概要设计、详细设计等阶段精心构建,确保其实现符合预期目标。系统集成了第三章提出的算法及其他几种文本后门攻击方法,能够对用户提供的模型进行安全评估,揭示潜在的脆弱性。同时,第四章提出的算法也被集成其中,提供了一个便捷的在线触发器过滤工具,使用户能够更有效地进行实时防护。
通过在公开数据集和现有算法上的实验,本文提出的文本后门攻击与防御方法均展现出优越性能,超越了对比方法。攻击方法提高了触发器隐蔽性和攻击成功率,而防御方法则通过隐藏特征在线过滤显著增强了模型的安全性。这些创新为文本分类领域的后门安全提供了新的解决方案。此外,本文开发的系统进一步保障了模型的后门安全,提升了整体安全性。