关键词:
协作式机器学习
隐私保护
同态加密
差分隐私
摘要:
随着信息时代的飞速发展,网络边缘设备的普及,数据多点分布爆炸式增长,协作式机器学习迎来了更广阔的发展前景。在协作式机器学习中,多个参与者在私有数据训练本地模型,通过交换模型信息或中间计算结果来训练共享模型。协作式机器学习已然成为当今解决数据孤岛问题、建立数据协作的新范式。然而,有研究表明通过分析参与者之间传递的消息依旧可以推理出用户数据中的敏感信息,因此协作式机器学习仍面临严峻的隐私泄露风险。本文针对现有协作式机器学习方法中隐私保护能力不足问题,根据数据不同分布形式展开研究,提出多种隐私保护机制下的协作式机器学习方法,在确保用户数据隐私不被泄露的前提下兼顾模型效用、计算效率及系统开销。本文主要的工作概括如下:
首先,面向数据横向分布场景,针对现有联邦学习方法在模型聚合过程中客户端模型参数泄露用户隐私问题,提出基于知识蒸馏和混洗模型的安全联邦聚合方法。该方法通过上传在公开数据集上的预测标签替代上传本地模型,避免服务器根据客户端上传的模型参数推理用户敏感信息。此外,利用混洗模型并结合本地化差分隐私技术,该方法将现有的联邦学习扩展到编码、混洗、分析安全架构下,使客户端输出的预测标签匿名化。经理论推导证明该方法满足差分隐私机制并且给出误差边界,实验结果表明引入混洗模型能够增强隐私保护效果,该方法在保持模型性能的同时优化通信效率。
其次,面向大规模图数据横向分布场景,针对现有基于参数扰动的联邦学习方法难以平衡隐私保护程度与模型效用问题,提出基于低维空间扰动的图联邦学习方法。该方法冻结图嵌入层,仅在本地进行图数据的特征提取,保护隐私同时减少通信开销。同时,在利用差分隐私扰动模型参数前,先将模型参数映射到低维空间再加入噪声,以减少所需噪声的尺度。在同等隐私保护级别下,通过减轻模型扰动来提升模型的预测性能。在社交网络数据集上进行实验,结果表明该方法可以同时兼顾模型效用、隐私保护及通信效率。
再次,面向数据纵向分布场景,针对协作式逻辑回归方法无法抵抗半诚实参与者攻击问题,提出两方协作和多方协作的隐私保护逻辑回归方法。上述两种方法均包含隐私保护的训练过程与预测过程。两方协作的隐私保护逻辑回归方法利用加法同态加密技术,使得两方在密文下完成梯度下降和模型更新。多方协作的隐私保护逻辑回归方法通过一个全局服务器进行消息传递,同时利用安全多方计算和加法同态加密技术实现安全计算。上述方法均实现密文下的预测,确保模型部署方无法获取模型使用者的输入数据。在多组数据集上进行实验,并进行安全性及性能分析,结果表明提出的两种协作式逻辑回归方法均可以在保证模型精度前提下,抵抗半诚实参与者的攻击,保护协作参与方的数据隐私安全。
最后,面向数据不均衡分布场景,针对传统迁移学习存在源域数据和目标域数据相互暴露问题,提出隐私保护的协作式迁移学习方法。该方法通过引入一个全局服务器,将集中式迁移学习架构改变成联邦学习架构。源域和目标域作为客户端在本地进行训练,并利用全局服务器进行通信完成模型学习和知识迁移。同时利用同态加密保证传输和计算安全,源域、目标域和全局服务器之间进行密文消息传输,并在密文下进行域间适配和模型更新。对本方法进行了安全性分析,证实源域和目标域在协作过程中无法获得对方的隐私信息,同时可以抵抗半诚实服务器和恶意第三方攻击。实验结果表明,此方法可以在几乎不损失精度的前提下,实现安全的知识迁移。
本文关于面向隐私保护的协作式机器学习方法的研究成果,将有益于进一步实现“数据可用而不可见”模式下的隐私计算,在满足用户隐私保护、数据安全和政府法规的前提下,为解决数据孤岛问题,实现跨组织的数据合作奠定良好基础,为构建协同互联、数据流通的新未来提供重要支撑。