背景:机器学习的成功依赖于大规模数据集的可用性。然而,最近的研究表明,在这些数据集上训练的模型容易受到隐私攻击,其中成员推理攻击(membership inference attack, MIA)带来了严重的隐私风险。MIA允许对手推断样本是否属于目标模型的训练数据集,虽然目前已经提出了多种针对MIA的防御方法,如差分隐私和对抗性正则化,但它们会导致模型的可用性受损。因此,高可用性的成员推理攻击防御方案的研究是近年来学术界的重要关注点。
论文成果:本论文提出了一种基于生成对抗网络(generative adversarial network,GAN)的成员推理攻击防御方法,旨在保证模型抵御MIA攻击的同时保持模型的准确性,防御框架如图所示。具体来说,在隐私保护方面,我们用GAN生成的数据替代原始训练数据,通过避免攻击者接触原始训练数据训练的模型,实现了对成员推理攻击的抵抗。在可用性保证方面,我们使用SOTA GAN生成高质量的替代数据,为了保证在小数据集上经过GAN训练的模型具有较高的可用性,本论文采用了两种不同的GAN结构,并采用特殊的训练技术分别对图像数据和表数据进行处理。实验结果表明,该防御方案在不同的数据集上对现有的攻击方案都有最强的防御效果,与目前最先进的MIA防御方案相比,具有最好的防御性能,在达到完全防御的同时能实现可用性的零损失。
意义:借助GAN的生成能力生成替代目标模型训练数据的数据,能够达到对成员推理攻击完全防御的同时能实现可用性的零损失。在这一防御角度上的成功,也将有利于进一步推动成员推理攻击本质的分析,探索更高效、高可用的隐私防御方案,为构建隐私安全的人工智能系统提供关键支撑。
期刊介绍:IEEE Transactions on Dependable and Secure Computing (IEEE TDSC)为网络与信息安全领域全球最顶级的刊物,为SCI 1区刊物,在中国计算机学会(CCF)网络信息安全领域推荐的A类刊物中排名第一。
作者介绍:该论文第一作者为我院博士研究生胡丽,导师李进教授,论文合作者包括英国纽卡斯尔大学董长宇教授和我院硕士研究生林观彪、彭诗煜、张镇鑫、张盈盈。