样本标签隐私风险评估方法、系统及存储介质技术方案

技术编号：35429793 阅读：13 留言：0更新日期：2022-11-03 11:34

本发明专利技术涉及一种样本标签隐私风险评估方法、系统及存储介质，包括：S1.选定一批样本作为待训练样本并在全局模型上计算得到全局模型最后一层全连接网络的梯度；S2.构建正则化项；S3.加载辅助数据集；S4.设定训练转换矩阵的超参数；S5.加载转换矩阵；S6.随机从辅助数据集中抽取一批样本，在当前全局模型上计算对应的梯度G；S7.从梯度G中获取全局模型最后一层全连接层的梯度；将按行求和得到向量；S8.基于向量训练转换矩阵的参数；S9.重复步骤S6

全部详细技术资料下载

【技术实现步骤摘要】
样本标签隐私风险评估方法、系统及存储介质

[0001]本专利技术涉及人工智能
，更具体地，涉及一种基于可学习转换矩阵的样本标签隐私风险评估方法、系统及存储介质。

技术介绍

[0002]在联邦学习等分布式隐私计算场景中，众多客户端与服务器构成一个闭环。在某一次全局模型迭代更新中，客户端需要从本地数据集中抽取一批样本参与模型的训练。一批样本包含的样本数目为批大小，每个样本由一组特征标签对(x,y)构成，符号x表示样本特征，y表示样本标签。客户端利用该批样本在全局的深度学习模型上计算出模型梯度，并将梯度发送至服务器；服务器负责接收各客户端的梯度并进行梯度融合，以形成一个新的深度学习模型，并将其回传给各客户端。其中客户端需要对所发送的梯度进行隐私安全评估，评估梯度是否会泄露样本的标签信息，因为标签信息的泄露是造成样本特征等更严重的隐私泄露的关键要素。
[0003]目前，样本标签隐私风险评估的主流思路是构建一种更高标签重构的算法，以实现模拟出泄露的上限能力，即以实际的泄露效果来指示风险，因此要求较高的标签重构精度。过去的方案如通过梯度的正负符号和幅值大小来直接推断标签信息的方式存在较大局限性，基于单个梯度的推断是片面的，因此在实际应用中所取得的标签重构精度较低。

技术实现思路

[0004]本专利技术的专利技术目的在于提供一种基于可学习转换矩阵的样本标签隐私风险评估方法，其通过构建转换矩阵，通过该转换矩阵来进行梯度到标签的映射。转换矩阵的参数是通过大量的相似标签的样本的梯度进行优化的，因此梯度到标签...

【技术保护点】

【技术特征摘要】
1.一种样本标签隐私风险评估方法，其特征在于：包括以下步骤：S1.选定一批样本作为待训练样本并在全局模型上计算得到全局模型最后一层全连接网络的梯度；S2.构建正则化项；S3.加载辅助数据集；S4.设定训练转换矩阵的超参数；S5.加载转换矩阵；S6.随机从辅助数据集中抽取一批样本，在当前全局模型上计算对应的梯度G；S7. 从梯度G中获取全局模型最后一层全连接层的梯度；将按行求和得到向量；S8.基于向量训练转换矩阵的参数；S9.重复步骤S6
‑
S8直至达到为转换矩阵设定的超参数；S10.基于训练好的转换矩阵对待训练样本的梯度进行标签泄露的风险评估。2.根据权利要求1所述的样本标签隐私风险评估方法，其特征在于：所述步骤S2构建正则化项，具体表示为：，具体表示为：其中，为求取的转换矩阵T的模大小；M为全局模型倒数第二层网络的神经元个数，即为目标模大小约束；表示求取模值大小操作；B为批大小；K为标签种类个数；表示梯度按行求和得到的维度为K的向量；梯度表示为维度为M*K矩阵。3.根据权利要求1所述的样本标签隐私风险评估方法，其特征在于：所述步骤S3加载辅助数据集，具体包括：在本地数据集中抽取所有符合要求的样本构成辅助数据集；辅助数据集中，样本的标签是待训练样本中存在的标签。4.根据权利要求2所述的样本标签隐私风险评估方法，其特征在于：所述步骤S4设定训练转换矩阵的超参数，具体包括：训练总轮次、学习率、正则化权重、批大小；所述步骤S9中，当训练的轮次达到设定的训练总轮次时，执行步骤S10。5.根据权利要求4所述的样本标签隐私风险评估方法，其特征在于：所述步骤S5加载转换矩阵，具体包括：对转换矩阵中的数值以正态分布进行初始化，矩阵维度为K
×
K。6.根据权利要求5所述的样本标签隐私风险评估方法，其特征在于：所述步骤S6随机从辅助数据集中抽取一...

【专利技术属性】
技术研发人员：赖方民，
申请(专利权)人：广州优刻谷科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人