样本标签隐私风险评估方法、系统及存储介质技术方案

技术编号:35429793 阅读:13 留言:0更新日期:2022-11-03 11:34
本发明专利技术涉及一种样本标签隐私风险评估方法、系统及存储介质,包括:S1.选定一批样本作为待训练样本并在全局模型上计算得到全局模型最后一层全连接网络的梯度;S2.构建正则化项;S3.加载辅助数据集;S4.设定训练转换矩阵的超参数;S5.加载转换矩阵;S6.随机从辅助数据集中抽取一批样本,在当前全局模型上计算对应的梯度G;S7.从梯度G中获取全局模型最后一层全连接层的梯度;将按行求和得到向量;S8.基于向量训练转换矩阵的参数;S9.重复步骤S6

【技术实现步骤摘要】
样本标签隐私风险评估方法、系统及存储介质


[0001]本专利技术涉及人工智能
,更具体地,涉及一种基于可学习转换矩阵的样本标签隐私风险评估方法、系统及存储介质。

技术介绍

[0002]在联邦学习等分布式隐私计算场景中,众多客户端与服务器构成一个闭环。在某一次全局模型迭代更新中,客户端需要从本地数据集中抽取一批样本参与模型的训练。一批样本包含的样本数目为批大小,每个样本由一组特征标签对(x,y)构成,符号x表示样本特征,y表示样本标签。客户端利用该批样本在全局的深度学习模型上计算出模型梯度,并将梯度发送至服务器;服务器负责接收各客户端的梯度并进行梯度融合,以形成一个新的深度学习模型,并将其回传给各客户端。其中客户端需要对所发送的梯度进行隐私安全评估,评估梯度是否会泄露样本的标签信息,因为标签信息的泄露是造成样本特征等更严重的隐私泄露的关键要素。
[0003]目前,样本标签隐私风险评估的主流思路是构建一种更高标签重构的算法,以实现模拟出泄露的上限能力,即以实际的泄露效果来指示风险,因此要求较高的标签重构精度。过去的方案如通过梯度的正负符号和幅值大小来直接推断标签信息的方式存在较大局限性,基于单个梯度的推断是片面的,因此在实际应用中所取得的标签重构精度较低。

技术实现思路

[0004]本专利技术的专利技术目的在于提供一种基于可学习转换矩阵的样本标签隐私风险评估方法,其通过构建转换矩阵,通过该转换矩阵来进行梯度到标签的映射。转换矩阵的参数是通过大量的相似标签的样本的梯度进行优化的,因此梯度到标签的转换过程是可学习的,提高了梯度泄露标签的精度,其实现的评估效果更趋近于梯度泄露数据的能力上限,起到更好的风险评估效果。
[0005]为实现以上专利技术目的,采用的技术方案是:一种样本标签隐私风险评估方法,包括以下步骤:S1.选定一批样本作为待训练样本并在全局模型上计算得到全局模型最后一层全连接网络的梯度;S2.构建正则化项;S3.加载辅助数据集;S4.设定训练转换矩阵的超参数;S5.加载转换矩阵;S6.随机从辅助数据集中抽取一批样本,在当前全局模型上计算对应的梯度G;S7. 从梯度G中获取全局模型最后一层全连接层的梯度;将按行求和得到向量;S8.基于向量训练转换矩阵的参数;
S9.重复步骤S6

S8直至达到为转换矩阵设定的超参数;S10.基于训练好的转换矩阵对待训练样本的梯度进行标签泄露的风险评估。
[0006]优选地,所述步骤S2构建正则化项,具体表示为:,具体表示为:其中,为求取的转换矩阵T的模大小;M为全局模型倒数第二层网络的神经元个数,即为目标模大小约束;表示求取模值大小操作;B为批大小;K为标签种类个数;表示梯度按行求和得到的维度为K的向量;梯度表示为维度为M*K矩阵。
[0007]优选地,所述步骤S3加载辅助数据集,具体包括:在本地数据集中抽取所有符合要求的样本构成辅助数据集;辅助数据集中,样本的标签是待训练样本中存在的标签。
[0008]优选地,所述步骤S4设定训练转换矩阵的超参数,具体包括:训练总轮次、学习率、正则化权重、批大小;所述步骤S9中,当训练的轮次达到设定的训练总轮次时,执行步骤S10。
[0009]优选地,所述步骤S5加载转换矩阵,具体包括:对转换矩阵中的数值以正态分布进行初始化,矩阵维度为K
×
K。
[0010]优选地,所述步骤S6随机从辅助数据集中抽取一批样本,在当前全局模型上计算对应的梯度G,具体包括:所述抽取的该批样本的标签列表设为Y,标签列表Y共有K个元素,元素的数值表示为某一类标签的数目;基于标签列表Y在当前全局模型上计算该批样本对应的梯度G。
[0011]优选地,所述步骤S8基于向量训练转换矩阵的参数,具体包括:梯度向量乘上转换矩阵T得到向量Z:向量Z经过Softmax函数转换,并乘上批大小B得到预测的标签列表:其中标签列表中的元素表示如下:其中e=2.71,为尤拉常数;j的取值范围为1~K;利用平均绝对误差衡量预测的标签列表和抽取的样本的真实标签列表Y的差异值加上正则化项作为训练的损失值:其中为正则化权重;为标签列表Y中的第i个元素;计算损失值对转换矩阵T的偏导,利用所述偏导更新转换矩阵:
,为学习率。
[0012]优选地,所述步骤S10基于训练好的转换矩阵对待训练样本的梯度进行标签泄露的风险评估具体包括:基于向量计算向量:;对待训练样本的标签列表进行预测,得到预测的标签列表:求取风险评估值:其中表示中的第i个元素,为待训练样本的真实标签列表中的第i个元素。
[0013]同时,本专利技术还提供了一种样本标签隐私风险评估系统,其应用以上所述的样本标签隐私风险评估方法,包括:梯度计算模块、初始化模块、转换矩阵训练模块及风险评估模块;所述梯度计算模块用于执行步骤S1;初始化模块用于执行步骤S2

S4;转换矩阵训练模块用于执行步骤S5

S9;风险评估模块用于执行步骤S10。
[0014]另外,本专利技术还提供了一种存储介质,包括存储器及处理器,所述存储器内存储有程序,所述程序被所述处理器执行时,执行以上所述方法的方法步骤。
[0015]与现有技术相比,本专利技术的有益效果是:(1)本专利技术提供的方法通过构建转换矩阵,通过该转换矩阵来进行梯度到标签的映射。转换矩阵的参数是通过大量的相似标签的样本的梯度进行优化的,因此梯度到标签的转换过程是可学习的,提高了梯度泄露标签的精度,其实现的评估效果更趋近于梯度泄露数据的能力上限,起到更好的风险评估效果。
[0016](2)本专利技术提供的方法所设计的转换矩阵的参数只有个,其中为标签种类的个数,相比于客户端所使用的全局深度学习模型来说其参数量较小,因此无论在训练或是应用上都能够高效地执行。
[0017](3)本专利技术提供的方法在转换矩阵的训练过程中,引入了正则化的约束,该约束有效地将转换矩阵的参数的搜索空间控制在有效范围内。
附图说明
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0019]图1为样本标签隐私风险评估方法的流程示意图。
[0020]图2为样本标签隐私风险评估系统的结构示意图。
[0021]图3为存储介质的结构示意图。
具体实施方式
[0022]为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。实施例1如图1所示,本专利技术提供的样本标签隐私风险评估方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本标签隐私风险评估方法,其特征在于:包括以下步骤:S1.选定一批样本作为待训练样本并在全局模型上计算得到全局模型最后一层全连接网络的梯度;S2.构建正则化项;S3.加载辅助数据集;S4.设定训练转换矩阵的超参数;S5.加载转换矩阵;S6.随机从辅助数据集中抽取一批样本,在当前全局模型上计算对应的梯度G;S7. 从梯度G中获取全局模型最后一层全连接层的梯度;将按行求和得到向量;S8.基于向量训练转换矩阵的参数;S9.重复步骤S6

S8直至达到为转换矩阵设定的超参数;S10.基于训练好的转换矩阵对待训练样本的梯度进行标签泄露的风险评估。2.根据权利要求1所述的样本标签隐私风险评估方法,其特征在于:所述步骤S2构建正则化项,具体表示为:,具体表示为:其中,为求取的转换矩阵T的模大小;M为全局模型倒数第二层网络的神经元个数,即为目标模大小约束;表示求取模值大小操作;B为批大小;K为标签种类个数;表示梯度按行求和得到的维度为K的向量;梯度表示为维度为M*K矩阵。3.根据权利要求1所述的样本标签隐私风险评估方法,其特征在于:所述步骤S3加载辅助数据集,具体包括:在本地数据集中抽取所有符合要求的样本构成辅助数据集;辅助数据集中,样本的标签是待训练样本中存在的标签。4.根据权利要求2所述的样本标签隐私风险评估方法,其特征在于:所述步骤S4设定训练转换矩阵的超参数,具体包括:训练总轮次、学习率、正则化权重、批大小;所述步骤S9中,当训练的轮次达到设定的训练总轮次时,执行步骤S10。5.根据权利要求4所述的样本标签隐私风险评估方法,其特征在于:所述步骤S5加载转换矩阵,具体包括:对转换矩阵中的数值以正态分布进行初始化,矩阵维度为K
×
K。6.根据权利要求5所述的样本标签隐私风险评估方法,其特征在于:所述步骤S6随机从辅助数据集中抽取一...

【专利技术属性】
技术研发人员:赖方民
申请(专利权)人:广州优刻谷科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1