当前位置: 首页 > 专利查询>广州大学专利>正文

联邦学习过程中模型梯度泄露标签信息的风险评估方法技术

技术编号:36029093 阅读:16 留言:0更新日期:2022-12-21 10:29
本发明专利技术涉及人工智能技术领域,公开了一种联邦学习过程中模型梯度泄露标签信息的风险评估方法,包括以下步骤:对L层的梯度按行求和得计算计算计算M=KC/B;将的每一个元素值遍历一次,若其中元素k的值则将k加入到真实标签的评估列表中,且将其加上M,否则不变;不断取的最小元素值,若标签k的梯度最小,则将k加入到真实标签的评估列表中,且将其加上M,否则不变,直到真实标签的评估列表中的元素与输入样本的批大小相等为止;结束,真实标签的评估列表即为样本标签列表。真实标签的评估列表即为样本标签列表。真实标签的评估列表即为样本标签列表。

【技术实现步骤摘要】
联邦学习过程中模型梯度泄露标签信息的风险评估方法


[0001]本专利技术涉及人工智能
的联邦学习数据隐私保护领域,具体涉及一种联邦学习过程中模型梯度泄露标签信息的风险评估方法。

技术介绍

[0002]随着信息处理能力和计算效率的显著提升,涌现了大量针对图像、文本、语音等数据进行处理的基于深度学习的应用。深度学习模型和应用依赖于大量高质量的数据,然而,现实中很少有单一的实体单位拥有大量数据,数据量少或是质量低都难以支撑深度学习模型的构建和应用。若将各个实体单位所拥有的相关数据收集在一起,又涉及到数据版权、隐私保护等问题。因此,以聚集形成规模数据效应、保护数据版权和隐私为初衷的联邦学习模型被设计出来并逐步得到应用。联邦学习是一个多参与方或多计算结点之间共享聚合机器学习模型梯度参数而不直接交换数据的分布式深度学习框架,以解决“数据共享与隐私保护的矛盾”问题。
[0003]然而在利用联邦学习进行多参与方模型训练时,参与方所共享的模型梯度被证实存在泄漏输入样本信息的风险,尤其是输入样本的标签。样本的标签不仅会泄漏参与方的训练样本分布情况,可能会引起商业秘密泄露和数据隐私保护的法律问题,甚至为数据窃取者打开方便之门,进一步窥探出输入样本的特征信息,因此保护输入样本的标签十分重要。本专利技术提出了一种新的梯度泄露标签的风险评估方法,可以满足联邦学习参与方在共享模型梯度前,利用该评估方法评估样本标签的泄露情况,并进一步有助于评估隐私保护策略的有效性。
[0004]现有的技术方案如下:
[0005]方案1:通过随机初始化一个伪样本(x
*
,y
*
),并输入到目标模型中获得伪梯度计算伪梯度与目标梯度之间的L2距离,通过Adam算法来最小化L2距离,从而更新伪样本,实现伪样本的标签y
*
尽可能地接近输入样本的标签y。
[0006]方案2:通过对分类层权重梯度进行如下公式计算而得。其中表示该层的第k个神经元输出与前一层第i个神经元输出的连接权重的梯度,存在一个标签k,其中任取一个标签m,当满足下式时,说明标签k是该方案推测的输入样本标签。
[0007][0008]方案3:通过对分类层权重梯度进行如下公式计算而得。对的每一行取最小值,并比较各行之间的大小,取最小的前B个标签作为推测的输入样本标签。
[0009][0010]上述现有技术的缺点如下:
[0011]方案1主要是基于优化目标函数的方法,该方案在目标样本批大小较大,模型层数较多时推测标签的准确率很低,因为其目标函数不仅要解决重构输入样本标签的,还兼顾着重构输入样本特征的任务,在上述方案2、3中已证实方案1中优化目标函数的方法是低效且困难的;
[0012]方案2,是通过对模型梯度公式的分析,总结出在样本批大小为1的情况下,分类层的模型梯度符号与真实标签存在对应关系(用分类层梯度按行求和的符号来代表第k个输出神经元的权重梯度符号),但对应关系在批大小大于1的情况下难以适用,其推测标签的准确率较低;
[0013]方案3,基于方案2的原理进行改进,对的每一行取最小值,并比较各行之间的大小,取最小的前B个标签作为推测的输入样本标签。由于该方案没有考虑到目标样本有重复标签的影响,而在实际的模型训练中,输入样本中标签重复的情况是常见的,伴随着标签重复率越大,该方案取得的推测标签准确率越低。
[0014]利用联邦学习对模型进行训练时,参与方需要共享出模型梯度进行多方融合并构建模型。常见情况是,构成模型梯度的目标样本的标签远大于1(128,256都是常见的),且在标签种类较少的场景时标签的重复率很高,然而目前没有一个有效的方案来评估共享的模型梯度泄露目标样本标签的风险性。
[0015]为此本专利技术提出了联邦学习过程中模型梯度泄露标签信息的风险评估方法。

技术实现思路

[0016](一)解决的技术问题
[0017]针对现有技术的不足,本专利技术提供一种联邦学习过程中模型梯度泄露标签信息的风险评估方法,以解决上述的问题。
[0018](二)技术方案
[0019]为实现上述所述目的,本专利技术提供如下技术方案:
[0020]一种联邦学习过程中模型梯度泄露标签信息的风险评估方法,包括以下步骤:
[0021]S1:对L层的梯度按行求和得其中
[0022]S2:计算
[0023]S3:计算M=KC/B;
[0024]S4:将的每一个元素值遍历一次,若其中元素k的值则将k加入到真实标签的评估列表中,且将其加上M,否则不变;
[0025]S5:不断取的最小元素值,若标签k的梯度最小,则将k加入到真实标签的评估列表中,且将其加上M,否则不变,直到真实标签的评估列表中的元素与输入样本的批大小相等为止。
[0026]S6:结束,真实标签的评估列表即为样本标签列表。
[0027]优选的,所述S1中K为标签个数,且其等于分类层神经元个数,n
[L

1]为分类层前一
层的输出元素个数,
[0028]优选的,所述S2中取的最大元素值作为C。
[0029]优选的,所述S3中B为输入样本的批大小。
[0030](三)有益效果
[0031]与现有技术相比,本专利技术提供的联邦学习过程中模型梯度泄露标签信息的风险评估方法,具备以下有益效果:
[0032]1、该联邦学习过程中模型梯度泄露标签信息的风险评估方法,在现有方案的基础上进行了改进,采用的不是优化目标函数的方法,现有方案严格证明了单样本输入的模型梯度符号与真实标签之间的对应关系的正确性,因此本专利技术也是有理论依据的,本专利技术的方法还考虑到了标签重复对模型梯度的影响,通过公式推导得到标签重复的梯度减幅为

KC/B,从而使得本专利技术能够很好地推测出标签重复的个数,达到了更高的推测标签准确率。
附图说明
[0033]图1为本专利技术实施例设计的联邦学习梯度泄露标签风险评估方法伪代码示意图;
[0034]图2为本专利技术实施例设计的联邦学习梯度泄露标签风险评估方法流程图。
具体实施方式
[0035]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0036]实施例
[0037]请参阅图1

2,本实施例提供的联邦学习过程中模型梯度泄露标签信息的风险评估方法,包括以下步骤:
[0038]S1:对分类层(称L层)的梯度按行求和得其中K为标签个数(=分类层神经元个数),n
[L

1]为分类层前一层的输出元素个数,
[0039]S2:计算取的最大元素值作为C;
[0040]S3:计算M=KC/本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联邦学习过程中模型梯度泄露标签信息的风险评估方法,其特征在于,包括以下步骤:S1:对L层的梯度按行求和得其中S2:计算S3:计算M=KC/B;S4:将的每一个元素值遍历一次,若其中元素k的值则将k加入到真实标签的评估列表中,且将其加上M,否则不变;S5:不断取的最小元素值,若标签k的梯度最小,则将k加入到真实标签的评估列表中,且将其加上M,否则不变,直到真实标签的评估列表中的元素与输入样本的批大小相等为止;S6:结束,真实标签的评估列表即为样本标签列表。2.根据...

【专利技术属性】
技术研发人员:王乐李钊华顾钊铨邓建宇谭灏南张登辉
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1