System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向敏感大数据安全共享的联邦学习隐私保护方法及系统技术方案_技高网

面向敏感大数据安全共享的联邦学习隐私保护方法及系统技术方案

技术编号:41123426 阅读:2 留言:0更新日期:2024-04-30 17:49
本发明专利技术公开了一种面向敏感大数据安全共享的联邦学习隐私保护方法包括如下步骤:S1、中心方和参与方构建全局模型;S2、中心方初始化全局模型并发送给参与方;S3、参与方根据本地数据集对全局模型进行训练得到本地模型参数;S4、参与方使用差分隐私方法对本地模型参数进行扰动;S5、参与方将扰动后的本地模型参数发送给中心方;S6、中心方对所有参与方发送的本地模型参数进行聚合,聚合后得到下一轮的全局模型,并将次发送给参与方;S7、重复步骤S3‑S6,直至全局迭代结束,该方法减小由于参与方较少时导致的模型误差,有效实现在敏感数据隐私性和政务模型性能之间的权衡。

【技术实现步骤摘要】

本专利技术涉及联邦学习和隐私保护,具体而言涉及一种面向敏感大数据安全共享的联邦学习隐私保护方法及系统


技术介绍

1、近年来,随着大数据技术的兴起、人工智能的回潮,世界各国在各个领域广泛探讨并应用人工智能与机器学习技术。各行各业通过收集并分析处理海量数据,利用深度学习方法进行建模,该智能模型不仅提高了工作效率和质量,也有效地辅助解决了复杂问题和挑战,提升了行业竞争力和创新性,同时人工智能的应用帮助实现更好的用户体验和社会效益。

2、但各领域数据都包含敏感数据,例如政务数据会涉及研究对象的敏感信息,特别当研究对象是社会个体或组织时,即个人识别信息、医疗健康信息、金融交易信息等,企业的合同交易、纳税、财务报表等,数据安全和隐私保护的要求使得这些数据无法聚合起来,形成数据孤岛;而单个业务部门的数据样本量又不足以支撑大规模的政务模型训练,导致模型性能不佳以及难以实现数据价值等问题。所以如何在不泄露研究对象隐私的前提下,提升政务模型性能,实现政务大数据的安全共享、研究对象隐私保护、大数据时代长远而健康地发展,是当前政务领域研究的重点之一。

3、联邦学习作为一种分布式机器学习框架,在中心政务部门不收集各个业务部门原始数据的基础上,整合多方的模型数据联合训练,实现多方联合建模、共享模型。即使是政务数据较少的部门,也能获得效果较好的模型,有效地解决以上问题。然而业务部门上传的模型参数仍会泄露研究对象隐私,甚至根据模型参数能还原出研究对象的个人信息,这也是联邦学习面临的隐私保护挑战。

4、为了防止攻击者从中推断出各业务部门的原始训练数据集的隐私信息,现有方法将差分隐私技术应用到联邦学习中。然而,现有方法仍存在以下缺陷:

5、(1)由于政务数据隐私性和政务模型性能之间的权衡,数据过度保护或保护不足分别会导致模型性能不佳、隐私性不强的问题;

6、(2)当业务参与部门数量较少,例如敏感级、秘密级政务数据往往存于少量政府部门等,并且需要较强的隐私保护时,构建的政务模型效果将大打折扣,辅助决策结果存在误差。


技术实现思路

1、为解决现有方法将差分隐私技术应用到联邦学习中仍存在的缺陷,本专利技术提供了一种面向敏感大数据安全共享的联邦学习隐私保护方法及系统,以各业务参与部门通过内部数据训练后的模型参数作为输入,使用差分隐私保证的联邦学习方法,保证业务部门上传的参数得到隐私保护,并且最终联合建模、共享模型。减小由于业务参与部门较少时导致的模型误差,有效实现在敏感数据隐私性和政务模型性能之间的权衡。

2、为了解决上述技术问题,本专利技术的技术方案为:

3、一种面向敏感大数据安全共享的联邦学习隐私保护方法,包括如下步骤:

4、s1、中心方和参与方构建全局模型;

5、s2、中心方初始化全局模型并将全局模型发送给参与方;

6、s3、参与方根据本地数据集对全局模型进行训练得到本地模型参数;

7、s4、参与方使用差分隐私方法对本地模型参数进行扰动;

8、s5、参与方将扰动后的本地模型参数发送给中心方;

9、s6、中心方对所有参与方发送的本地模型参数进行聚合,聚合后得到下一轮的全局模型,并将次发送给参与方;

10、s7、重复步骤s3-s6,直至全局迭代结束。

11、作为优选,所述步骤s1中全局模型的构建方法:通过中心方的目标和关联m个参与方的需求,构建合适的全局模型,例如面对人脸识别需求构建卷积神经网络模型等。并且参与方由一个中心方进行协调。

12、作为优选,步骤s2的发送全局模型的方法为:中心方随机选择一个包含m个(0<m≤m)参与方的子集,并分发当前第t轮的全局模型wt,此处为初始轮。

13、作为优选,所述步骤s3中,参与方的共同目标为,在保证原始敏感数据不出本地的前提下,协同地训练一个联合的全局模型,全局模型的参数用w表示,本地数据集用ds表示。

14、作为优选,所述步骤s3中,通过随机梯度下降算法进行训练。

15、作为优选,所述随机梯度下降算法具体如下:

16、

17、其中,wge表示第ge轮全局模型,表示第s个参与方更新后的本地模型参数,γ为固定的学习率,l为损失函数。

18、作为优选,所述步骤s4的具体方法如下:

19、s41、根据本地模型参数的每个权重计算其中,w为本地模型参数中的一个权重,t为该权重的正负方向,其中,t∈{-1,1};

20、s42、在[0,1]内均匀地取一个随机数x;

21、s43、如果那么t*在[l(t),r(t)]上均匀取一个随机数,否则,t*在[-r(t),-l(t)]上均匀取一个随机数,其中,ε为隐私预算,t*∈[-c,-1]∪[1,c],r(t)=l(t)+c-1,

22、s44、将s41中的权重w计算得w=|w|·t*,返回步骤s41直至该本地模型参数所有权重都进行扰动,否则执行步骤s5。

23、作为优选,所述步骤s43中,t*的概率密度函数如下:

24、

25、其中,

26、满足ε-本地化差分隐私,使参数的正负不可区分,证明如下:

27、对于以及任意的输入值t,t’=1 or-1,都满足

28、

29、作为优选,所述步骤s6中,所述中心方收集的本地模型参数表示为:中心方通过聚合规则agg对参与方本地模型参数进行聚合,从而得到下一轮迭代的新全局模型参数权重

30、本专利技术还提供了一种面向敏感大数据安全共享的联邦学习隐私保护系统,包括:

31、全局模型上传及下发模块,用于由中心方将全局模型wge下发至部分参与方,以及所述参与方将扰动后的全局模型参数上传至中心方;

32、全局模型训练模块,用于由参与方根据本地数据集对下发的全局模型进行训练得到本地模型参数;

33、全局模型扰动模块,用于由参与方使用本地化差分隐私方法对本地模型参数进行扰动;

34、全局模型聚合模块,用于由中心方对所有参与方发送的全局模型参数进行聚合,聚合后得到最终全局模型。

35、本专利技术具有以下的特点和有益效果:

36、(1)在具有复杂数据集的联邦学习中切实可行;

37、(2)当参与方数量较少,并且需要较强的隐私保护时,构建的政务模型效果相比更佳,减小了辅助决策结果的误差。

38、(3)克服了现有技术难以在合理的政务数据隐私性与政务模型性能之间取得较好平衡的问题,达到了合理保证数据隐私及模型精度的效果。

本文档来自技高网...

【技术保护点】

1.一种面向敏感大数据安全共享的联邦学习隐私保护方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的面向敏感大数据安全共享的联邦学习隐私保护方法,其特征在于,所述步骤S1中全局模型的构建方法:通过中心方的目标和关联M个参与方的需求,构建合适的全局模型,并且参与方由一个中心方进行协调。

3.根据权利要求1所述的面向敏感大数据安全共享的联邦学习隐私保护方法,其特征在于,步骤S2的发送全局模型的方法为:中心方随机选择一个包含m个(0<m≤M)参与方的子集,并分发当前第t轮的全局模型Wt,此处为初始轮。

4.根据权利要求1所述的面向敏感大数据安全共享的联邦学习隐私保护方法,其特征在于,所述步骤S3中,参与方的共同目标为,在保证原始敏感数据不出本地的前提下,协同地训练一个联合的全局模型,全局模型的参数用W表示,本地数据集用Ds表示。

5.根据权利要求1所述的面向敏感大数据安全共享的联邦学习隐私保护方法,其特征在于,所述步骤S3中,通过随机梯度下降算法进行训练。

6.根据权利要求5所述的面向敏感大数据安全共享的联邦学习隐私保护方法,其特征在于,所述随机梯度下降算法具体如下:

7.根据权利要求6所述的面向敏感大数据安全共享的联邦学习隐私保护方法,其特征在于,所述步骤S4的具体方法如下:

8.根据权利要求7所述的面向敏感大数据安全共享的联邦学习隐私保护方法,其特征在于,所述步骤S43中,t*的概率密度函数如下:

9.根据权利要求7所述的面向敏感大数据安全共享的联邦学习隐私保护方法,其特征在于,所述步骤S6中,所述中心方收集的本地模型参数表示为:中心方通过聚合规则Agg对参与方本地模型参数进行聚合,从而得到下一轮迭代的新全局模型参数权重

10.一种面向敏感大数据安全共享的联邦学习隐私保护系统,其特征在于,包括

...

【技术特征摘要】

1.一种面向敏感大数据安全共享的联邦学习隐私保护方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的面向敏感大数据安全共享的联邦学习隐私保护方法,其特征在于,所述步骤s1中全局模型的构建方法:通过中心方的目标和关联m个参与方的需求,构建合适的全局模型,并且参与方由一个中心方进行协调。

3.根据权利要求1所述的面向敏感大数据安全共享的联邦学习隐私保护方法,其特征在于,步骤s2的发送全局模型的方法为:中心方随机选择一个包含m个(0<m≤m)参与方的子集,并分发当前第t轮的全局模型wt,此处为初始轮。

4.根据权利要求1所述的面向敏感大数据安全共享的联邦学习隐私保护方法,其特征在于,所述步骤s3中,参与方的共同目标为,在保证原始敏感数据不出本地的前提下,协同地训练一个联合的全局模型,全局模型的参数用w表示,本地数据集用ds表示。

5.根据权利要求1所述的面向...

【专利技术属性】
技术研发人员:王冬刘容轲任一支袁理锋
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1