面向样本不均衡场景下的联邦学习优化方法、装置及系统制造方法及图纸

技术编号:37131367 阅读:29 留言:0更新日期:2023-04-06 21:29
本发明专利技术公开了一种面向样本不均衡场景下的联邦学习优化方法、装置及系统。所述方法包括:获取各参与者的本地训练样本集中的样本数量;生成业务初始模型;基于各参与者的本地训练样本集对所述业务初始模型进行联合学习训练,得到一全局模型;将所述全局模型分发各参与者,以使所述样本数量不小于一阈值的参与者将所述全局模型作为最终模型,以及所述样本数量小于所述阈值的参与者基于本地数据对所述全局模型进行迭代优化,并将训练后的模型作为最终模型。本发明专利技术更好的实现了参与者在样本不均衡场景下的数据安全共享和高效合作建模。均衡场景下的数据安全共享和高效合作建模。均衡场景下的数据安全共享和高效合作建模。

【技术实现步骤摘要】
面向样本不均衡场景下的联邦学习优化方法、装置及系统


[0001]本专利技术涉及隐私计算领域,尤其一种面向样本不均衡场景下的联邦学习优化方法、装置及系统。

技术介绍

[0002]随着AlphaGo的成功落地,深度学习在工业界和日常生活中都表现出极为重要的使用价值,例如推荐系统、人脸识别、态势感知等领域。然而,绝大多数企业都存在数据量少和数据质量差的问题,这很大程度上限制了深度学习技术的广泛应用。因此,跨领域、跨行业、跨地域的机构间数据共享成为促进资源优化配置、提高生产要素效率的重要力量。在工业生产中,商业公司的数据包含巨大的商业价值、个人隐私信息等敏感要素。另一方面,国内外监管环境也在逐步加强数据保护,陆续出台相关政策限制数据非安全共享,如我国的《数据安全法》、欧盟最近引入的新法案《通用数据保护条例》(GDPR)等。因此打破“数据孤岛壁垒”,建立数据共享的安全机制,实现深度学习工地落地和数据隐私保护的正向博弈,成为了国家和企业的一大挑战。
[0003]为了解决数据“孤岛”和隐私问题,联邦学习应运而生。联邦学习是由McMahan于2017年提出的一种安全分布式机器学习框架,在保证数据可用不可见的情况下,通过共享本地模型参数来训练一个具有全局性的模型。2019年,谷歌实现了首个产品级的联邦学习系统。该系统应用在手机端,将用户使用搜索功能过程中潜在的隐私信息保留在设备上,并通过共享本地设备的模型梯度实现一个用户输入法预测模型。随着企业、医院等机构的智能化应用以及大数据共享需求,2019年杨强教授等人提出了面向跨组织的联邦学习概念,包括横向联邦学习、纵向联邦学习和联邦迁移学习。同年,微众银行人工智能团队自研的全球首个面向联邦学习工业级开源框架FATE,为机器学习、深度学习、迁移学习算法提供高性能的安全计算支持,能有效解决在保护数据隐私的前提下如何实现跨机构AI协作的问题。
[0004]Google提出的联邦学习框架和微众银行实现的联邦学习框架均作出假设:联邦参与者间的训练样本量和训练样本分布应满足均衡的条件。然而,现实生活中企业间的业务数据类型、数据收集方式不同,导致企业间的样本分布不同,从而影响模型精度。另外,由于数据人工标注对于部分企业是一件开销较大的工程,所以拥有数据量少的企业参与联邦学习时,便会导致样本不均衡的场景,该场景会加剧联邦模型精度的大幅度下降,同时降低各个企业与中央服务器之间的通信效率。具体情况如下:
[0005]1、样本不均衡下联邦学习模型精度下降
[0006]联邦平均算法是最常用的联邦学习训练算法,该算法的大致流程:联邦网络中的参与者利用随机梯度下降算法在本地样本集上训练本地模型,然后将模型参数传递给可信的第三方服务器,第三方可信服务器接收所有客户端的模型参数进行平均聚合得到新的全局模型,然后再将全局模型发送给参与者,多轮迭代直至收敛。联邦平均算法的目标函数如公式1,其中f(w)为全局的损失函数,F
k
(w)为本地模型的损失函数,n
k
为参与者的样本数量。由公式1可以得到,本地模型对全局模型的贡献度与本地数量nk存在正比关系。如果样本极
度不均衡,那么会带来全局模型的训练偏差,样本数量多的参与者的样本分布会严重影响到样本量少的一方,最终导致了模型精度大幅度下降。
[0007][0008]2、样本不均衡下联邦学习通信效率下降
[0009]在样本不均衡场景下,由公式1可以看出,联邦平均算法忽略了现实生活中的企业之间的样本分布不一致。Li等人发表的论文中测试了样本分布不同对联邦学习的通信效率的影响并指出样本分布不一致会使收敛速度过慢。然而样本不均衡场景会加重这一问题,最终导致各个企业与第三方服务器之间的通信轮数大幅度增加,即通信效率降低。
[0010]综上所述,如何解决样本不均衡场景下的模型精度和通信效率降低的问题,提出一个面向样本不均衡场景下的联邦学习优化方法,设计一个高精度且高效率的新型联邦学习框架,实现数据安全共享和跨域友好合作,成为了目前亟待解决的技术问题。

技术实现思路

[0011]本专利技术针对样本不均衡场景下的联邦模型精度损失和通信效率降低的问题,提出一种面向样本不均衡场景下的联邦学习优化方法、装置及系统,更好的实现了参与者在样本不均衡场景下的数据安全共享和高效合作建模。
[0012]本专利技术的技术方案包括:
[0013]一种面向样本不均衡场景下的联邦学习优化方法,应用于一第三方可信参数服务器,所述方法包括:
[0014]获取各参与者的本地训练样本集中的样本数量;
[0015]生成业务初始模型;
[0016]基于各参与者的本地训练样本集对所述业务初始模型进行联合学习训练,得到一全局模型;
[0017]将所述全局模型分发各参与者,以使所述样本数量不小于一阈值的参与者将所述全局模型作为最终模型,以及所述样本数量小于所述阈值的参与者基于本地数据对所述全局模型进行迭代优化,并将训练后的模型作为最终模型。
[0018]进一步地,所述基于各参与者的本地训练样本集对所述业务初始模型进行联合学习训练,得到一全局模型,包括:
[0019]将所述业务初始模型分发给各参与者,以使各参与者基于本地训练样本集与随机梯度下降算法对所述业务初始模型进行训练,得到并返回初始本地模型T
α,0
;其中,α表示参与者的编号;
[0020]对本地模型T
α,β
‑1进行加权聚合,得到全局模型V
β
;其中,β表示联合学习的训练轮次;
[0021]将所述全局模型V
β
分发给各参与者,以基于返回的本地模型T
i,β
生成全局模型V
β+1
;其中,所述本地模型T
α,β
基于参与者对所述全局模型V
β
进行迭代优化得到;
[0022]在所述全局模型V
β+1
未收敛的情况下,令β=β+1,并从对本地模型T
α,β
‑1进行加权聚合,得到全局模型V
β
再次开始执行;
[0023]在所述全局模型V
β+1
收敛的情况下,输出所述全局模型V
β+1

[0024]进一步地,所述本地模型T
α,β
基于参与者对所述全局模型V
β
进行迭代优化得到,包括:
[0025]利用所述全局模型V
β
对所述本地训练样本集中的样本进行预测分类,并基于预测分类结果更新所述本地训练样本集中样本的权重,以得到赋权样本集;
[0026]基于所述赋权样本集进行所述全局模型V
β
的迭代训练,得到本地模型T

α,β

[0027]对所述本地模型T

α,β
进行压缩,得到本地模型T
α,β

[0028]进一步地,所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向样本不均衡场景下的联邦字习优化方法,应用于一第三方可信参数服务器,其特征在于,所述方法包括:获取各参与者的本地训练样本集中的样本数量;生成业务初始模型;基于各参与者的本地训练样本集对所述业务初始模型进行联合学习训练,得到一全局模型;将所述全局模型分发各参与者,以使所述样本数量不小于一阈值的参与者将所述全局模型作为最终模型,以及所述样本数量小于所述阈值的参与者基于本地数据对所述全局模型进行迭代优化,并将训练后的模型作为最终模型。2.如权利要求1所述的方法,其特征在于,所述基于各参与者的本地训练样本集对所述业务初始模型进行联合学习训练,得到一全局模型,包括:将所述业务初始模型分发给各参与者,以使各参与者基于本地训练样本集与随机梯度下降算法对所述业务初始模型进行训练,得到并返回初始本地模型T
α,0
;其中,α表示参与者的编号;对本地模型T
α,β
‑1进行加权聚合,得到全局模型V
β
;其中,β表示联合学习的训练轮次;将所述全局模型V
β
分发给各参与者,以基于返回的本地模型T
i,β
生成全局模型V
β+1
;其中,所述本地模型T
α,β
基于参与者对所述全局模型V
β
进行迭代优化得到;在所述全局模型V
β+1
未收敛的情况下,令β=β+1,并从对本地模型T
α,β
‑1进行加权聚合,得到全局模型V
β
再次开始执行;在所述全局模型V
β+1
收敛的情况下,输出所述全局模型V
β+1
。3.如权利要求2所述的方法,其特征在于,所述本地模型T
α,β
基于参与者对所述全局模型V
β
进行迭代优化得到,包括:利用所述全局模型V
β
对所述本地训练样本集中的样本进行预测分类,并基于预测分类结果更新所述本地训练样本集中样本的权重,以得到赋权样本集;基于所述赋权样本集进行所述全局模型V
β
的迭代训练,得到本地模型T

α,β
;对所述本地模型T

α,β
进行压缩,得到本地模型T
α,β
。4.如权利要求3所述的方法,其特征在于,所述利用所述全局模型V
β
对所述本地训练样本集中的样本进行预测分类,并基于预测分类结果更新所述本地训练样本集中样本的权重,以得到赋权样本集,包括:计算所述全局模型V
β
的错误率ε
t
,其中,t表示当前样本权重更新的轮次;在所述参与者对应的所述样本数量小于所述阈值的情况下,基于所述错误率ε
t
更新本地训练样本集中样本的权重得到更新后的权重其中,T表示所述样本数量小于所述阈值的参与者,表示参与者T的本地训练样本集中的第i个样本,表示样本的真实值,表示轮次t中样本的预测值,所述样本权重的权重的权重在所述参与者对应的所述样本数量不小于所述阈值的情况下,基于样本权重更新总轮次K更新样本集中样本的权重得到更新后的权重其中,S表
示所述样本数量不小于所述阈值的参与者,表示参与者S的本地训练样本集中的第i个样本,直到所述全局模型V
β
的错误率ε
t
小于一设定值,得到赋权样本集。5.如权利要求3所述的方法,其特征在于,所述对所述本地模型T

【专利技术属性】
技术研发人员:肖文杰汤学海董扬琛赵序光冯远航张潇丹韩冀中虎嵩林
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1