【技术实现步骤摘要】
一种联邦学习方法
[0001]本专利技术涉及计算机
,具体来说,涉及联邦学习领域,更具体来说,涉及一种联邦学习方法。
技术介绍
[0002]随着《个人信息保护法》的发布,企业在使用、管理、存储隐私数据方面的成本不断增加,使得数据变得更加难以流通和共享,各领域“数据孤岛”现象愈发突出。而联邦学习技术的出现,为解决“数据孤岛”问题提供了新的思路。联邦学习是一种分布式训练AI模型的一种技术方案,它保证隐私数据保留在本地,参与训练模型的各方通过自身的隐私数据建立联合模型。由于隐私数据并不直接参与到共享中,仅通过模型的形式共享数据的特征,数据的所有权、使用权均不受影响,缓冲了隐私数据保护和使用的矛盾,打通“数据孤岛”,为数据驱动型产业在高数据监管力度下带来新的解决方案。但与此同时,联邦学习仍然面临着众多挑战,其中之一便是难以衡量各节点对于联合模型的贡献。
[0003]在实际应用中,各节点的数据数量和数据质量往往存在较大差异,公平的联邦学习系统需要综合考虑各节点的数据数量和数据质量,以分配公平的贡献度和奖励,来维持联邦学习 ...
【技术保护点】
【技术特征摘要】
1.一种联邦学习方法,所述方法包括由中心节点将初始化的联合模型分发给多个客户端作为初始的客户端模型,并由中心节点和客户端配合完成多轮联邦训练,得到最终的联合模型,其中,每轮联邦训练包括:由中心节点获取每个客户端上传的当前轮训练后的客户端模型,其中,当前轮训练后的客户端模型是利用客户端的本地训练集以最新获得的客户端模型为基础训练得到的;由中心节点基于各客户端的贡献度对多个客户端当前轮训练后的客户端模型进行聚合,得到当前轮更新后的联合模型,并将该联合模型分发给多个客户端作为各客户端下一轮训练的基础,其中,各客户端的贡献度基于各客户端模型分别对预设的仿真样本的分类准确率确定。2.根据权利要求1所述的方法,其特征在于,所述每个客户端的贡献度根据该客户端的数据标签分布情况和该客户端模型对各类别下仿真样本的分类准确率确定,其中,所述数据标签分布情况指示对应客户端的各类别下的非仿真样本的占比。3.根据权利要求2所述的方法,其特征在于,所述每个客户端的贡献度是该客户端的数据标签分布情况中每个类别下的非仿真样本的占比与该客户端模型对该类别的仿真样本的分类准确率的乘积之和。4.根据权利要求2所述的方法,其特征在于,由中心节点按照以下方式获得当前轮更新后的联合模型:每轮联邦训练前,获取最新更新的每个客户端的贡献度,比较各客户端中最新更新的每个客户端的贡献度和预设阈值的大小,剔除贡献度小于预设阈值所对应的客户端,得到当前轮参与训练的多个客户端;对当前轮参与训练的多个客户端上传的当前轮训练后的客户端模型进行聚合,得到当前轮更新后的联合模型。5.根据权利要求1所述的方法,其特征在于,所述仿真样本按照以下方式生成:获取基于生成对抗方式训练得到的经训练的生成模型;利用经训练的生成模型针对每种类别对应生成多个仿真样本,其中,每种类别下的仿真样本的数据标签向量与为该类别预设的标签向量的距离小于预设阈值,数据标签向量是基于将仿真样本输入当前轮更新后的联合模型中得到的。6.根据权利要求5所述的方法,其特征在于,基于所述生成对抗方式进行一轮或者多轮迭代对抗训练,每轮对抗训练包括:获取对抗生成网络,其包括生成模型和判别模型;获取第一训练集训练判别模型,得到当轮训练的判别模型,所述第一训练集包括多个第一样本和每个第一样本对应的指示其是非仿真样本的置信度标签,单个第一样本为仿真样本或者非仿真样本,该置信度标签基于将第一样本输入当轮更新后的联合模型得到的输出结果确定;将生成的仿真样本输入当轮训练的判别模型,利...
【专利技术属性】
技术研发人员:史红周,余孙婕,曾辉,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。