一种基于联邦学习的受控共享学习方法及系统技术方案

技术编号:27314063 阅读:26 留言:0更新日期:2021-02-10 09:42
本发明专利技术提供一种基于联邦学习的受控共享学习方法及系统,包括接收各客户端模型V

【技术实现步骤摘要】
一种基于联邦学习的受控共享学习方法及系统


[0001]本专利技术涉及计算机软件领域,尤其涉及一种基于联邦学习的受控共享学习方法及系统。

技术介绍

[0002]数据作为人工智能技术的基石,随着人工智能技术的快速发展,数据安全隐私问题受到人们的广泛关注。由于数据隐私、通信安全等问题,导致深度学习模型无法充分利用这些数据。故人们为解决这类问题,提出了诸如联邦学习、共享学习等分布式机器学习方法。这些方法能够在不直接暴露本地数据的前提下,使得模型有效学习到各个客户端的本地数据。
[0003]联邦学习是指通过在多个相互独立的客户端上进行机器学习,并在服务端联合客户端模型梯度的一种方法。联邦学习是通过聚合各个客户端的模型,以此进行机器学习建模的方法。客户端无需向其他客户端暴露本地数据,只上传客户端训练好的模型相关参数即可。因而联邦学习可以在有效利用数据的前提下,保证客户端的数据不被泄露。
[0004]联邦学习的一轮完整流程是:客户端根据本地的数据来训练模型,客户端发送模型梯度至服务端,服务端对梯度参数进行加权平均后发送回客户端,客户端根据收到的梯度参数进行梯度下降,以此更新模型。联邦学习中的客户端之间是相互独立、阻断通信的,因此数据不会被直接泄露给外部,是一种能够很好地保护客户端数据隐私与安全的学习方法。
[0005]一般的联邦学习要求客户端模型架构一致,这对于客户端的数据与算力提出了一定的要求。并且当模型体积较大时,会提高客户端与服务端间的通信成本。更甚,现在已有技术可根据模型梯度还原客户端的本地数据,例如专利申请CN111008709A公开了一种联邦学习、资料风险评估方法、装置和系统,因此联邦学习还存在一定的安全性问题。
[0006]例如中国专利申请CN111260061A公开了一种联邦学习梯度交换中的差异化加噪方法,其通过每一数据方将对应的梯度进行分层处理,计算每一层梯度对应的二范数,并将二范数对每一层梯度进行加噪的数据发送至服务中心,以得到聚和后的梯度,但该方法会增加额外的计算成本,降低训练速度;中国专利申请CN110704860A公开了一种提升安全性的纵向联邦学习方法、设备、系统及存储介质,其通过各数据方的加随机数加密梯度值,将计算得到加随机数梯度值返回至各数据方,以训练模型,但该方法需要更多的硬件设施。上述两个专利申请均需传输完整的模型参数或者梯度,网络通信参数量很大,均会不同地增加计算成本,提高通信成本,并使训练速度降低。
[0007]综上所述,现有的联邦学习技术中具有以下技术缺陷:
[0008]1)由于本地客户端模型的体积庞大、客户端数量众多,这导致通信开销大大增加,提高了训练成本,影响整体学习速度;
[0009]2)在模型传输过程中,不论是传输模型的梯度还是模型的参数,都有泄露客户端数据的风险,不能很好地保障数据安全;
[0010]3)联邦学习要求各个模型一致,各个模型不能被定制,导致模型性能下降、无法按需训练模型。

技术实现思路

[0011]为解决上述问题,本专利技术的目的在于提供一种基于联邦学习的受控共享学习方法及系统,旨在降低联邦学习中的通信成本、保障本地数据不会在通信过程中被模型泄露、客户端可控地定制模型,从而解决当前联邦学习应用场景受限的技术问题。
[0012]为实现上述目的,本专利技术的技术方案如下:
[0013]一种基于联邦学习的受控共享学习方法,适用于一服务端与若干客户端组成的网络系统,其步骤包括:
[0014]1)接收各客户端模型V
i,t
的参数,并根据参数从各客户端中选取一或多个共享客户端,向共享的客户端发送共享指令,其中i为客户端序号,t为完成联邦学习次数,t≥0,模型V
i,0
通过各客户端的算力构建并依据相应私有数据集训练得到,且各模型V
i,0
的分类模块架构一致;
[0015]2)获取共享客户端模型V
i,t
的分类模块参数S
t
,并将计算得到的分类模块参数S
t+1
发送至各客户端,以使各客户端依据私有数据集与分类模块参数S
t+1
得到模型V
i,t+1

[0016]进一步地,训练模型V
i,0
之前,对私有数据集进行预处理;所述预处理包括:数据清洗和数据加强。
[0017]进一步地,除分类模块之外,模型V
i,0
的其它模块架构可灵活设计。
[0018]进一步地,所述服务端设置一时间阈值;若发送指令后,超过该时间阈值,则不再接收客户端模型V
i,t
的分类模块参数S
t

[0019]进一步地,所述参数包括:梯度值之和。
[0020]进一步地,通过以下步骤选取若干共享客户端:
[0021]1)将模型V
i,t
梯度值之和由小到大进行排序;
[0022]2)选取排序前n个的梯度值之和,作为共享依据值,1≤n≤客户端总数;
[0023]3)将共享依据值相应的客户端,作为共享客户端。
[0024]进一步地,得到分类模块参数S
t+1
的方法包括:将各分类模块参数S
t
进行加权平均。
[0025]一种基于联邦学习的受控共享学习系统,包括:
[0026]一服务端,用以接收各客户端模型V
i,t
的参数,并根据参数从各客户端中选取一或多个共享客户端,向共享客户端发送共享指令,其中i为客户端序号,t为完成联邦学习次数;获取共享客户端模型V
i,t
的分类模块参数S
t
,并将计算得到的分类模块参数S
t+1
发送至各客户端;
[0027]若干客户端,其中每一客户端包括:
[0028]管理平台,用以根据算力构建模型V
i,0
的架构;
[0029]计算平台,用以依据私有数据集训练得到模型V
i,0
;用以依据私有数据集与分类模块参数S
t+1
得到模型V
i,t+1

[0030]通信平台,用以将模型V
i,t
的参数发送至服务端;若被选为共享客户端,将模型V
i,t
的分类模块参数S
t
发送至服务端;
[0031]进一步地,所述客户端还包括数据平台,用以对私有数据集进行数据清洗和数据增强。
[0032]进一步地,所述管理平台还用以调度计算平台、通信平台和数据平台及对客户端进行管理并对信息进行可视化展示。
[0033]进一步地,所述参数包括:梯度值之和。
[0034]与现有技术相比,本专利技术的改进了已有技术的不足:
[0035]1.在通信成本上,无需提供所有模型参数,仅需提供模型部分参数完成共享学习;
[0036]2.在通信安全上,由于传输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习的受控共享学习方法,适用于一服务端与若干客户端组成的网络系统,其步骤包括:1)接收各客户端模型V
i,t
的参数,并根据参数从各客户端中选取一或多个共享客户端,向共享的客户端发送共享指令,其中i为客户端序号,t为完成联邦学习次数,t≥0,模型V
i,0
通过各客户端的算力构建并依据相应私有数据集训练得到,且各模型V
i,0
的分类模块架构一致;2)获取共享客户端模型V
i,t
的分类模块参数S
t
,并将计算得到的分类模块参数S
t+1
发送至各客户端,以使各客户端依据私有数据集与分类模块参数S
t+1
得到模型V
i,t+1
。2.如权利要求1所述的方法,其特征在于,训练模型V
i,0
之前,对私有数据集进行预处理;所述预处理包括:数据清洗和数据加强。3.如权利要求1所述的方法,其特征在于,除分类模块之外,模型V
i,0
的其它模块架构可灵活设计。4.如权利要求1所述的方法,其特征在于,所述服务端设置一时间阈值;若发送指令后,超过该时间阈值,则不再接收客户端模型V
i,t
的分类模块参数S
t
。5.如权利要求1所述的方法,其特征在于,所述参数包括:梯度值之和。6.如权利要求1所述的方法,其特征在于,通过以下步骤选取若干共享客户端:1)将模型V
i,t
梯度值之和由小到大进行排序;2)选取...

【专利技术属性】
技术研发人员:葛仕明卢江虎王伟平
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1