一种基于强化学习的非独立同分布环境中联邦学习优化方法技术

技术编号：37196195 阅读：12 留言：0更新日期：2023-04-20 22:54

本发明专利技术所解决的技术问题是非独立同分布环境对联邦学习性能影响的问题，提出一种基于深度强化学习的客户端节点选择算法，在每一轮联邦学习通信中，选择有利于全局模型收敛的客户端子集进行模型聚合，用有限的通信轮次达到更高的目标精度；将联邦学习建模为马尔可夫决策过程，通过使用深度强化学习中的Double Deep Q

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的非独立同分布环境中联邦学习优化方法

[0001]本专利技术以深度学习为基础提出一种基于深度强化学习的非独立同分布环境中联邦学习优化方法；在每一轮联邦学习通信中，通过深度强化学习智能体选择有利于全局模型收敛的客户端子集参与联邦学习的模型聚合过程，以更少的通信轮次实现目标精度；可以使联邦学习更好的部署在非独立同分布的现实场景中。

技术介绍

[0002]联邦学习已经成为一种新的分布式机器学习范式，多个客户端在中央服务器的协调下协作培训模型；其中，客户端只需要在每一轮通信过程中将训练好的本地模型参数上传到服务器，而不需要与他人共享本地数据；服务器收集客户端所上传的模型参数并执行聚合算法，更新全局模型参数，然后将全局模型参数下发给每个客户端，进行下一轮训练；重复该过程直到全局模型达到目标精度为止。
[0003]相比传统的集中式机器学习，联邦学习在隐私问题和通信效率方面展现出了巨大的优势；尽管有其优势，但联邦学习的一个关键且常见的挑战就是各方之间的本地数据是非独立同分布的，即设备的本地数据不能代表总体分布；具有相同初始参数的局部模型在本地训练阶段会向着各自的局部最优值更新，而数据异构性会导致局部最优偏离全局最优，从而使服务器聚合的全局模型远离全局最优值，因此大大降低了全局模型的准确性和通信效率。

技术实现思路

[0004]本专利技术所解决的技术问题是针对非独立同分布环境中联邦学习收敛速度慢、通信效率低的问题，将联邦学习中的客户端选择问题建模为马尔可夫决策过程，提出一种基于Double D...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的联邦学习优化算法，其特征在于，包括以下步骤：Step 1：服务器端进行初始化，并将全局模型发送给所有客户端；Step 2：客户端进行一轮本地训练；Step 3：客户端向服务器上传本地训练损失值；Step 4：服务器收集每个客户端上传的本地训练损失值作为状态，智能体根据当前的状态做出决策，选择一个客户端子集作为本轮联邦学习模型聚合的参与者；Step 5: 服务器向被选择的客户端发送指令；Step 6: 被选择的客户端完成剩余的本地训练任务，并将训练好的模型参数上传给服务器；Step 7: 服务器对收集的局部模型参数进行聚合并更新全局模型，并将新的全局模型发送给所有客户端；同时智能体将当前的动作
‑
状态存入记忆存储器，并从记忆存储器中抽样一批经验对DDQN智能体的网络进行训练；重复Step 2到Step 7，直到全局模型达到目标精度。2.根据权利要求1所述的一种基于深度强化学习的联邦学习优化算法，其特征在于，所述Step 1中的具体过程如下：Step1.1服务器对全局模型的参数进行随机初始化，服务器对DDQN智能体部分的评估网络、实际网络和记忆存储器进行初始化；Step1.2 服务器将初始化的全局模型参数发送给所有的客户端。3.根据权利要求1所述的一种基于深度强化学习的联邦学习优化算法，其特征在于，所述Step 2中的具体过程如下：Step2 服务器使用本地数据集对接收到的全局模型进行一个epoch的本地训练，使用交叉熵损失函数计算本地训练损失值；4.根据权利要求1所述的一种基于深度强化学习的联邦学习优化算法，其特征在于，所述Step 3中的具体过程如下：Step3 客户端将本地计算得到损失值上传给服务器，并停止本地训练任务。5.根据权利要求1所述的一种基于深度强化学习的联邦学习优化算法，其特...

【专利技术属性】
技术研发人员：李勇，孟续涛，任翔麟，凌海潮，刘彤彤，杜炜，张振健，
申请(专利权)人：长春工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人