一种基于深度强化学习的联邦学习模型参数量化方法技术

技术编号:37323698 阅读:39 留言:0更新日期:2023-04-21 23:03
一种基于深度强化学习的联邦学习模型参数量化方法,包括如下步骤:S1、获取当前的全局模型参数;S2、统计当前的全局模型参数的M个百分位点作为深度强化学习智能体观测到的环境状态;S3、根据智能体输出的动作,按照给定规则构建L个量化阶点,作为量化操作的映射集;S4、量化传输:进行X个回合的模型量化和传输,每一回合的量化均采用上一步骤的量化映射集,并统计该X个回合的量化误差和训练误差,计算其均值并根据奖励函数得到奖励值,输入到智能体作为反馈;S5、智能体持续记录每次的状态、动作和奖励情况,当记录的数量达到给定阈值时更新智能体的网络模型。本方法具有较小的量化误差和较高的测试准确率。较高的测试准确率。较高的测试准确率。

【技术实现步骤摘要】
一种基于深度强化学习的联邦学习模型参数量化方法


[0001]本专利技术涉及分布式人工智能领域,特别是涉及一种基于深度强化学习的联邦学习模型参数量化方法。

技术介绍

[0002]机器学习(Machine Learning,ML)是目前最具代表性的人工智能技术之一,它可以在海量的数据样本中学习出优化策略,已在诸多应用上表现出巨大潜力,尤其在计算机视觉、自然语言处理等领域获得了广泛的研究和应用。然而,随着个人、机构乃至国家对隐私的日益重视,收集大量数据然后置于中心服务器上进行训练逐渐变得难以施行。联邦学习(Federated Learning,FL)作为一种分布式的ML方法应运而生,它通过用户和服务器之间的模型交换完成训练,不需要上传用户的原数据,在一定程度上可规避隐私泄露的问题。但是,机器学习网络模型规模庞大,且需要成百上千个回合的迭代才能收敛,这导致联邦学习的训练过程需耗费大量通信资源,这一问题在无线通信系统中尤为凸显。
[0003]为了提高无线联邦学习的通信效率,降低分布式模型训练需要的通信开销,对联邦学习模型进行压缩是非常必要的。目前本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的联邦学习模型参数量化方法,其特征在于,包括如下步骤:S1、获取当前的全局模型参数;S2、状态处理:统计当前的全局模型参数的M个百分位点作为所述深度强化学习智能体观测到的环境状态;其中,所述深度强化学习智能体包括动作网络和评价网络;S3、动作处理:根据所述深度强化学习智能体输出的动作,按照给定规则构建L个量化阶点,作为量化操作的映射集;S4、量化传输:进行X个回合的模型量化和传输,每一回合的量化均采用上一步骤的量化映射集,并统计该X个回合的量化误差和训练误差,计算其均值并根据奖励函数得到奖励值,输入到强化学习智能体作为反馈;S5、模型更新:强化学习智能体持续记录每次的状态、动作和奖励情况,当记录的数量达到给定阈值时对深度强化学习智能体的网络模型进行更新。2.如权利要求1所述的基于深度强化学习的联邦学习模型参数量化方法,其特征在于,所述动作网络表示为π(a,s;θ
a
),其中θ
α
表示该神经网络的参数,s分别表示当前智能体观测到的状态向量,π(a,s;θ
a
)给出在该状态下智能体决定给出的动作a的概率;所述评价网络表示为V(s;θ
v
),其中θ
v
表示该神经网络的参数,V(s;θ
v
)给出当前智能体认为的状态s的价值大小。3.如权利要求1或2所述的基于深度强化学习的联邦学习模型参数量化方法,其特征在于,步骤S2中,设要传输的神经网络模型为其中d是网络模型的维度,对w中的参数按照绝对值从小到大排序得到w
s
,定义第x百分位点为:其中,是w
s
的第i个元素,表示向上取整;设所述深度强化学习智能体输入状态的维度为M≥1,构建如下的向量:s=[p1,p2,

,p
M
]
T
,作为当前时刻观测到的状态,其中该向量的第m个元素为通过调整M的取值,在表示精度和状态空间维度之间取得平衡。4.如权利要求2所述的基于深度强化学习的联邦学习模型参数量化方法,其特征在于,步骤S3中,在步骤S2中获得状态向量s后,将其输入动作网络π(a|s;θ
a
),从而获得该网络的输出向量:μ=[μ1,μ2,


L/2
]
T
L/2为所述深度强化学习智能体输出的动作维度,给定所有动作的采样方差为σ,随后从正态分布N(μ
i
,σ)中随机采样,得到动作a
i
,i=1,2,

,L/2,并组成动作向量:a=[a1,a2,

,a
L/2
]
T
,基于该向量,计算量化阶点和完整的映射集合,量化阶点在给定范围[

B,B],B>0之间进行搜索和优化,将区间[

B,0]均分为L/2个子区间,第i个区间记为I
i
=[l
i
,u
i
],其中左端点l
i
、右端点u
i
分别按下式计算:
定义一个均匀分布的基准向量c,其第i个元素为第i个子区间的中心点,即:接着,计算针对负数部分的量化阶点向量:其中Sort(x)表示对向量x中的元素按从小到大进行排序;计算针对非负数部分的量化阶点向量:将q
n
,q
p
两个向量拼接在一起,得到完整的维度为L的量化阶点向量5.如权利要求1或2所述的基于深度强化学习的联邦学习模型参数量化方法,其特征在于,步骤S4中,根据步骤S3得到的量化阶点向量q,构建映射集合Q={q1,q2,

,q
L
},其中q
l
是向量q的第l个元素;将服务器广播全局模型、用户设备接收模型并进行训练、用户设备上传模型、服务器对上传的模型进行聚合称为一个回合,对于当前的全局模型w,在接下来的X个回合按照如下步骤进行量化传输:第一步,设当前为第t个回合,其中t...

【专利技术属性】
技术研发人员:董宇涵郑斯辉陈翔李志德
申请(专利权)人:深圳清华大学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1