一种强化学习模型的训练方法、节点、系统及存储介质技术方案

技术编号:21487337 阅读:49 留言:0更新日期:2019-06-29 07:11
本申请公开了一种强化学习模型的训练方法、节点、系统及存储介质。该训练方法包括:训练节点获取局部数据,并将该局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;接收来自邻居节点的第二最优子目标函数的参数;将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数;将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。通过上述方式,本申请能够改善强化学习模型训练过程中的数据泄露问题。

【技术实现步骤摘要】
【国外来华专利技术】一种强化学习模型的训练方法、节点、系统及存储介质
本申请涉及机器学习
,特别是涉及一种强化学习模型的训练方法、节点、系统及存储介质。
技术介绍
强化学习算法是一种根据环境状态到动作映射的机器学习算法,以使得动作从环境中获得的累积奖励值最大。随着算力和算法的演进,强化学习在机器人控制、集群管理、网络流量控制中获得了大量应用。然而在训练强化学习算法模型时需要大量的数据,这也给数据泄漏带来隐患。特别是在开放式网络集群中训练强化学习算法中,训练数据的直接泄漏以及利用训练完的模型间接推导出训练数据的泄漏隐忧更甚。
技术实现思路
本申请主要提供一种强化学习模型的训练方法、节点、系统及存储介质,能够改善强化学习模型训练过程中的数据泄露问题。为了解决上述问题,本申请采用的第一个技术方案是:提供一种强化学习模型的训练方法,包括:训练节点获取局部数据,并将该局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;接收来自邻居节点的第二最优子目标函数的参数;将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数;将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得本文档来自技高网...

【技术保护点】
1.一种强化学习模型的训练方法,其特征在于,包括:训练节点获取局部数据,并将所述局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;接收来自邻居节点的第二最优子目标函数的参数;将所述第二最优子目标函数的参数代入所述第一最优子目标函数中,得到所述第二最优子目标函数;将所述第一最优子目标函数和所述第二最优子目标函数进行加权平均运算,以得到最优目标函数。

【技术特征摘要】
【国外来华专利技术】1.一种强化学习模型的训练方法,其特征在于,包括:训练节点获取局部数据,并将所述局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;接收来自邻居节点的第二最优子目标函数的参数;将所述第二最优子目标函数的参数代入所述第一最优子目标函数中,得到所述第二最优子目标函数;将所述第一最优子目标函数和所述第二最优子目标函数进行加权平均运算,以得到最优目标函数。2.根据权利要求1所述的训练方法,其特征在于,所述训练方法进一步包括:所述训练节点将所述第一最优子目标函数的参数广播给所述邻居节点。3.根据权利要求1所述的训练方法,其特征在于,所述将所述局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数包括:接收来自所述邻居节点的第一优化参数,所述第一优化参数是所述第二训练节点对所述第二最优子目标函数进行梯度下降并叠加拉普拉斯随机噪声后获得的参数;将所述第一优化参数进行加权和运算,得到更新参数;将所述更新参数作为所述第一最优子目标函数的当前参数值,更新所述第一最优子目标函数。4.根据权利要求3所述的训练方法,其特征在于,所述将所述第一优化参数进行加权和运算,得到更新参数包括:获取所述第一优化参数的权重;利用如下公式计算所述更新参数:其中,ξk,t+1为第t步迭代时第k个所述训练节点的所述更新参数,Nk为第k个所述训练节点的邻居节点的集合,为第t步迭代时第k个所述训练节点获取的第l个所述邻居节点的所述第一优化参数,clk为第k个所述训练节点接收第l个所述邻居节点的所述第一优化参数的权重。5.根据权利要求3所述的训练方法,其特征在于,所述训练方法进一步包括:对所述第一最优子目标函数进行梯度下降后获得所述第一最优子目标函数的第二优化参数;将所述第二优化参数广播给所述邻居节点。6.根据权利要求5所述的训练方法,其特征在于,所述对所述第一最优子目标函数进行梯度下降后获得所述第一最优子目标函数的第二优化参数包括:计算所述第一最优子目标函数的梯度值,所述梯度值为所述第一最优子目标函数的梯度叠加拉普拉斯随机噪声;将所述梯度值和所述第一最优子目标函数的当前参数进行迭代计算获得所述第二优化参数。7.根据权利要求6所述的训练方法,其特征在于,所述计算所述第一最优子目标函数的梯度值,所述梯度值为所述第一最优子目标函数的梯度叠加拉普拉斯随机噪声包括:获取所述第一神经网络针对所述第一最优子目标函数的差分隐私敏感性,差分隐私参数,以及所述训练节点和所述邻居节点组成的集群中邻居节点的最大数量;利用如下公式计算所述梯度值:其中,为第t步迭代时第k个所述训练节点的所述第一最优子目标函数,Tk,t为第t步迭代时第k个所述训练节点的样本长度,vξ,t(sk,t)为第t步迭代时通过所述第一神经网络训练得到的第k个所述训练节点状态sk,t时的值函数,vξ,t(sk,j)为第t步迭代时通过所述第一神经网络训练得到的第k个所述训练节点状态sk,j时的值函数,yk,t为第t步迭代时通过所述第一神经网络训练得到的第k个所述训练节点的折扣奖励,为所述第一最优子目标函数针对参数ξ的求梯度运算,L(F,ε)为基于所述差分隐私敏感性F和所述差分隐私参数ε的拉普拉斯随机噪声,I为所述邻居节点的最大数量。8.根据权利要求7所述的训练方法,其特征在于,所述获取所述第一神经网络针对所述第一最优子目标函数的差分隐私敏感性包括:将所述第一最优子目标函数作为所述差分隐私敏感性。9.根据权利要求6所述的训练方法,其特征在于,所述将所述梯度值和所述第一最优子目标函数的当前参数进行迭代计算获得所述第二优化参数包括:获取迭代步长;利用如下公式计算所述第二优化参数:其中,为经过第t步...

【专利技术属性】
技术研发人员:袁振南朱鹏新
申请(专利权)人:区链通网络有限公司袁振南
类型:发明
国别省市:维尔京群岛,VG

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1