一种集成多价值网络的强化学习算法、装置及电子设备制造方法及图纸

技术编号:34626807 阅读:26 留言:0更新日期:2022-08-20 09:35
本发明专利技术公开了一种集成多价值网络的强化学习算法、装置及电子设备。所述算法包括采集若干样本组成样本集;基于样本集对所有价值网络及策略网络进行第一次更新;基于第一次更新后的所有价值网络获取与每一样本相应的若干价值网络估值间的标准差以作为不确定性指标;依据预设比例筛除不确定性高的样本后组成子样本集;基于子样本集继续对所有价值网络及策略网络按预设次数进行剩余次更新,并采集最后一次更新后的样本存储于缓冲区内;重复上述步骤以得到最优化价值网络及策略网络。所述系统及电子设备均基于算法搭建。本发明专利技术同时具有计算成本低、改善高估偏差及偏差传播,及平衡数据利用与探索能力的优势。据利用与探索能力的优势。据利用与探索能力的优势。

【技术实现步骤摘要】
一种集成多价值网络的强化学习算法、装置及电子设备


[0001]本专利技术属于强化学习
,具体涉及一种集成多价值网络的强化学习算法、装置及电子设备。

技术介绍

[0002]无模型强化学习算法是一种在环境未知的情况下,利用神经网络模拟环境到动作的映射以进行学习的算法,因此在传统规划方法无法解决的游戏及机器人控制等领域具有重要应用。
[0003]由于无模型强化学习算法往往需要庞大的样本数据才能解决一个简单的问题,因此如何提高算法过程中的数据利用率是对其进行优化的重要方向。目前常用的方法主要有两类:一类是off

policy算法,其可通过数据的重复使用极大的提高数据利用率。但由于该类算法一般以Q

Learning算法为基础,因此在提高数据利用率的同时,却引入了高估偏差和偏差传播的缺陷,以及探索能力受限的问题。另一类是基于集成网络框架下的off

policy算法,其旨在通过多价值网络的设计改进现有off

policy算法中的缺陷。REDQ算法则是该类集成网络算法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种集成多价值网络的强化学习算法,其特征在于,包括:自缓冲区内采集若干样本组成样本集;基于所有价值网络计算与所述样本集中每一样本相应的若干价值网络估值间的标准差;依据预设比例筛除所述样本集中所述标准差较高的样本,将剩余的样本组成子样本集;基于所述样本集对所有价值网络及策略网络进行第一次更新;基于所述子样本集对前一次更新后的所述所有价值网络及所述策略网络按预设次数继续进行剩余次更新;并存储最后一次更新后获取的新样本于所述缓冲区内;循环上述所有步骤直至得到最优化的价值网络及策略网络。2.根据权利要求1所述的集成多价值网络的强化学习算法,其特征在于,所述所有价值网络的每一次更新,包括:基于对每一价值网络进行更新;其中,s
t
为当前状态,a
t
为当前动作,r
t
为当前奖励,θ
i
为价值网络参数;表示下一估值,γ为折扣因子,s
t+1
为下一状态,m为随机选择的目标价值网络的数目,μ(s
t+1
,w)为策略网络,w为策略网络参数,θ
i
'为目标价值网络参数。3.根据权利要求1所述的集成多价值网络的强化学习算法,其特征在于,所述策略网络的每一次更新,包括:计算各价值网络间的差异化正则项;计算每个样本的上置信界;基于所述差异化正则项及所述上置信界构建损失函数;基于梯度上升算法对所述损失函数进行求解以更新策略网络。4.根据权利要求3所述的集成多价值网络的强化学习算法,其特征在于,所述差异化正则项为其中,n为价值网络的数目,θ
i
为第i个价值网络的参数,为所有价值网络的均值。5.根据权利要求3所述的集成多价值网络的强化学习算法,其特征在于,所述上置信界为Q
mean
(s
t
,a
t
)+γ
·
Q
std
(s
t
,a
t
);其中,Q表示用于计算价值网络估值的值函数,s
t
为当前状态,a
t
为当前动作;Q
mean
(s
t
,a
t
)为与每一样本相应的各价值网络间的均值,Q
std
(s
t<...

【专利技术属性】
技术研发人员:薛伟张海宏魏雪玉郭事成
申请(专利权)人:安徽工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1