一种策略正则化提升探索效率的机器人控制方法技术

技术编号:42690015 阅读:36 留言:0更新日期:2024-09-10 12:39
本发明专利技术公开了一种策略正则化提升探索效率的机器人控制方法,涉及机器学习技术领域。包括:构建策略网络、多个Q值网络和缓冲池;机器人使用策略网络产生动作与环境进行交互,并记录所述交互轨迹存储到缓冲池;从缓冲池中采样状态数据构建策略正则化值;根据所述缓冲池数据更新所述Q值网络和策略网络;重复策略与环境的交互并进行Q值网络和策略网络的更新至策略性能满足预设要求;根据最终的策略网络控制机器人进行任务。本发明专利技术通过构建策略正则化项去鼓励在更多的区域进行探索,进而解决强化学习中Q值被低估导致的样本探索利用效率低。

【技术实现步骤摘要】

本专利技术涉及机器学习,具体涉及策略正则化提升探索效率的机器人控制方法


技术介绍

1、在强化学习处理机器人任务时,q值高估偏差是导致样本效率差和策略学习不稳定的主要因素。为了解决这些问题,td3提出采用两个独立的q值逼近器上的最小值。虽然这种技术可以提高策略学习的稳定性,但它可能会导致悲观的欠探索。这意味着智能体在探索环境时可能变得过于谨慎,有可能错过最佳学习和决策所必需的有价值的信息。为了提高政策的探索能力,现有的非政策行为者-批评方法主要集中于在面对不确定性时使用乐观原理和分布修正估计。然而,在目标政策的非政策训练过程中,他们仍然遭受着分配转移的困扰,或者假设分配偏离了实际问题。这一挑战的产生是由于在培训期间遇到的数据分布和在执行期间遇到的分布之间的差异,导致次优性能和学习的不稳定性。解决这种分布转移对于确保机器人控制算法的有效性和鲁棒性至关重要。

2、现有技术中,为了解决actor-critic算法中探索效率低下的问题,已经在现有的强化学习方法中探索了各种方法,如上置信界(ucb)标准引用,在确定性策略中增加噪声,内在动机奖励引用,以及本文档来自技高网...

【技术保护点】

1.一种策略正则化提升探索效率的机器人控制方法,其特征在于,该方法包括:

2.如权利要求1所述的一种策略正则化提升探索效率的机器人控制方法,其特征在于,所述步骤1中构建策略网络、多个Q值网络的具体方法为:

3.如权利要求1所述的一种策略正则化提升探索效率的机器人控制方法,其特征在于,所述步骤2的具体方法为:

4.如权利要求1所述的一种策略正则化提升探索效率的机器人控制方法,其特征在于,所述步骤3的具体方法为:

5.如权利要求1所述的一种策略正则化提升探索效率的机器人控制方法,其特征在于,所述步骤4的具体方法为:

【技术特征摘要】

1.一种策略正则化提升探索效率的机器人控制方法,其特征在于,该方法包括:

2.如权利要求1所述的一种策略正则化提升探索效率的机器人控制方法,其特征在于,所述步骤1中构建策略网络、多个q值网络的具体方法为:

3.如权利要求1所述的一种策略正则化提升探索效率的机...

【专利技术属性】
技术研发人员:杨智友胡旺屈鸿章语
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1