当前位置: 首页 > 专利查询>南京大学专利>正文

基于持续策略重振的离线到在线可泛化强化学习方法和装置制造方法及图纸

技术编号:42484872 阅读:27 留言:0更新日期:2024-08-21 13:04
本发明专利技术公开一种基于持续策略重振的离线到在线可泛化强化学习方法和装置,首先通过周期性的策略重振恢复策略网络的学习能力,打破机器人在在线学习过程中受到初始偏差的影响,从而提高针对在线分布的适应能力。接着,通过自适应的策略约束,根据策略在当前分布当中的竞争性行为表达更新策略约束的目标策略,这一机制基于机器人实时的策略访问分布和行为策略竞争表达,有效提高了机器人策略约束的稳定性和泛化性。最后,采用基于历史策略池的策略混合方法,进一步提高了机器人平衡记忆与探索的能力,确保在在线策略更新过程中,能避免发生灾难性遗忘导致策略崩塌。

【技术实现步骤摘要】

本专利技术涉及智能体控制,尤其是指一种应用于多关节机器人的控制方法和系统。具体来说,本专利技术提供了一种结合离线训练与在线调整的强化学习控制策略,旨在解决多关节机器人在实际应用中遇到的动态环境适应性问题和策略迁移性问题。


技术介绍

1、多关节机器人在执行复杂任务时,需要精确的控制策略来确保动作的准确性和安全性。传统的控制方法如pid控制、模型预测控制(mpc)等,依赖于准确的模型和环境参数。但在动态变化的环境中,这些方法往往难以适应。因此,强化学习成为了一种有前景的解决方案,它允许多关节机器人通过与环境的交互来学习最优策略。尽管强化学习在理论上具有优势,但在实际应用中,往往有着较低的样本效率和较差的适应性。因此,从离线到在线强化学习系统(offline-to-online reinforcement learning)扮演着至关重要的角色。这类系统旨在通过结合离线训练和在线调整,提高智能体在实际环境中的适应性和决策效率。

2、从离线到在线强化学习的核心挑战之一是如何平衡对离线训练模型的利用以及对初始化模型的在线调优。现有的从离线到在线强化学习(本文档来自技高网...

【技术保护点】

1.一种针对多关节机器人控制的基于持续策略重振的离线到在线可泛化强化学习方法,其特征在于,包括:

2.根据权利要求1所述的针对多关节机器人控制的基于持续策略重振的离线到在线可泛化强化学习方法,其特征在于,周期性策略重振的具体实现过程为:

3.根据权利要求2所述的针对多关节机器人控制的基于持续策略重振的离线到在线可泛化强化学习方法,其特征在于,将多关节机器人控制问题建模成马尔可夫序贯决策模型,构建的离线数据集当中包括“状态-动作-奖励”,在多关节机器人控制问题中,状态空间由机器人的所有可能姿势和关节角度组成,每个状态代表了机器人在某一时刻的配置;状态转移概率描述了在...

【技术特征摘要】

1.一种针对多关节机器人控制的基于持续策略重振的离线到在线可泛化强化学习方法,其特征在于,包括:

2.根据权利要求1所述的针对多关节机器人控制的基于持续策略重振的离线到在线可泛化强化学习方法,其特征在于,周期性策略重振的具体实现过程为:

3.根据权利要求2所述的针对多关节机器人控制的基于持续策略重振的离线到在线可泛化强化学习方法,其特征在于,将多关节机器人控制问题建模成马尔可夫序贯决策模型,构建的离线数据集当中包括“状态-动作-奖励”,在多关节机器人控制问题中,状态空间由机器人的所有可能姿势和关节角度组成,每个状态代表了机器人在某一时刻的配置;状态转移概率描述了在给定当前状态和所采取的动作下,机器人将转移到哪个新状态的概率;在多关节机器人控制中,所述概率是基于物理动力学和环境交互来建模的;动作空间包含了所有可能的控制输入;奖励函数为每个状态或状态-动作对分配一个数值,表示在该状态下采取某个动作的好坏;通过收集行为策略或者专家策略在环境当中执行收集到的状态-动作-奖励构成的序列,得到了离线强化学习的数据集。

4.根据权利要求1所述的针对多关节机器人控制的基于持续策略重振的离线到在线可泛化强化学习方法,其特征在于,利用自适应策略约束实现稳定的在线策略更新;在线策略学习过程中除了要求策略能够最大化奖赏,也对策略做了自适应的策略约束,最小化策略的访问数据分布在分布间散度的距离度量下同在线经验回放池的样本中行为策略的访问数据分布的差异,实现稳定的策略提升,在线策略学习过程中,对价值函数和策略函数交替进行优化,对价值函数的优化目标如下:

5.根据权利要求1所述的针对多关节机器人控...

【专利技术属性】
技术研发人员:章宗长黎铭俞扬周志华孔锐吴晨阳高辰潇
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1