基于优势函数引导注意力机制的机器人运动控制方法及系统技术方案

技术编号:46375053 阅读:6 留言:0更新日期:2025-09-15 12:54
本发明专利技术一种基于优势函数引导注意力机制的机器人运动控制方法及系统,该方法步骤包括:S1.从离线数据集中提取多条历史运动轨迹数据构成训练数据集,输入至转换器中进行训练;S2.根据生成的动作集合以及状态集合构建双状态动作值网络与价值网络,通过迭代优化状态动作价值估计生成状态动作值估计,学习得到状态动作值函数和值函数,计算轨迹的优势函数;S3.根据优势函数对每条轨迹的初始动作计算优势值,根据优势值引导训练过程中屏蔽优势值低的轨迹数据;S4.控制转换器采样优势值最大的动作,以生成具有高优势值的机器人运动控制策略。本发明专利技术能够在复杂环境下实现快速、精准的机器人运动控制,提升策略生成的泛化能力和适应性。

【技术实现步骤摘要】

本专利技术涉及机器人控制,尤其涉及一种基于优势函数引导注意力机制的机器人运动控制方法及系统


技术介绍

1、离线强化学习是一种无需与环境进行在线交互即可学习最优策略的方法,其是利用预先收集的静态数据集来训练策略,可以避免在线学习中高昂的交互成本和潜在的安全风险。然而,由于学习策略与行为策略之间的潜在差异,离线算法必须应对分布外的挑战。在大多数现实情况下,收集符合真实环境分布的最优行为几乎是不可能实现的,因此,现在技术中离线强化学习通常重点都是在于从非理性数据集中高效地学习近似最优策略。为了解决上述问题,目前通常是采用策略正则化和数据加权两种方法,其中策略正则化方法是通过在策略学习过程中增加一个正则化项,用于计算学习策略与数据集中的行为策略之间的距离度量,以减轻学习策略与行为策略之间的分布偏移的负面影响。例如代表性方法是采用行为克隆约束学习的策略,但是这类方法难以有效区分行为策略的优劣,且难以自适应地利用离线数据生成高质量正则项。数据重加权方法是通过对预训练收集的数据进行重新加权整合,以降低数据集中低质量样本对策略学习的影响,例如可以根据每个状态的长期回报进本文档来自技高网...

【技术保护点】

1.一种基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,步骤包括:

2.根据权利要求1所述的基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,所述步骤S1中,按照下式训练转换器以生成机器人动作序列:

3.根据权利要求1所述的基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,所述步骤S2中,通过n步贝尔曼方程迭代优化动作价值估计,并采用双重动作值学习机制通过目标网络生成状态动作值估计,计算状态动作值网络的计算表达式为:

4.根据权利要求1所述的基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,步骤S2中还包括按照...

【技术特征摘要】

1.一种基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,步骤包括:

2.根据权利要求1所述的基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,所述步骤s1中,按照下式训练转换器以生成机器人动作序列:

3.根据权利要求1所述的基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,所述步骤s2中,通过n步贝尔曼方程迭代优化动作价值估计,并采用双重动作值学习机制通过目标网络生成状态动作值估计,计算状态动作值网络的计算表达式为:

4.根据权利要求1所述的基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,步骤s2中还包括按照下式更新状态动作值网络参数:

5.根据权利要求1所述的基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,所述步骤s2中,采取按照下式计算优势函数:

6.根据权利要求1~5中任意一项所述的基于优势函数引导注意力机制的机器人运动控制方...

【专利技术属性】
技术研发人员:兰奕星韦嘉烨徐昕刘腾龙方强张兴龙崔家宝
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1