【技术实现步骤摘要】
本专利技术涉及机器人控制,尤其涉及一种基于优势函数引导注意力机制的机器人运动控制方法及系统。
技术介绍
1、离线强化学习是一种无需与环境进行在线交互即可学习最优策略的方法,其是利用预先收集的静态数据集来训练策略,可以避免在线学习中高昂的交互成本和潜在的安全风险。然而,由于学习策略与行为策略之间的潜在差异,离线算法必须应对分布外的挑战。在大多数现实情况下,收集符合真实环境分布的最优行为几乎是不可能实现的,因此,现在技术中离线强化学习通常重点都是在于从非理性数据集中高效地学习近似最优策略。为了解决上述问题,目前通常是采用策略正则化和数据加权两种方法,其中策略正则化方法是通过在策略学习过程中增加一个正则化项,用于计算学习策略与数据集中的行为策略之间的距离度量,以减轻学习策略与行为策略之间的分布偏移的负面影响。例如代表性方法是采用行为克隆约束学习的策略,但是这类方法难以有效区分行为策略的优劣,且难以自适应地利用离线数据生成高质量正则项。数据重加权方法是通过对预训练收集的数据进行重新加权整合,以降低数据集中低质量样本对策略学习的影响,例如可以根据
...【技术保护点】
1.一种基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,步骤包括:
2.根据权利要求1所述的基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,所述步骤S1中,按照下式训练转换器以生成机器人动作序列:
3.根据权利要求1所述的基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,所述步骤S2中,通过n步贝尔曼方程迭代优化动作价值估计,并采用双重动作值学习机制通过目标网络生成状态动作值估计,计算状态动作值网络的计算表达式为:
4.根据权利要求1所述的基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,
...【技术特征摘要】
1.一种基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,步骤包括:
2.根据权利要求1所述的基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,所述步骤s1中,按照下式训练转换器以生成机器人动作序列:
3.根据权利要求1所述的基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,所述步骤s2中,通过n步贝尔曼方程迭代优化动作价值估计,并采用双重动作值学习机制通过目标网络生成状态动作值估计,计算状态动作值网络的计算表达式为:
4.根据权利要求1所述的基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,步骤s2中还包括按照下式更新状态动作值网络参数:
5.根据权利要求1所述的基于优势函数引导注意力机制的机器人运动控制方法,其特征在于,所述步骤s2中,采取按照下式计算优势函数:
6.根据权利要求1~5中任意一项所述的基于优势函数引导注意力机制的机器人运动控制方...
【专利技术属性】
技术研发人员:兰奕星,韦嘉烨,徐昕,刘腾龙,方强,张兴龙,崔家宝,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。