一种机器人高效技能学习方法、系统、设备、程序产品及介质技术方案

技术编号:42395246 阅读:14 留言:0更新日期:2024-08-16 16:19
本发明专利技术涉及机器人技能学习技术领域,本发明专利技术涉及一种机器人高效技能学习方法、系统、设备、程序产品及介质,包括:获取机器人在笛卡尔空间下的任务策略方程;获取机器人的任务策略中每个时刻的期望轨迹;构建机器人的任务策略的代价函数;获取机器人的最终期望轨迹。本发明专利技术利用交互式强化学习的方式融合人类智能和机器智能提高算法效率,克服现有强化学习在机器人操作应用问题中的限制,实现真实机器人的技能学习,使得机器人可以在更广阔的场景里得到应用。

【技术实现步骤摘要】

本专利技术涉及机器人技能学习,具体涉及一种机器人高效技能学习方法、系统、设备、程序产品及介质


技术介绍

1、机器人在未来有广阔的应用场景。将强化学习算法应用于机器人问题,可以使机器人具备通过与环境交互实现技能的学习,使其在非结构化的环境里得到更好的应用。机器人学习问题受到物理约束的限制,这使得在真实系统上学习复杂运动技能的成功策略变得不可行。利用强化学习算法解决机器人问题需要处理连续空间,这导致相对较长的训练时间和较高的训练成本。此外,它还限制了它们在现实世界中的应用。考虑到以上问题,一方面,采用基于策略搜索的强化学习方法通过将策略参数化的方式减少了智能体的探索空间,使其有更好的拓展性,以实现强化学习方法在机器人问题中的应用;另一方面,利用人类知识和经验加速学习过程是实现强化学习算法在机器人应用的可行方案。

2、利用交互式机器学习或从演示中学习的方法允许将人类知识快速转移到智能体;然而,现有的大多数方法都需要专家演示,在这项工作中,建议在动作领域使用人类纠正建议来学习运动轨迹,通过提供演示向智能体或机器人提供任务执行的例子。这些演示被记录下来本文档来自技高网...

【技术保护点】

1.一种基于人机混合强化学习的机器人高效技能学习方法,其特征在于,包括:

2.根据权利要求1所述的一种基于人机混合强化学习的机器人高效技能学习方法,其特征在于,机器人在笛卡尔空间下的任务策略方程为:

3.根据权利要求1所述的一种基于人机混合强化学习的机器人高效技能学习方法,其特征在于,可调节学习率的交互式学习框架模型用于用户根据状态向机器人提供动作建议;机器人根据动作建议确定人类反馈模型;人类反馈模型将人类建议传递给动态运动基元模型并对动态运动基元模型的权重参数进行校正。

4.根据权利要求1所述的一种基于人机混合强化学习的机器人高效技能学习方法,其特征...

【技术特征摘要】

1.一种基于人机混合强化学习的机器人高效技能学习方法,其特征在于,包括:

2.根据权利要求1所述的一种基于人机混合强化学习的机器人高效技能学习方法,其特征在于,机器人在笛卡尔空间下的任务策略方程为:

3.根据权利要求1所述的一种基于人机混合强化学习的机器人高效技能学习方法,其特征在于,可调节学习率的交互式学习框架模型用于用户根据状态向机器人提供动作建议;机器人根据动作建议确定人类反馈模型;人类反馈模型将人类建议传递给动态运动基元模型并对动态运动基元模型的权重参数进行校正。

4.根据权利要求1所述的一种基于人机混合强化学习的机器人高效技能学习方法,其特征在于,动态运动基元模型的表达式为:

5.根据权利要求4所述的一种基于人机混合强化学习的机器人高效技能学习方法,其...

【专利技术属性】
技术研发人员:黄攀峰李冰倩刘星郭琪刘正雄
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1