通过逆向强化学习的人类技能学习制造技术

技术编号：41800870 阅读：29 留言：0更新日期：2024-06-24 20:23

一种用于使用逆向强化学习和强化学习奖励函数基于人类演示来教导机器人执行操作的方法。演示者执行操作，接触力和工件运动数据被记录。演示数据用于训练捕获人类技能的编码器神经网络，从而定义状态和动作的集合的高斯概率分布。编码器和解码器神经网络然后被用于实时机器人操作，其中解码器由机器人控制器使用以基于来自机器人的力和运动状态数据来计算动作。在每个操作之后，计算奖励函数，其具有奖励人类演示和机器人操作概率曲线之间的小的差异的库尔巴克‑莱布勒散度项和奖励机器人的成功操作的完成项。使用强化学习来训练解码器以最大化奖励函数。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及工业机器人运动编程领域，并且更具体地，涉及一种用于对机器人进行编程以执行工件放置操作的方法，其中在人类演示阶段期间使用逆向强化学习来捕获技能，并且在强化学习阶段中使用将机器人技能与人类技能进行比较的奖励函数来定义控制机器人的最优动作的策略。

技术介绍

1、使用工业机器人重复地执行大范围的制造、组装和材料移动操作是众所周知的。然而，使用传统方法教导机器人执行甚至相当简单的操作-诸如从料箱中拾取处于随机位置和取向的工件并且将工件移动到容器或传送器-是不直观、耗时和/或昂贵的。教导部件组装操作甚至更有挑战性。

2、传统上，由人类操作员使用教导器教导机器人以执行上述类型的拾取和放置操作。教导器由操作员使用，以指示机器人进行增量移动-例如“在x方向慢进”或“绕局部z轴旋转夹具”-直到机器人及其夹具处于正确的位置和方位以抓取工件。然后，机器人控制器记录机器人配置和工件姿态，以用于“拾取”操作。然后，类似的教导器命令被用于定义“移动”和“放置”操作。然而，经常发现使用教导器来对机器人进行编程尤其对于非专业操作员是困难的、容易出错...

【技术保护点】

1.一种用于通过人类演示来教导机器人执行操作的方法，所述方法包括：

2.根据权利要求1所述的方法，其中所述操作是所述移动工件到所述固定工件的孔中的安装，包括在所述安装期间所述移动工件与所述固定工件之间的接触。

3.根据权利要求2所述的方法，其中在所述第一神经网络的训练中使用的所述演示状态数据和由所述策略神经网络使用的所述机器人状态数据包括所述移动工件与所述固定工件之间的接触力和扭矩。

4.根据权利要求3所述的方法，其中所述演示状态数据中的所述移动工件和所述固定工件之间的所述接触力和扭矩由位于所述固定工件和静止固定装置之间的力传感器测量。

5...

【技术特征摘要】

1.一种用于通过人类演示来教导机器人执行操作的方法，所述方法包括：

5.根据权利要求1所述的方法，其中所述演示状态数据和所述演示动作数据包括所述移动工件的平移速度和旋转速度，所述平移速度和所述旋转速度通过分析在所述演示期间所述人手的相机图像来确定。

6.根据权利要求1所述的方法，其中所述第一神经网络具有编码器神经网络结构，并且使用所述演示数据来训练所述第一神经网络继续，直到作为输出从演示解码器神经网络提供的动作数据收敛到作为输入向所述编码器神经网络提供的所述演示动作数据。

7.根据权利要求1所述的方法，其中，所述奖励函数包括kl散度项和成功项，当所述第一概率分布与所述第二概率分布之间的差异较小时，所述kl散度项较大，并且当所述机器人的所述操作成功时，所述成功项被添加。

8.根据权利要求7所述的方法，其中，所述奖励函数中的所述kl散度项包括针对所述机器人的所述操作的每个步骤的kl散度计算的总和。

9.根据权利要求8所述的方法，其中所述kl散度计算包括计算差异曲线作为所述第一概率分布与所述第二概率分布之间的差异，然后对所述差异曲线下的面积进行积分。

10.根据权利要求1所述的方法，其中，所述强化学习训练以...

【专利技术属性】
技术研发人员：王凯濛，赵煜，
申请(专利权)人：发那科株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人