【技术实现步骤摘要】
本公开涉及工业机器人运动编程领域,并且更具体地,涉及一种用于对机器人进行编程以执行工件放置操作的方法,其中在人类演示阶段期间使用逆向强化学习来捕获技能,并且在强化学习阶段中使用将机器人技能与人类技能进行比较的奖励函数来定义控制机器人的最优动作的策略。
技术介绍
1、使用工业机器人重复地执行大范围的制造、组装和材料移动操作是众所周知的。然而,使用传统方法教导机器人执行甚至相当简单的操作-诸如从料箱中拾取处于随机位置和取向的工件并且将工件移动到容器或传送器-是不直观、耗时和/或昂贵的。教导部件组装操作甚至更有挑战性。
2、传统上,由人类操作员使用教导器教导机器人以执行上述类型的拾取和放置操作。教导器由操作员使用,以指示机器人进行增量移动-例如“在x方向慢进”或“绕局部z轴旋转夹具”-直到机器人及其夹具处于正确的位置和方位以抓取工件。然后,机器人控制器记录机器人配置和工件姿态,以用于“拾取”操作。然后,类似的教导器命令被用于定义“移动”和“放置”操作。然而,经常发现使用教导器来对机器人进行编程尤其对于非专业操作员是困难的、容易出错
...【技术保护点】
1.一种用于通过人类演示来教导机器人执行操作的方法,所述方法包括:
2.根据权利要求1所述的方法,其中所述操作是所述移动工件到所述固定工件的孔中的安装,包括在所述安装期间所述移动工件与所述固定工件之间的接触。
3.根据权利要求2所述的方法,其中在所述第一神经网络的训练中使用的所述演示状态数据和由所述策略神经网络使用的所述机器人状态数据包括所述移动工件与所述固定工件之间的接触力和扭矩。
4.根据权利要求3所述的方法,其中所述演示状态数据中的所述移动工件和所述固定工件之间的所述接触力和扭矩由位于所述固定工件和静止固定装置之间的力传感器测
5...
【技术特征摘要】
1.一种用于通过人类演示来教导机器人执行操作的方法,所述方法包括:
2.根据权利要求1所述的方法,其中所述操作是所述移动工件到所述固定工件的孔中的安装,包括在所述安装期间所述移动工件与所述固定工件之间的接触。
3.根据权利要求2所述的方法,其中在所述第一神经网络的训练中使用的所述演示状态数据和由所述策略神经网络使用的所述机器人状态数据包括所述移动工件与所述固定工件之间的接触力和扭矩。
4.根据权利要求3所述的方法,其中所述演示状态数据中的所述移动工件和所述固定工件之间的所述接触力和扭矩由位于所述固定工件和静止固定装置之间的力传感器测量。
5.根据权利要求1所述的方法,其中所述演示状态数据和所述演示动作数据包括所述移动工件的平移速度和旋转速度,所述平移速度和所述旋转速度通过分析在所述演示期间所述人手的相机图像来确定。
6.根据权利要求1所述的方法,其中所述第一神经网络具有编码器神经网络结构,并且使用所述演示数据来训练所述第一神经网络继续,直到作为输出从演示解码器神经网络提供的动作数据收敛到作为输入向所述编码器神经网络提供的所述演示动作数据。
7.根据权利要求1所述的方法,其中,所述奖励函数包括kl散度项和成功项,当所述第一概率分布与所述第二概率分布之间的差异较小时,所述kl散度项较大,并且当所述机器人的所述操作成功时,所述成功项被添加。
8.根据权利要求7所述的方法,其中,所述奖励函数中的所述kl散度项包括针对所述机器人的所述操作的每个步骤的kl散度计算的总和。
9.根据权利要求8所述的方法,其中所述kl散度计算包括计算差异曲线作为所述第一概率分布与所述第二概率分布之间的差异,然后对所述差异曲线下的面积进行积分。
10.根据权利要求1所述的方法,其中,所述强化学习训练以...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。