【技术实现步骤摘要】
面向跨场景的机器人视觉模仿学习方法及系统
本公开属于领机器人学习
,尤其涉及面向跨场景的机器人视觉模仿学习方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。机器人模仿学习旨在通过观看演示视频来学习复杂多样的任务。这种学习方式可以避免复杂的手动编程。未来,具备这种能力的机器人有望应用到我们的日常生活中,比如家庭服务或者照顾老人。早期的模仿学习方法主要有两大类:行为克隆和逆强化学习。行为克隆是通过有监督学习的方式从“观察-动作”对数据中来学习技能。逆强化学习是通过学习出一个奖励函数来优化模仿学习的策略。值得一提的是,这两类方法都很难直接通过纯视觉的演示来完成模仿任务,因为这些方法都没有专门去研究视觉演示的有效特征表达。为了解决上述问题,专利技术人在研究中发现,现有的文献提出了一种目标导向的逆动态模型来从视觉演示中模仿人类动作。但是,他们的方法都设定演示者(比如人类)和学习者(比如机器人)存在相同语境中,也就是具有相同的视角、背景、物体位置和样式。这样的设 ...
【技术保护点】
1.面向跨场景的机器人视觉模仿学习方法,其特征是,包括:/n将给定来自原始语境的观察图像转换为预测的目标观察图像,即将视觉演示从演示者的语境转换到机器人所在语境,完成语境转换;/n基于原始语境的观察图像及初始深度观察图像来预测结束深度观察图像;/n针对获取到的初始观察图像、初始深度观察图像、结束观察图像、结束深度观察图像,使用深度神经网络来构建逆动态模型,利用逆动态模型来输出预测动作,完成模仿学习。/n
【技术特征摘要】
1.面向跨场景的机器人视觉模仿学习方法,其特征是,包括:
将给定来自原始语境的观察图像转换为预测的目标观察图像,即将视觉演示从演示者的语境转换到机器人所在语境,完成语境转换;
基于原始语境的观察图像及初始深度观察图像来预测结束深度观察图像;
针对获取到的初始观察图像、初始深度观察图像、结束观察图像、结束深度观察图像,使用深度神经网络来构建逆动态模型,利用逆动态模型来输出预测动作,完成模仿学习。
2.如权利要求1所述的面向跨场景的机器人视觉模仿学习方法,其特征是,演示者的视觉演示使用初始观察图像和最终观察图像来描述。
3.如权利要求1所述的面向跨场景的机器人视觉模仿学习方法,其特征是,所述语境转换步骤:
给定来自原始语境的观察图像,使用两个分支的第一编码器来提取特征;
第二编码器负责对目标语境中的初始观察图像提取特征;
将第二编码器提取的特征和第一编码器提取的特征合并,并作为转换函数的输入;
使用解码器将转换函数的输出特征解码为预测的目标观察图像。
4.如权利要求3所述的面向跨场景的机器人视觉模仿学习方法,其特征是,第一编码器和第二编码器使用ResNet50网络的前3层模块来进行构建,第一编码器和第二编码器拥有不同的权重参数;
使用成对的演示数据{Ds,Dt}对第一编码器和第二编码器进行监督学习训练,其中Ds来源于随机设置的语境即原始语境,Dt来源于机器人所在的语境即目标语境。
5.如权利要求4所述的面向跨场景的机器人视觉模仿学习方法,其特征是,训练过程是通过包含像素级别的图像损失函数、语境损失函数及图像熵损失函数的加权融合后的损失函数来进行训练。
6.如权利要求1所述的面向跨场景的机器人视觉模仿学习方法,其特征是,基于初始深度观察图像来预测目标深度观察图像的步骤为:
基于Alexnet网络构建编码器,编码器三个分支分别输入初始颜色图像、目标颜色图像和初始深度图像,然后分别生成特征向量,三个分支的CNN网络共享权重,特征向量合并之后输入到3层全连接网络中,然后经过解码器进行解码,最终得到预...
【专利技术属性】
技术研发人员:张伟,杨硕,鲁威志,王贺升,李贻斌,
申请(专利权)人:山东大学,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。