【技术实现步骤摘要】
一种基于视觉模仿的机器人序列任务学习方法
本专利技术涉及一种根据视觉传感器和视频输入进行机器人模仿人类完成各种任务的方法,属于机器人控制领域、深度学习和模仿学习领域,主要应用于通过视频教会机器人模仿人类完成搬运、打扫、分类或摆放物体等应用场景。
技术介绍
近些年以来,随着人工智能领域、智能机器人领域的快速发展,智能产品如机器人在人类的生活中占据着越来越重要的角色,而在智能的背后是复杂的算法和控制方式。“工业革命4.0”、“中国制造2025”的时代背景下机器人,机械臂等与人工智能领域的研究愈发成为各国各高校、各企业、各大实验室研究创新的主流。利用人工智能技术为传统机械臂、机器人装上“大脑”将是下一次产业技术革命的重要技术支撑。并且,随着机器人和其他智能体从简单的环境或任务向复杂环境和任务涉足,为其运动的手动编程必须面对更大的困难和昂贵的时间代价,因此开发一种新的技术方法,越过对复杂环境与任务的手动编程,是迫切需要的,模仿学习就是针对这一问题,从数据中“模仿”人的动作,使机器人自己学会完成复杂任务。从我们人类学习一个任务的过程出发,通常都是通过模仿老师的示范动作来学习的。也就是将老师的动作,还原到自己的环境下复现。这种从示教中学习的模式或算法,被称为模仿学习。近年来,模仿学习日益成为人工智能领域的研究热点。模仿学习是一种基于专家示教重建期望策略的方法,能通过专家的示教快速高效的模仿动作。示教的数据可以是视频、动作轨迹数据或任务序列等等。在理论研究中,模仿学习方法与强化学习、深度学习等方法相结合,已经取得了重要的成 ...
【技术保护点】
1.一种基于视觉模仿的机器人序列任务学习方法,其特征在于:利用深度学习的方法完成物体识别和视频中原子动作的识别,通过基于结构化预测的任务规划器指导机器人完成视频模仿任务;机器人执行模仿任务的环境为:在工作平面放置各种不同种类的物体,视觉传感器固定于桌面正上方,机器人位于桌子侧面;包括如下步骤:/n第一步,根据视觉传感器获取的图像,利用基于区域的掩码卷积神经网络算法识别图像中的物体种类,并生成每个物体的掩码,其中掩码为不同大小的像素点集;/n第二步,根据生成的掩码,计算得出每个物体的掩码的中心像素坐标(x
【技术特征摘要】
1.一种基于视觉模仿的机器人序列任务学习方法,其特征在于:利用深度学习的方法完成物体识别和视频中原子动作的识别,通过基于结构化预测的任务规划器指导机器人完成视频模仿任务;机器人执行模仿任务的环境为:在工作平面放置各种不同种类的物体,视觉传感器固定于桌面正上方,机器人位于桌子侧面;包括如下步骤:
第一步,根据视觉传感器获取的图像,利用基于区域的掩码卷积神经网络算法识别图像中的物体种类,并生成每个物体的掩码,其中掩码为不同大小的像素点集;
第二步,根据生成的掩码,计算得出每个物体的掩码的中心像素坐标(xpixel,ypixel),通过视觉传感器到实际物理坐标系的变换,得到每个物体在实际工作平面上的物理坐标(xi,yi);
第三步,将需要被模仿的目标视频逐帧读取,每一帧与其差分图像合并后输入到原子动作识别模型中,输出得到目标视频中包含的原子动作序列;
第四步,第一、三步获得的物体种类信息和原子动作序列信息均为字符描述,将二者合并转换为能够用于数学计算的一维数学向量;
第五步,将第四步的一维数学向量作为任务规划器的输入,输出一个用于指导机器人的任务描述向量;
第六步,结合第五步中的任务描述向量和第二步中获得的各个物体的物理坐标(xi,yi),生成用于控制机器人的动作指令,机器人根据动作指令,逐步完成机器人对目标视频中序列任务的模仿。
2.根据权利要求1所述的基于视觉模仿的机器人序列任务学习方法,其特征在于:所述第三步中,识别视频中原子动作序列的方法是:
原子动作模型由两部分拼接而成:第一部分是:不包含顶部全连接层的残差网络预训练模型Resnet50,该模型已经在数据集ImageNet上作预先训练;该部分模型输出一个长度为2048的向量,且不参与训练;第二部分是:拼接在预训练模型后的4层全连接层,分别包含256、128、32、4个神经元,参与训练;最后一层4个神经元输出长度为4的向量,该向量每一位代表一个原子动作:移动,抓取,放置,推动;将当前帧与当前帧的差分图像合并后输入原子动作识别模型中,预测当前帧的原子动作;
通过原子动作模型,识别待模仿的视频中的原子动作序列的步骤为:先将视频逐帧读入,每一帧和该帧的前后4帧的差分图像作为原子动作识别模型的输入,假设视频中共有n帧图像,输入表示为:
Inputk=[Ik-2-Ik,Ik-1-Ik,Ik,Ik+1-Ik,Ik+2-Ik],k=3,4,..,n-2
每一个包含了n帧的视频,能得到一个长度为n-4的序列;
对序列进行去重复化处理,使得序列中的每一段对应一个原子动作,得到具有11个原子动作的序列,并用0,1,2,3来分别表示移动,抓取,放置,推动这四个原子动作;最终得到一个11维向量作为该视频的原子动作序列;
从示教视频中识别到的原子动作序列用于...
【专利技术属性】
技术研发人员:贾之馨,林梦香,陈智鑫,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。