一种基于视觉模仿的机器人序列任务学习方法技术

技术编号:24321660 阅读:14 留言:0更新日期:2020-05-29 16:55
一种基于视觉模仿的机器人序列任务学习方法,用于指导机器人从包含人类动作的视频中模仿执行人类动作。步骤为:(1)根据输入图像,利用基于区域的掩码卷积神经网络识别物体种类与掩码;(2)根据掩码计算物体实际平面物理坐标(x,y);(3)识别目标视频中的原子动作;(4)将原子动作序列与识别得到的物体种类转化为一维向量;(5)将该一维向量输入任务规划器,输出可指导机器人的任务描述向量;(6)结合任务描述向量和物体坐标,控制机器人完成机器人对目标视频中序列任务的模仿。本发明专利技术以视频和图像作为输入,识别物体及推断任务序列,指导机器人完成对目标视频的模仿,同时泛化性强,在不同的环境或物体种类下仍可以完成模仿任务。

【技术实现步骤摘要】
一种基于视觉模仿的机器人序列任务学习方法
本专利技术涉及一种根据视觉传感器和视频输入进行机器人模仿人类完成各种任务的方法,属于机器人控制领域、深度学习和模仿学习领域,主要应用于通过视频教会机器人模仿人类完成搬运、打扫、分类或摆放物体等应用场景。
技术介绍
近些年以来,随着人工智能领域、智能机器人领域的快速发展,智能产品如机器人在人类的生活中占据着越来越重要的角色,而在智能的背后是复杂的算法和控制方式。“工业革命4.0”、“中国制造2025”的时代背景下机器人,机械臂等与人工智能领域的研究愈发成为各国各高校、各企业、各大实验室研究创新的主流。利用人工智能技术为传统机械臂、机器人装上“大脑”将是下一次产业技术革命的重要技术支撑。并且,随着机器人和其他智能体从简单的环境或任务向复杂环境和任务涉足,为其运动的手动编程必须面对更大的困难和昂贵的时间代价,因此开发一种新的技术方法,越过对复杂环境与任务的手动编程,是迫切需要的,模仿学习就是针对这一问题,从数据中“模仿”人的动作,使机器人自己学会完成复杂任务。从我们人类学习一个任务的过程出发,通常都是通过模仿老师的示范动作来学习的。也就是将老师的动作,还原到自己的环境下复现。这种从示教中学习的模式或算法,被称为模仿学习。近年来,模仿学习日益成为人工智能领域的研究热点。模仿学习是一种基于专家示教重建期望策略的方法,能通过专家的示教快速高效的模仿动作。示教的数据可以是视频、动作轨迹数据或任务序列等等。在理论研究中,模仿学习方法与强化学习、深度学习等方法相结合,已经取得了重要的成果。在实际应用中,尤其是在机器人和其他智能体的复杂环境中,模仿学习通过其示教中学习的特性也取得了很好的效果,能够模仿人类的动作行为。相比强化学习在很大的动作状态空间中的搜索模式,模仿学习通过专家示教,“告诉”机器人什么行为是对完成任务有益的,什么行为是消极的,通过这样的方式监督机器人的动作逐渐拟合到示教的动作上,从而更高效地学习目标任务。机械臂作为一种类似人类手臂的机械结构,选择基于机械臂的模仿学习研究,能够通过实验模仿大多数人类的肢体动作。同时基于物体识别动作分割的先验知识,能够进一步加速学习过程,提高模型对不同环境的泛化能力。模仿学习作为机器学习领域的一个分支,它包含了两大类方法:行为克隆方法和逆强化学习方法。行为克隆方法主要思想是基于包含了行为轨迹、状态动作对或任务序列的示教数据,通过学习的方法模拟示教者的动作。逆强化学习方法,是通过是示教数据(往往是包含动作的视频)提取出有用的特征,重新建立奖励函数,在通过强化学习的方法进行动作的模仿学习。早期的模仿学习研究把无模型的行为克隆方法理解为监督学习。早些年Abbeel等人提出训练一个神经网络用于自动驾驶系统,这一神经网络建立一个从摄像机图象到转向角映射的模型。但是这一工作在实践中并不成功。主要原因有两个:一是由于示教数据集有限,学徒遇到的状态分布与给定的示教数据集分布不同,而监督学习是基于训练数据集是独立同分布的假设,因此监督学习很难泛化到新的场景去;二是不可避免的级联错误累积误差得不到纠正。同时也有学者提出一个基于置信度的方法,在给定状态的置信度学习策略时,此方法基于置信度确定是否需要额外的专家示教。通过能返回置信度的分类器,学徒决定怎么样从动作集中选择动作。当置信度低于阈值时,就需要额外的专家示教。通过额外的示教该算法试图在学徒策略的诱导下学习策略,并将矫正后的动作添加到训练数据集。隐马尔可夫模型是常常用于建立离散状态之间概率转换的模型。隐马尔可夫模型由一个有限隐状态集X、有限观察标签集Y、状态转移矩阵A、输出概率矩阵B和一个初始分布组成。给定观察序列和状态集,通过Baum-Welch算法求得A和B,进而可以求得给定初始状态下的运动序列。它的缺点是表示的离散性。状态数量多会导致计算成本过高,状态数量少不能有效表示。在经典的自回归隐马尔可夫模型中,其隐变量的概率分布依赖于观察状态,隐变量用来表示任务的当前阶段。有学者使用自回归隐马尔科夫模型,把任务表示为一个确定性运动基元序列,其中变量表示当前的激活DMP。该模型使用条件运动基元规划,这一规划可以基于观察把一个DMP转化为另一个DMP。生成对抗网络已经引入到模仿学习中。在生成对抗网络中,一个生成模型G训练一个用于模仿真实数据分布的生成数据样本。而判别器D用于判别数据是否是真实数据。也有学者提出基于生成对抗的模仿学习,把生成对抗网络和强化学习相结合。该方法能够根据未知的奖励函数来约束智能体的行为到近似最优,而无需明确地尝试恢复该奖励函数。这种方法训练重现专家行为策略的生成器和区分学徒策略轨迹和专家示教轨迹的判别器,并且使用信赖域策略优化方法来优化目标函数。但是这种方法训练的模型对于新的陌生场景难以适用,泛化能力有限。
技术实现思路
本专利技术的技术解决问题:克服现有技术的不足,提出一种基于视觉模仿的机器人序列任务学习方法,利用抽取的高级特征,大大提高了对不同环境的泛化能力,使得机器人在各种环境下都可以成功模仿视频完成任务。本专利技术的技术解决方案:一种基于视觉模仿的机器人序列任务学习方法,利用深度学习的方法完成物体识别和视频中原子动作的识别,通过基于结构化预测的任务规划器指导机器人完成视频模仿任务;机器人执行模仿任务的环境为:在工作平面放置各种不同种类的物体,视觉传感器固定于桌面正上方,机器人位于桌子侧面;包括如下步骤:第一步,根据视觉传感器获取的图像,利用基于区域的掩码卷积神经网络算法识别图像中的物体种类,并生成每个物体的掩码,其中掩码为不同大小的像素点集;第二步,根据生成的掩码,计算得出每个物体的掩码的中心像素坐标(xpixel,ypixel),通过视觉传感器到实际物理坐标系的变换,得到每个物体在实际工作平面上的物理坐标(xi,yi);第三步,将需要被模仿的目标视频逐帧读取,每一帧与其差分图像合并后输入到原子动作识别模型中,输出得到目标视频中包含的原子动作序列;第四步,第一、三步获得的物体种类信息和原子动作序列信息均为字符描述,将二者合并转换为能够用于数学计算的一维数学向量;第五步,将第四步的一维数学向量作为任务规划器的输入,输出一个用于指导机器人的任务描述向量;第六步,结合第五步中的任务描述向量和第二步中获得的各个物体的物理坐标(xi,yi),生成用于控制机器人的动作指令,机器人根据动作指令,逐步完成机器人对目标视频中序列任务的模仿。所述第三步中,识别视频中原子动作序列的方法是:原子动作模型由两部分拼接而成:第一部分是:不包含顶部全连接层的残差网络预训练模型Resnet50,该模型已经在数据集ImageNet上作预先训练;该部分模型输出一个长度为2048的向量,且不参与训练;第二部分是:拼接在预训练模型后的4层全连接层,分别包含256、128、32、4个神经元,参与训练;最后一层4个神经元输出长度为4的向量,该向量每一位代表一个原子动作:移动,抓取,放置,推动;将当前帧与当前帧的差分图像合并后输本文档来自技高网
...

【技术保护点】
1.一种基于视觉模仿的机器人序列任务学习方法,其特征在于:利用深度学习的方法完成物体识别和视频中原子动作的识别,通过基于结构化预测的任务规划器指导机器人完成视频模仿任务;机器人执行模仿任务的环境为:在工作平面放置各种不同种类的物体,视觉传感器固定于桌面正上方,机器人位于桌子侧面;包括如下步骤:/n第一步,根据视觉传感器获取的图像,利用基于区域的掩码卷积神经网络算法识别图像中的物体种类,并生成每个物体的掩码,其中掩码为不同大小的像素点集;/n第二步,根据生成的掩码,计算得出每个物体的掩码的中心像素坐标(x

【技术特征摘要】
1.一种基于视觉模仿的机器人序列任务学习方法,其特征在于:利用深度学习的方法完成物体识别和视频中原子动作的识别,通过基于结构化预测的任务规划器指导机器人完成视频模仿任务;机器人执行模仿任务的环境为:在工作平面放置各种不同种类的物体,视觉传感器固定于桌面正上方,机器人位于桌子侧面;包括如下步骤:
第一步,根据视觉传感器获取的图像,利用基于区域的掩码卷积神经网络算法识别图像中的物体种类,并生成每个物体的掩码,其中掩码为不同大小的像素点集;
第二步,根据生成的掩码,计算得出每个物体的掩码的中心像素坐标(xpixel,ypixel),通过视觉传感器到实际物理坐标系的变换,得到每个物体在实际工作平面上的物理坐标(xi,yi);
第三步,将需要被模仿的目标视频逐帧读取,每一帧与其差分图像合并后输入到原子动作识别模型中,输出得到目标视频中包含的原子动作序列;
第四步,第一、三步获得的物体种类信息和原子动作序列信息均为字符描述,将二者合并转换为能够用于数学计算的一维数学向量;
第五步,将第四步的一维数学向量作为任务规划器的输入,输出一个用于指导机器人的任务描述向量;
第六步,结合第五步中的任务描述向量和第二步中获得的各个物体的物理坐标(xi,yi),生成用于控制机器人的动作指令,机器人根据动作指令,逐步完成机器人对目标视频中序列任务的模仿。


2.根据权利要求1所述的基于视觉模仿的机器人序列任务学习方法,其特征在于:所述第三步中,识别视频中原子动作序列的方法是:
原子动作模型由两部分拼接而成:第一部分是:不包含顶部全连接层的残差网络预训练模型Resnet50,该模型已经在数据集ImageNet上作预先训练;该部分模型输出一个长度为2048的向量,且不参与训练;第二部分是:拼接在预训练模型后的4层全连接层,分别包含256、128、32、4个神经元,参与训练;最后一层4个神经元输出长度为4的向量,该向量每一位代表一个原子动作:移动,抓取,放置,推动;将当前帧与当前帧的差分图像合并后输入原子动作识别模型中,预测当前帧的原子动作;
通过原子动作模型,识别待模仿的视频中的原子动作序列的步骤为:先将视频逐帧读入,每一帧和该帧的前后4帧的差分图像作为原子动作识别模型的输入,假设视频中共有n帧图像,输入表示为:
Inputk=[Ik-2-Ik,Ik-1-Ik,Ik,Ik+1-Ik,Ik+2-Ik],k=3,4,..,n-2
每一个包含了n帧的视频,能得到一个长度为n-4的序列;
对序列进行去重复化处理,使得序列中的每一段对应一个原子动作,得到具有11个原子动作的序列,并用0,1,2,3来分别表示移动,抓取,放置,推动这四个原子动作;最终得到一个11维向量作为该视频的原子动作序列;
从示教视频中识别到的原子动作序列用于...

【专利技术属性】
技术研发人员:贾之馨林梦香陈智鑫
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1