当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于图像输入的机器人主动学习方法技术

技术编号:21201102 阅读:20 留言:0更新日期:2019-05-25 01:36
本发明专利技术涉及一种基于图像输入的机器人主动学习方法。包括以下步骤:S1.在仿真环境中,搭建一个类似于现实场景的环境;S2.根据任务的可受性制作响应图和掩膜;S3.使用步骤S1采集的彩色图像、步骤S2制作的响应图和掩膜图,训练深度神经网络,使用编码器从图片中提取有效的信息,再使用解码器生成表示可受性区域响应图;S4.将训练好的深度神经网络模型部署到真实机器人上,尝试完成指定的任务;S5.保存当前状态下摄像头捕获的彩色图像和深度图像,进行标注;S6.使用标注数据对网络进行微调,重复步骤S4;S7.机器人开始执行任务。可以通过在仿真环境中采集少量的数据,训练一个效果良好的深度神经网络,并且能够直接迁移到真实环境之中。

An Active Robot Learning Method Based on Image Input

The invention relates to an active learning method for robots based on image input. It includes the following steps: S1. In the simulation environment, build an environment similar to the real scene; S2. Make response maps and masks according to the acceptability of tasks; S3. Train the depth neural network by using the color images collected by R, the response maps and masks produced by R 2, use the encoder to extract the effective information from the pictures, and then use the decoder to generate the acceptability region. Response graph; S4. Deploy the trained depth neural network model to the real robot and try to accomplish the assigned task; S5. Save the color image and depth image captured by the camera in the current state and label them; S6. Use labeled data to fine-tune the network and repeat it; S7. The robot starts to perform tasks. By collecting a small amount of data in the simulation environment, a good depth neural network can be trained, and can be directly migrated to the real environment.

【技术实现步骤摘要】
一种基于图像输入的机器人主动学习方法
本专利技术属于人工智能
,更具体地,涉及一种基于图像输入的机器人主动学习方法。
技术介绍
近些年来,随着计算力的提高和深度学习算法的不断发展,数据驱动的方法在机器人领域中大放异彩。数据驱动的方法通常需要采集大量的数据,才能较好地训练深度神经网络模型,控制机器人完成相应的任务。不同于其他领域,使用真实机器人采集数据不仅代价高昂,耗时耗力,还会不可避免出现物理损耗,甚至可能产生危险。受限于实际条件,通常不可能使用真实的机器人在现实环境中采集大量的数据。因此急需找到一些方法来减少数据驱动方法所需的真实环境数据的数据量,或者用仿真环境数据代替真实环境数据来训练模型,最后再迁移到真实机器人上。机器人学习领域的研究方向主要分为监督学习和强化学习两个方向。监督学习通过采集大量的数据并进行标注,用来训练网络,按照标注数据的方法,又可以细分为自监督学习、模仿学习等方向;强化学习方法是通过机器人在环境中进行大量的随机探索来学会完成指定的任务。主动学习通过对未标注的数据进行筛选,可以利用少量的标注数据取得较高的学习准确度。主动学习通过某种选择策略从数据集中寻找未标注的数据让专家进行标注,被选中的数据是最具有学习价值的数据,用这样的标注样本进行学习,是最高效的学习。通过不断的选择数据、进行标注和训练网络,直至满足终止条件,能够以最少的标注样本得到效果优良的模型。A.Zengetal.RoboticPick-and-PlaceofNovelObjectsinClutterwithMulti-AffordanceGraspingandCross-DomainImageMatching通过人工来标注真实环境采集的图片数据,对于每张RGB-D的图像,手动地标注出可供抓取的位置。使用这些数据训练全卷积深度神经网络,测试时输入RGB-D图片,输出对应的相应图(responsemap),在图中亮度最高的点即为应当执行抓取的点。该方法使用可受性(affordace)的概念来解决抓取问题,对见过和未见过的物体都有较高的抓取成功率,在物体堆叠的情况下也有较高的抓取成功率,泛化能力强。Konyushkovaetal.LearningActiveLearningfromData首次提出了学习一个选择策略来选择标注数据的方法,而不是使用手工设计的特征。该方法将选择策略看作一个回归问题,通过数据集来学习一个效果良好的回归网络,通过网络来选择需要标注的数据,并且证明了该方法适用于多个领域.监督学习需要采集大量的数据并进行标注来训练网络,缺点是对大量的数据进行标注耗时耗力,而且对于多解的问题不可能标注所有的解;自监督学习往往需要机械臂进行大量的试错实验,采集的样本成功率较低,效率不高,需要大量的人力物力;强化学习方法是通过机器人在指定的环境中进行大量的探索来学会完成指定的任务,缺点是需要的探索次数非常多,且随机的探索容易产生危险,在现实中几乎不可能完成。A.Zengetal.RoboticPick-and-PlaceofNovelObjectsinClutterwithMulti-AffordanceGraspingandCross-DomainImageMatching采集大量真实环境的图片,通过人工来标注数据,需要花费大量的时间和资源;该方法需要一套带有四个摄像头的RGB-D图片采集系统,对抓取的环境有较高的要求;该方法是一种开环的抓取方法,没有充分利用信息实现闭环抓取;该方法对于模型不能抓取的物体没有提出进一步的解决方法,不能持续地提高成功率。在机器人领域上,现有的主动学习方法的选择策略大多是手工设计的特征,通过这些特征让机器人判断当前状态是否需要示教。手工设计的特征泛化性能较差,不仅无法多种任务通用,对于同一个任务也容易出现虚警和漏警。K.Konyushkovaetal.LearningActiveLearningfromData提出的学习一个回归网络来作为选择策略的方法无法直接应用在机器人领域。在真实的机器人操作中,机器人与环境是不断地进行实时交互的,选择策略所面对的数据集并不是一个已存在的确定的数据集,任务不是从已有的数据集中挑选数据进行标注;而是面对一个动态增长的数据集,任务是判断一个全新的场景是否需要标注。
技术实现思路
本专利技术为克服上述现有技术所述的至少一种缺陷,提供一种基于图像输入的机器人主动学习方法,以提高机器人主动学习的效果。为解决上述技术问题,本专利技术采用的技术方案是:一种基于图像输入的机器人主动学习方法,包括以下步骤:S1.在仿真环境中,搭建一个类似于现实场景的环境,捕获仿真环境中的彩色图像和对应的物体的位置,保存为数据集;S2.根据任务的可受性制作响应图和掩膜;S3.使用步骤S1采集的彩色图像、步骤S2制作的响应图和掩膜图,训练深度神经网络,使用编码器从图片中提取有效的信息,再使用解码器生成表示可受性区域响应图;S4.将训练好的深度神经网络模型部署到真实机器人上,尝试完成指定的任务;S5.保存当前状态下摄像头捕获的彩色图像和深度图像,进行标注;S6.使用标注数据对网络进行微调,重复步骤S4;S7.机器人开始执行任务。进一步的,所述的S1步骤具体包括:S11.在场景中放置一张桌子,桌子上摆放了机器人、摄像头和一些物体;S12.在仿真器中,随机设置桌子和地板的颜色,随机选择一个或多个物体摆放在桌子上,随机产生物体摆放的位置,随机改变物体的颜色和纹理,随机改变环境的光照强度;S13.记录摄像头捕获的彩色图像和对应的物体的位置,保存为数据集。进一步的,所述的S2步骤具体包括:S21.根据任务的特点,计算对于指定任务下物体的可受性区域,对于抓取任务,可受性区域为物体的几何中心点;对于推动任务,可受性区域为终点物体与起点物体的连线的延长线某一区域处;S22.根据可受性区域,制作响应图,在图上表示为一个服从高斯分布的高亮圆形,圆心的位置即为可受性区域的中心位置;S23.根据可受性区域,制作掩膜图,在图上表示为一个服从高斯分布的高亮圆形,圆心的位置即为可受性区域的中心位置,半径比响应图的圆形要大。进一步的,所述的S3步骤具体包括:S31.对输入到网络的图片进行归一化,归一化后图像像素值的范围是(-1,1);S32.网络使用Adam优化器进行梯度下降,学习率设定为10e-4,mini-batch设定为32,所有参数均随机初始化;S33.编码器由4个卷积层组成,在每个卷积层后均跟有池化层和批标准化层;每个卷积层都使用4*4的卷积核,步长为2,使用leaky_relu函数作为激活函数;解码器由4个反卷积层组成,在每个反卷积层后均跟有批标准化层;反卷积层使用4*4的卷积核,步长为2;最后一个反卷积层使用tanh作为激活函数,其余层均使用leaky_relu函数作为激活函数;S34.网络输出的响应图记为O,制作的响应图记为Y,掩膜图记为M,网络的损失函数定义为:进一步的,所述的S4步骤具体包括:S41.摄像头拍摄当前场景的彩色图像,将该图像进行步骤S31所述的归一化后输入到网络中;网络将会输出对应的响应图;S42.计算输出的响应图的交叉熵,比较交叉熵和阈值大小的关系,判断能否完成任务;若交叉熵的值大于阈值本文档来自技高网
...

【技术保护点】
1.一种基于图像输入的机器人主动学习方法,其特征在于,包括以下步骤:S1.在仿真环境中,搭建一个类似于现实场景的环境,捕获仿真环境中的彩色图像和对应的物体的位置,保存为数据集;S2.根据任务的可受性制作响应图和掩膜;S3.使用步骤S1采集的彩色图像、步骤S2制作的响应图和掩膜图,训练深度神经网络,使用编码器从图片中提取有效的信息,再使用解码器生成表示可受性区域响应图;S4.将训练好的深度神经网络模型部署到真实机器人上,尝试完成指定的任务;S5.保存当前状态下摄像头捕获的彩色图像和深度图像,进行标注;S6.使用标注数据对网络进行微调,重复步骤S4;S7.机器人开始执行任务。

【技术特征摘要】
1.一种基于图像输入的机器人主动学习方法,其特征在于,包括以下步骤:S1.在仿真环境中,搭建一个类似于现实场景的环境,捕获仿真环境中的彩色图像和对应的物体的位置,保存为数据集;S2.根据任务的可受性制作响应图和掩膜;S3.使用步骤S1采集的彩色图像、步骤S2制作的响应图和掩膜图,训练深度神经网络,使用编码器从图片中提取有效的信息,再使用解码器生成表示可受性区域响应图;S4.将训练好的深度神经网络模型部署到真实机器人上,尝试完成指定的任务;S5.保存当前状态下摄像头捕获的彩色图像和深度图像,进行标注;S6.使用标注数据对网络进行微调,重复步骤S4;S7.机器人开始执行任务。2.根据权利要求1所述的一种基于图像输入的机器人主动学习方法,其特征在于,所述的S1步骤具体包括:S11.在场景中放置一张桌子,桌子上摆放了机器人、摄像头和一些物体;S12.在仿真器中,随机设置桌子和地板的颜色,随机选择一个或多个物体摆放在桌子上,随机产生物体摆放的位置,随机改变物体的颜色和纹理,随机改变环境的光照强度;S13.记录摄像头捕获的彩色图像和对应的物体的位置,保存为数据集。3.根据权利要求2所述的一种基于图像输入的机器人主动学习方法,其特征在于,所述的S2步骤具体包括:S21.根据任务的特点,计算对于指定任务下物体的可受性区域,对于抓取任务,可受性区域为物体的几何中心点;对于推动任务,可受性区域为终点物体与起点物体的连线的延长线某一区域处;S22.根据可受性区域,制作响应图,在图上表示为一个服从高斯分布的高亮圆形,圆心的位置即为可受性区域的中心位置;S23.根据可受性区域,制作掩膜图,在图上表示为一个服从高斯分布的高亮圆形,圆心的位置即为可受性区域的中心位置,半径比响应图的圆形要大。4.根据权利要求3所述的一种基于图像输入的机器人主动学习方法,其特征在于,所述的S3步骤具体包括:S31.对输入到网络的图片进行归一化,归一化后图像像素值的范围是(-1,1);S32.网络使用Adam优化器进行梯度下降,学习率设定为10e-4,mini-batch设定为32,所有参数均随机初始化;S33.编码器由4个卷积层组成,在每个卷积层后均跟有池化层和批标准化层;每个卷积层都使用4*4的卷积核,步长为2,使用leaky_relu函数作为激活函数;解码器由4个反卷积层组成,在每个反卷积层后均跟有批标准化层;反卷积层使用4*4的卷积核,步长为2;最后一个反卷积层使用tanh作为激活函数,其余层均使用leaky_relu函数作为激活函数;S34.网...

【专利技术属性】
技术研发人员:成慧吴华栋杨凯张东
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1