当前位置: 首页 > 专利查询>清华大学专利>正文

基于深度强化学习的室内机器人场景主动识别方法技术

技术编号:17265794 阅读:122 留言:0更新日期:2018-02-14 13:26
本发明专利技术提供了一种基于深度强化学习的室内机器人场景主动识别方法,属于机器学习领域和机器人技术领域。该方法包括:训练一个能够识别声呐信息二值化轮廓图环投影向量的分类神经网络NL;进入强化学习训练阶段:对机器人在场景中进行多次场景识别试验,在试验过程中训练强化学习神经网络NQ使其拟合为一个函数逼近器;强化学习神经网络NQ训练完成后,进入执行阶段:根据声呐传感器采集的场景轮廓信息,对机器人室内场景主动识别功能进行测试。该发明专利技术的方法,基于极限学习机算法,提高了计算效率;基于强化学习算法,提高了场景识别的准确率。能够适应不同的场景识别任务,无需人为参与,是一个机器人主动学习,自主提高场景识别正确率的方法。

An active recognition method for indoor robot scene based on deep reinforcement learning

The invention provides an active recognition method for indoor robot scene based on depth reinforcement learning, which belongs to the field of machine learning and robot technology. The method includes: training a sonar information to identify the binarization profile ring projection vector classification neural network NL; reinforcement learning into the training phase of the robot in the scene scene recognition test, intensive training in the course of the experiment study of NQ neural network to fit as a function approximator; reinforcement learning NQ neural network training is completed, entered the implementation stage: according to the collected sonar sensor scene contour information of the robot indoor scene active recognition function test. The method of the invention improves the computing efficiency based on the limit learning machine algorithm, and improves the accuracy of scene recognition based on the reinforcement learning algorithm. It can adapt to different scene recognition tasks without human participation. It is a method for robot to learn actively and improve the accuracy of scene recognition independently.

【技术实现步骤摘要】
基于深度强化学习的室内机器人场景主动识别方法
本专利技术涉及一种基于深度强化学习的室内机器人场景主动识别方法,属于机器学习领域和机器人

技术介绍
近年来,机器人已经越来越多的应用于生产生活中,如排险、军事探测、医疗护理等;而机器人的定位与导航在实现上述功能中发挥着关键的作用,快速而又准确地识别机器人所处环境是机器人准确定位的前提。现阶段的场景识别应用中,机器人通过传感器所采集的样本数据集训练分类神经网络,仅能实现被动地识别当前场景;由于机器人方位的局限性和低成本传感器的数据局限性造成场景识别准确率低下。在一份现有技术文献中(专利技术专利申请题为“一种基于单隐层神经网络的场景识别方法”,申请公开号为105678278A)公开的技术方案为:在训练阶段通过对预先采集的样本图像集进行预处理,提取样本图集提取局部梯度统计特征,将特征同其对应标签一同输入到单隐层分类神经网络进行监督式学习;在识别阶段对待识别的图像进行预处理并提取特征输入到训练好的场景分类神经网络中进行识别,得到识别结果。该方法的缺点是,采用场景图片作为训练样本数据,所用传感器较为昂贵,且所需样本体积庞大复杂,造成运算缓慢;只能依靠采集样本数据的丰富程度来提高识别准确率,工作量庞大。在另一份现有技术文献中(专利技术专利申请题为“场景识别方法及装置”,专利申请公开号为103973988A)公开的技术方案为:通过由摄像头、传感器、存储器、处理器所构成的终端获取场景图片信息并判断图像是否非HDR场景,再利用图像特征判断图像场景;摄像头用于获取图像,传感器用于获取摄像头所对应的传感数据,处理器用于调用存储器中的程序代码判断图像是否非HDR场景并决定是否提取图像特征。该装置的缺点是,装置较为昂贵,结构较为复杂,摄像头所采集的图像信息信息量巨大,造成运算速度缓慢。强化学习在机器人实现“智能化”的过程中扮演者越来越重要的角色。目前,强化学习已经渗透到机器人应用的各个领域,并取得了广泛的成功,比如利用强化学习实现机器人对物品的抓取、移动机器人室内路径规划等。
技术实现思路
本专利技术的目的是为了减少机器人成本以及提高运行速度,提出了一种基于深度强化学习的室内机器人主动识别方法,本方法通过强化学习算法,提高了室内场景识别的准确率。本专利技术采用的机器人可以通过“左转”“右转”两种方式调节朝向角,获取不同角度的轮廓信息,利用强化学习神经网络作为强化学习值函数的逼近器,将室内场景轮廓信息输入强化学习神经网络,从而确定当前机器人做出何种动作来正确识别当前场景。本专利技术采用基于局部感受野的单隐层神经网络作为分类神经网络,配合强化学习的训练动态地学习识别场景最合适的机器人朝向角,基于算法的动态特性本方法仅采用少量廉价的声呐传感器,既提高了效率又降低了机器人成本,识别准确率也获得了较大提升。本专利技术提出的一种基于深度强化学习的室内机器人场景主动识别方法,其特征在于,该方法包括:强化学习神经网络NQ训练阶段和室内场景主动识别执行阶段:训练一个能够识别声呐信息二值化轮廓图环投影向量的分类神经网络NL;进入强化学习训练阶段:对机器人在场景中进行多次场景识别试验,在试验过程中训练强化学习神经网络NQ使其拟合为一个函数逼近器;强化学习神经网络NQ训练完成后,进入执行阶段:根据声呐传感器采集的场景轮廓信息,对机器人室内场景主动识别功能进行测试。本专利技术的技术特点:本专利技术能够在分类神经网络已经训练完成且准确率无法再有明显提高的情况下,进一步提高识别准确率。本方法通过强化学习算法,利用机器人前端声呐传感器返回的距离信息实时观察当前所处环境,将环境信息输入到分类神经网络中判定当前环境对于准确识别场景的有利程度,进而通过强化学习神经网络获得对于识别正确率提高较为有利的动作“左转15°”“右转15°”来调整机器人朝向。可以通过学习的方式使得当前采集的特征更佳适用于当前任务。本方法具有以下有益效果:1、本专利技术中通过多次动作提高场景识别准确率,降低了传感器要求,有益于在工业生产与实践中降低成本。2、本专利技术中强化学习神经网络根据当前声呐信息,选择合适的动作完成场景识别,识别过程主动完成,不需要人为参与。3、本专利技术使用的单隐层网络采用随机生成输入权重和偏置的情况下利用直接利用标签求得输出权重的闭式解,在保证正确率的情况下提高运算效率,非常适合与强化学习相结合做动态实时训练。附图说明图1为本专利技术训练阶段流程图。图2为本专利技术机器人装置的前端的俯视图,展示了声呐传感器的分布情况。图3为本专利技术执行阶段流程图。具体实施方式本专利技术提出的一种基于深度强化学习的室内机器人主动识别方法结合附图详细说明如下:本专利技术提出的一种基于深度强化学习的室内移动机器人主动识别的方法及实施例,该方法采用的机器人为移动机器人,适用于室内场景识别,该方法包括强化学习神经网络NQ训练阶段和室内场景主动识别执行阶段;该强化学习神经网络NQ训练阶段流程如图1所示,包括以下步骤:(1)采集声呐测距信息并处理成二值化轮廓图,构建分类神经网络训练样本集,具体实施步骤如下:(1-1)构建不同的类型的室内场景,本实施例是采用的是普通家居场景,共构建5户不同家庭的室内场景,每个家庭构建M类(3≤M≤6)室内场景,本实施例每户构建4类室内场景包括:—卧室、厨房、客厅、卫生间;(1-2)每类场景内设定多个(3—5个)数据采集点,本实施例对卧室、厨房、客厅、卫生间分别设定4、3、5、3个数据采集点;每个场景内采集点数目可以根据面积大小设置不同数目的采集点;(1-3)采用移动机器人(型号没有特殊要求,本实施例采用移动机器人Pioneer3-AT)搭载前端的多个声呐传感器阵列采集数据,本实施例为8个声呐传感器阵列,其分布如图2所示,即8个声呐传感器阵列对称均匀分布在机器人前端两侧,与垂直方向夹角分别分(10°、-10°),(30°、-30°),(50°、-50°),(90°、-90°);采集数据具体步骤如下:(1-3-1)设定每个采集点采集次数为Kc(200≤Kc≤500),本实施例取Kc=300;(1-3-2)采集方式为机器人定点转向采集,机器人到达采集点后,8个声呐传感器采集一组该采集点的声呐测距信息(每组数据采集一次);每一组声呐数据包括8个声呐测距信息与其对应的一个分类标签,分类标签为Y,Y=1,2,3,4,其中1代表卧室,2代表厨房,3代表客厅,4代表卫生间;每采集一组声呐测距信息后机器人向右转动一个角度(本实施例为转动1°),再采集下一组数据;(1-3-3)若该采集点采集次数已达到Kc次,则机器人行进到下一采集点,重复步骤(1-3-1)~(1-3-2),采集下一个采集点的声呐测距信息;直至所有的采集点信息采集完毕,得到所有采集点的声呐测距信息和对应的分类标签;(1-4)将步骤(1-3)采集得到的声呐测距信息和对应的分类标签建立样本集D,本实施例中样本集D中共有22500组声呐测距信息;(1-5)将样本集D中每组声呐测距信息转换为二值化轮廓图,具体步骤如下:(1-5-1)将样本集D中每组包含的8个声呐测距信息[d1,…,d8]按声呐传感器在机器人上的角度分布在极坐标系中作图,极坐标系的原点为移动机器人所在位置,依据各传感器角度和所测距离信息绘制各点,连接各点成为封闭轮本文档来自技高网
...
基于深度强化学习的室内机器人场景主动识别方法

【技术保护点】
一种基于深度强化学习的室内机器人场景主动识别方法,其特征在于,该方法包括:强化学习神经网络NQ训练阶段和室内场景主动识别执行阶段:训练一个能够识别声呐信息二值化轮廓图环投影向量的分类神经网络NL;进入强化学习训练阶段:对机器人在场景中进行多次场景识别试验,在试验过程中训练强化学习神经网络NQ,使其拟合为一个函数逼近器;强化学习神经网络NQ训练完成后,进入执行阶段:根据声呐传感器采集的场景轮廓信息,对机器人室内场景主动识别功能进行测试。

【技术特征摘要】
1.一种基于深度强化学习的室内机器人场景主动识别方法,其特征在于,该方法包括:强化学习神经网络NQ训练阶段和室内场景主动识别执行阶段:训练一个能够识别声呐信息二值化轮廓图环投影向量的分类神经网络NL;进入强化学习训练阶段:对机器人在场景中进行多次场景识别试验,在试验过程中训练强化学习神经网络NQ,使其拟合为一个函数逼近器;强化学习神经网络NQ训练完成后,进入执行阶段:根据声呐传感器采集的场景轮廓信息,对机器人室内场景主动识别功能进行测试。2.如权利要求1所述方法,其特征在于,该强化学习神经网络NQ训练阶段,包括以下步骤:(1)采集声呐测距信息并处理成二值化轮廓图,构建分类神经网络训练样本集,具体实施步骤如下:(1-1)构建不同的类型的室内场景,本实施例是采用的是普通家居场景,共构建5户不同家庭的室内场景,每个家庭构建M类,3≤M≤6,室内场景;(1-2)每类场景内设定3—5个数据采集点;(1-3)采用移动机器人搭载前端的多个声呐传感器阵列采集数据:(1-4)将步骤(1-3)采集得到的声呐测距信息和对应的分类标签建立样本集D;(1-5)将样本集D中每组声呐测距信息转换为二值化轮廓图;(1-6)将所有调整后的二值图像信息存入一个新建的样本集,该样本集作为分类神经网络训练样本集;(2)训练分类神经网络NL,具体步骤如下:(2-1)构建分类神经网络中的图像特征提取网络,该网络包括卷积层、降采样层,设定图像特征提取网络各层参数;(2-2)利用步骤(2-1)构建的图像特征提取网络提取训练样本图像特征矩阵;(2-3)利用步骤(2-2)得到的样本图像特征矩阵与样本集标签求输出权重β的闭式解:式中H为步骤(2-2)中提取的图像特征矩阵,N为该矩阵的行大小,W为该矩阵的列大小;T为样本集标签矩阵;C为常数;(3)训练强化学习神经网络NQ,具体步骤如下:(3-1)搭建强化学习神经网络NQ,共三层,包含输入层、隐藏层、输出层;设定神经元激活函数为g(x);(3-2)设定各类室内场景训练点数目,并设定每个训练点最大训练次数e,构建由强化学习样本集M;(3-3)从第一训练点开始对强化学习网络NQ训练,声呐传感器采集一次测距信息,记为si,依据步骤(1-5)作二值化轮廓图,将二值化轮廓图进行环投影转化为测距信息si对应的环投影向量输入到强化学习神经网络NQ,获得机器人左右两种转动动作对应的动作价值(Q1,Q2);(3-4)采用ε-greedy方式进行动作选择:以概率ε随机选择机器人两种转动动作并执行,概率随机选择动作进行以概率1-ε概率选择(Q1,Q2)中的较大值所对应的动作ai并执行,其中ε值随着训练的进行线性减小,n为总训练次数,i为当前训练次数;(3-5)执行完动作ai,采集动作ai后声呐传感器测距信息阵列,记为si+1,依据步骤(1-5)作二值化轮廓图,输入到分类神经网络NL中,获得二值化轮廓图的识别结果向量Ti+1(t1,t2,t3,t4);(3-6)将Ti+1(t1,t2,t3,t4)输入softmax函数转换为概率向量形式(3-7)定义回报函数其中r1、r2为即时回报,Yi为机器人当前所处房间分类标签,room为Ti中最大的t值所对应的下标,K为反比例系数,H(Ti)为信息熵函数设定r1=1,r2=-1,K=2;(3-8)将Ti+1输入回报函数获得当前回报r(Ti+1),更新该状态下执行该动作的动作价值Q(si,ai)=(1-α)Q(si,ai)+α[r+γmaxQ(si+1,a)],其中Q(si,ai)表示声呐测距信息为si的情况下执行动作ai的动作价值,α∈(0,1)为学习速率,表示新价值覆盖旧价值的程度。γ∈(0,1)为折损因子,代表下一步回报的重要程度;(3-9)用Q(si,ai)替换(Q1,Q2)中相应的动作对应的价值,并与一并存入强化学习样本集M中,若M已达到最大样本容量则替换最早的样本数据;(3-10)样本M每获得设定数量的新数据便更新一次NQ网络输出权重β;(3-11)重复步骤(3-3)到步骤(3-10)直到达到最后一个训练点的最大训练次数,完成强化学习神经网络NQ训练,保存网络NQ网络参数;该室内场景主动识别执行阶段,具体步骤...

【专利技术属性】
技术研发人员:刘华平柳杨王博文孙富春
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1