基于深度强化学习的室内机器人场景主动识别方法技术

技术编号：17265794 阅读：122 留言：0更新日期：2018-02-14 13:26

本发明专利技术提供了一种基于深度强化学习的室内机器人场景主动识别方法，属于机器学习领域和机器人技术领域。该方法包括：训练一个能够识别声呐信息二值化轮廓图环投影向量的分类神经网络NL；进入强化学习训练阶段：对机器人在场景中进行多次场景识别试验，在试验过程中训练强化学习神经网络NQ使其拟合为一个函数逼近器；强化学习神经网络NQ训练完成后，进入执行阶段：根据声呐传感器采集的场景轮廓信息，对机器人室内场景主动识别功能进行测试。该发明专利技术的方法，基于极限学习机算法，提高了计算效率；基于强化学习算法，提高了场景识别的准确率。能够适应不同的场景识别任务，无需人为参与，是一个机器人主动学习，自主提高场景识别正确率的方法。

An active recognition method for indoor robot scene based on deep reinforcement learning

The invention provides an active recognition method for indoor robot scene based on depth reinforcement learning, which belongs to the field of machine learning and robot technology. The method includes: training a sonar information to identify the binarization profile ring projection vector classification neural network NL; reinforcement learning into the training phase of the robot in the scene scene recognition test, intensive training in the course of the experiment study of NQ neural network to fit as a function approximator; reinforcement learning NQ neural network training is completed, entered the implementation stage: according to the collected sonar sensor scene contour information of the robot indoor scene active recognition function test. The method of the invention improves the computing efficiency based on the limit learning machine algorithm, and improves the accuracy of scene recognition based on the reinforcement learning algorithm. It can adapt to different scene recognition tasks without human participation. It is a method for robot to learn actively and improve the accuracy of scene recognition independently.

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的室内机器人场景主动识别方法
本专利技术涉及一种基于深度强化学习的室内机器人场景主动识别方法，属于机器学习领域和机器人

技术介绍
近年来，机器人已经越来越多的应用于生产生活中，如排险、军事探测、医疗护理等；而机器人的定位与导航在实现上述功能中发挥着关键的作用，快速而又准确地识别机器人所处环境是机器人准确定位的前提。现阶段的场景识别应用中，机器人通过传感器所采集的样本数据集训练分类神经网络，仅能实现被动地识别当前场景；由于机器人方位的局限性和低成本传感器的数据局限性造成场景识别准确率低下。在一份现有技术文献中(专利技术专利申请题为“一种基于单隐层神经网络的场景识别方法”，申请公开号为105678278A)公开的技术方案为：在训练阶段通过对预先采集的样本图像集进行预处理，提取样本图集提取局部梯度统计特征，将特征同其对应标签一同输入到单隐层分类神经网络进行监督式学习；在识别阶段对待识别的图像进行预处理并提取特征输入到训练好的场景分类神经网络中进行识别，得到识别结果。该方法的缺点是，采用场景图片作为训练样本数据，所用传感器较为昂贵，且所需样本体积庞大复杂，造成运算缓慢；只能依靠采集样本数据的丰富程度来提高识别准确率，工作量庞大。在另一份现有技术文献中(专利技术专利申请题为“场景识别方法及装置”，专利申请公开号为103973988A)公开的技术方案为：通过由摄像头、传感器、存储器、处理器所构成的终端获取场景图片信息并判断图像是否非HDR场景，再利用图像特征判断图像场景；摄像头用于获取图像，传感器用于获取摄像头所对应的传感数据，处理器用于调用...
基于深度强化学习的室内机器人场景主动识别方法

【技术保护点】
一种基于深度强化学习的室内机器人场景主动识别方法，其特征在于，该方法包括：强化学习神经网络NQ训练阶段和室内场景主动识别执行阶段：训练一个能够识别声呐信息二值化轮廓图环投影向量的分类神经网络NL；进入强化学习训练阶段：对机器人在场景中进行多次场景识别试验，在试验过程中训练强化学习神经网络NQ，使其拟合为一个函数逼近器；强化学习神经网络NQ训练完成后，进入执行阶段：根据声呐传感器采集的场景轮廓信息，对机器人室内场景主动识别功能进行测试。

【技术特征摘要】
1.一种基于深度强化学习的室内机器人场景主动识别方法，其特征在于，该方法包括：强化学习神经网络NQ训练阶段和室内场景主动识别执行阶段：训练一个能够识别声呐信息二值化轮廓图环投影向量的分类神经网络NL；进入强化学习训练阶段：对机器人在场景中进行多次场景识别试验，在试验过程中训练强化学习神经网络NQ，使其拟合为一个函数逼近器；强化学习神经网络NQ训练完成后，进入执行阶段：根据声呐传感器采集的场景轮廓信息，对机器人室内场景主动识别功能进行测试。2.如权利要求1所述方法，其特征在于，该强化学习神经网络NQ训练阶段，包括以下步骤：(1)采集声呐测距信息并处理成二值化轮廓图，构建分类神经网络训练样本集，具体实施步骤如下：(1-1)构建不同的类型的室内场景，本实施例是采用的是普通家居场景，共构建5户不同家庭的室内场景，每个家庭构建M类，3≤M≤6，室内场景；(1-2)每类场景内设定3—5个数据采集点；(1-3)采用移动机器人搭载前端的多个声呐传感器阵列采集数据：(1-4)将步骤(1-3)采集得到的声呐测距信息和对应的分类标签建立样本集D；(1-5)将样本集D中每组声呐测距信息转换为二值化轮廓图；(1-6)将所有调整后的二值图像信息存入一个新建的样本集，该样本集作为分类神经网络训练样本集；(2)训练分类神经网络NL，具体步骤如下：(2-1)构建分类神经网络中的图像特征提取网络，该网络包括卷积层、降采样层，设定图像特征提取网络各层参数；(2-2)利用步骤(2-1)构建的图像特征提取网络提取训练样本图像特征矩阵；(2-3)利用步骤(2-2)得到的样本图像特征矩阵与样本集标签求输出权重β的闭式解:式中H为步骤(2-2)中提取的图像特征矩阵，N为该矩阵的行大小，W为该矩阵的列大小；T为样本集标签矩阵；C为常数；(3)训练强化学习神经网络NQ，具体步骤如下：(3-1)搭建强化学习神经网络NQ，共三层，包含输入层、隐藏层、输出层；设定神经元激活函数为g(x)；(3-2)设定各类室内场景训练点数目，并设定每个训练点最大训练次数e，构建由强化学习样本集M；(3-3)从第一训练点开始对强化学习网络NQ训练，声呐传感器采集一次测距信息，记为si，依据步骤(1-5)作二值化轮廓图，将二值化轮廓图进行环投影转化为测距信息si对应的环投影向量输入到强化学习神经网络NQ，获得机器人左右两种转动动作对应的动作价值(Q1,Q2)；(3-4)采用ε-greedy方式进行动作选择：以概率ε随机选择机器人两种转动动作并执行，概率随机选择动作进行以概率1-ε概率选择(Q1,Q2)中的较大值所对应的动作ai并执行，其中ε值随着训练的进行线性减小，n为总训练次数，i为当前训练次数；(3-5)执行完动作ai，采集动作ai后声呐传感器测距信息阵列，记为si+1，依据步骤(1-5)作二值化轮廓图，输入到分类神经网络NL中，获得二值化轮廓图的识别结果向量Ti+1(t1,t2,t3,t4)；(3-6)将Ti+1(t1,t2,t3,t4)输入softmax函数转换为概率向量形式(3-7)定义回报函数其中r1、r2为即时回报，Yi为机器人当前所处房间分类标签，room为Ti中最大的t值所对应的下标，K为反比例系数，H(Ti)为信息熵函数设定r1＝1，r2＝-1，K＝2；(3-8)将Ti+1输入回报函数获得当前回报r(Ti+1)，更新该状态下执行该动作的动作价值Q(si,ai)＝(1-α)Q(si,ai)+α[r+γmaxQ(si+1,a)]，其中Q(si,ai)表示声呐测距信息为si的情况下执行动作ai的动作价值，α∈(0,1)为学习速率，表示新价值覆盖旧价值的程度。γ∈(0,1)为折损因子，代表下一步回报的重要程度；(3-9)用Q(si,ai)替换(Q1,Q2)中相应的动作对应的价值，并与一并存入强化学习样本集M中，若M已达到最大样本容量则替换最早的样本数据；(3-10)样本M每获得设定数量的新数据便更新一次NQ网络输出权重β；(3-11)重复步骤(3-3)到步骤(3-10)直到达到最后一个训练点的最大训练次数，完成强化学习神经网络NQ训练，保存网络NQ网络参数；该室内场景主动识别执行阶段，具体步骤...

【专利技术属性】
技术研发人员：刘华平，柳杨，王博文，孙富春，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人