一种基于ELM‑LRF的自适应视觉导航方法技术

技术编号:16231519 阅读:21 留言:0更新日期:2017-09-19 13:52
本发明专利技术基于ELM‑LRF神经网络模型设计了一种机器人的自适应视觉导航方法。该方法分配(st,at,rt,st+1,Qt)结构体数据存储空间;令机器人在选定环境中重复运动,获得所需结构体数据,将状态相同的数据通过删除Q值较小的数据进行预处理。然后以st作为输入,at作为输出完成对ELM‑LRF的训练,建立起当前状态和最优动作的映射关系。最后以机器人能否找到目标来测试机器人的导航能力。本发明专利技术在该数据空间下利用ELF‑LRF模型提出的方法大大提高了机器人的导航速度。其中,st是当前状态,在这里为拍摄到的照片,at是在st下机器人的动作(前后左右运动),rt是at的即时回报,st+1是机器人在at后的状态,Q为长远回报,Qt值为在状态st下执行at后得到的总的长远回报。

An adaptive visual navigation method based on LRF ELM

The invention of ELM LRF neural network model is designed based on adaptive visual navigation for robot. The method of distribution (st, at, RT, st+1, Qt) the structure of data storage space; the robot motion is repeated in the selected environment, to obtain the required data structure, the data will be the same state by deleting the Q preprocessing the data of the small. And then to st as input and at as output of ELM LRF training, establish the relationship between state and the optimal action mapping. Finally, the robot's navigation ability is tested by whether the robot can find the target. The invention uses ELF method LRF model in the data space to improve the speed of robot navigation. Among them, ST is the current state, here for captured photos, at is the robot under St action (around RT, at movement) immediate return, st+1 is the state of the robot after at, Q for the long-term return, Qt value in the at after the total long-term returns execution state St.

【技术实现步骤摘要】
一种基于ELM-LRF的自适应视觉导航方法
本专利技术提供一种基于ELM-LRF(基于局部接收野的极限学习机)的自适应视觉导航方法,具体而言就是输入像素数据、输出决策(选择行走动作),直到找到想要的物体,停下。属于机器学习、神经网络算法、强化学习

技术介绍
视觉导航是在机器人上安装单目或双目照相机,获取环境中局部图像,实现自我位姿确定和路径识别,从而做出导航决策,与人类视觉反馈导航很类似。从输入图像到输出动作,机器学习是核心。随着计算机计算性能的不断提高和越来越多数据的产生,挖掘数据的价值为人们生活服务成为必然。在此趋势下,“大数据”和“人工智能”成为火热的名词,而机器学习又是其中的核心技术。机器学习主要包括监督学习、无监督学习和强化学习。监督学习最火热的当属深度学习,深度学习简单说就是多层的神经网络,给定数据和相应标签,给定一个优化目标,采用BP(误差反向传播ErrorBackPropagation)训练算法来训练神经网络。深度学习算法中最著名是卷积神经网络(CNN),CNN受启发于人类的视觉皮层,输入至隐藏层采用局部连接。极限学习机(ELM),可用于特征学习,聚类,回归和分类。传统观点认为神经网络的隐藏层神经元需要在训练阶段迭代调整,比如BP算法,涉及大量的梯度下降,容易陷入局部最优。ELM理论打破了这种信条,认为隐层神经元虽然很重要,但不需要迭代调整,解决了传统方法的缺陷[1.G.-B.Huang,Q.-Y.Zhu,andC.-K.Siew.Extremelearningmachine:Anewlearningschemeoffeedforwardneuralnetworks,inProc.Int.JointConf.NeuralNetworks,July2004,vol.2,pp.985–990.][2.G.-B.Huang,Q.-Y.Zhu,andC.-K.Siew,.Extremelearningmachine:Theoryandapplications,Neurocomputing,vol.70,pp.489–501,Dec.2006.]。隐藏层节点的所有参数(权重W和偏置b)都独立于训练样例,可以随机的(任意连续概率分布)生成,这样的ELM依然具有普适的逼近和分类能力。ELM理论表明,只要隐层神经元的激活函数是非线性分段连续的,神经网络就不需要通过迭代调整网络来获得学习能力。ELM-LRF[3.G.-BHuang,ZBai,LLCKasun,CMVong.LocalReceptiveFieldsBasedExtremeLearningMachine.[J].IEEEComputationalIntelligenceMagazine,2015,10(2):18-29]是基于局部感受野的极限学习机,输入与隐藏层间的连接是稀疏的,且由相应的局部感受野(对连续概率分布采样得到)包围。ELM理论证明,隐藏层节点可以按照任意概率分布生成,这里的随机是指:输入与隐藏层节点间的连接密度是根据不同类型的概率分布随机采样得到的,输入与隐藏层节点间的连接权重也是随机生成的。强化学习是一种重要的机器学习方法,在智能控制、机器人及分析预测等领域有许多应用。在人工智能领域,一般用智能体来表示一个具备行为能力的物体,比如机器人,无人车,人等等。那么强化学习考虑的问题就是智能体和环境之间交互的任务。比如一个机械臂要拿起一个手机,那么机械臂周围的物体包括手机就是环境,机械臂通过外部的比如摄像头来观察环境,然后机械臂需要输出动作来实现拿起手机这个任务。再举玩游戏的例子,比如玩赛车游戏,人们只看到屏幕,这就是环境,然后通过操作键盘来控制车的运动。不管是什么样的任务,都包含了一系列的动作,观察还有反馈值。所谓的反馈值就是智能体执行了动作与环境进行交互后,环境会发生变化,变化的好与坏就用反馈值来表示。如上面的例子,如果机械臂离手机变近了,那么回报值就应该是正的,如果玩赛车游戏赛车越来越偏离跑道,那么回报值就是负的。用了观察一词而不是环境那是因为智能体不一定能得到环境的所有信息,比如机械臂上的摄像头就只能得到某个特定角度的画面。因此,只能用观察来表示智能体获取的感知信息。人与环境的交互就是一个典型的强化学习过程。深度强化学习(DeepReinforcementLearning)将深度学习和强化学习结合,这个想法在几年前就有人尝试,但真正成功的开端就是DeepMind在NIPS2013上发表的[4.VolodymyrMnih,KorayKavukcuoglu,DavidSilver,AlexGraves,IoannisAntonoglou,DaanWierstra,MartinRiedmiller.PlayingAtariwithDeepReinforcementLearning[A].NIPS,2013.]一文,在该文中第一次提出深度强化学习这个名称,并且提出DQN(DeepQ-Network)算法,实现从纯图像输入完全通过学习来玩Atari游戏的成果。之后DeepMind在Nature上发表了改进版的DQN文章[5.VolodymyrMnih,KorayKavukcuoglu,DavidSilver,AndreiA.Rusu,JoelVeness,MarcG.Bellemare,AlexGraves,MartinRiedmiller,AndreasK.Fidjeland,GeorgOstrovski,StigPetersen,CharlesBeattie,AmirSadik,IoannisAntonoglou,HelenKing,DharshanKumaran,DaanWierstra,ShaneLegg&DemisHassabis,Human-levelcontrolthroughdeepreinforcementlearning.[J]nature.2015.518:529-541.],引起了广泛的关注,深度强化学习从此成为深度学习领域的前沿研究方向。2016年9月,LiFeifei组的最新文章[6.YukeZhu,RoozbehMottaghi,EricKolve,JosephJ.Lim,AbhinavGupta,LiFei-Fei,andAliFarhadi.Target-drivenvisualnavigationinindoorscenesusingdeepreinforcementlearning.CoRR,abs/1609.05143,2016.]使用深度增强学习实现目标驱动的视觉导航。这篇文章中,作者构建了一个虚拟仿真环境,并且通过在高度仿真的环境中训练,然后迁移到真实场景中。这种方法被证明是有效的。深度强化学习可以用来做视觉导航,但有个缺陷就是训练速度非常慢。
技术实现思路
本专利技术技术解决问题:克服现有技术的不足,提供一种基于ELM-LRF的自适应视觉导航方法,大大提高了导航速度。本专利技术技术解决方案:一种基于ELM-LRF的自适应视觉导航方法,。该方法分配(st,at,rt,st+1,Qt)结构体数据存储空间;令机器人在选定环境中重复运动,获得所需结构体数据,将状态相同的数据通过删除本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/52/201710337967.html" title="一种基于ELM‑LRF的自适应视觉导航方法原文来自X技术">基于ELM‑LRF的自适应视觉导航方法</a>

【技术保护点】
一种基于ELM‑LRF的自适应视觉导航方法,其特征在于:步骤如下:(1)分配存储(st,at,rt,st+1,Qt)的空间;(st,at,rt,st+1,Qt)是结构体存储,st是当前状态,在这里为拍摄到的照片,at是在st下的动作,rt是at的即时回报,st+1是at后的状态,Qt值为在状态st下执行at后得到的总的长远回报;(2)机器人在环境中运动,得到一组从初始位置到发现目标物的(st,at,rt,st+1,Qt)数据;(3)机器人重置到初始位置,当在某状态st′下得到的Qt′比之前同状态st得到的Qt大时,删除在st状态下得到的(st,at,rt,st+1,Qt)数据,否则删除在st′下得到的(st′,at′,rt′,st+1′,Qt′);重复多次,从而得到较好的当前状态和最优动作的数据,即得到为训练ELM‑LRF所提供的更好的样本数据;(4)在步骤(3)的基础上,以st作为输入,at作为输出完成对基于局部接收野的极限学习机神经网络的训练,即ELM‑LRF的训练,建立起当前状态和最优动作的映射关系;(5)根据步骤(4)的建立起当前状态和最优动作的映射关系,测试机器人导航能力,观察机器人是否能找到目标。...

【技术特征摘要】
1.一种基于ELM-LRF的自适应视觉导航方法,其特征在于:步骤如下:(1)分配存储(st,at,rt,st+1,Qt)的空间;(st,at,rt,st+1,Qt)是结构体存储,st是当前状态,在这里为拍摄到的照片,at是在st下的动作,rt是at的即时回报,st+1是at后的状态,Qt值为在状态st下执行at后得到的总的长远回报;(2)机器人在环境中运动,得到一组从初始位置到发现目标物的(st,at,rt,st+1,Qt)数据;(3)机器人重置到初始位置,当在某状态st′下得到的Qt′比之前同状态st得到的Qt大时,删除在st状态下得到的(st,at,rt,st+1,Qt)数据,否则删除在st′下得到的(st′,at′,rt′,st+1′,Qt′);重复多次,从而得到较好的当前状态和最优动作的数据,即得到为训练ELM-LRF所提供的更好的样本数据;(4)在步骤(3)的基础上,以st作为输入,at作为输出完成对基于局部接收野的极限学习机神经网络的训练,即ELM-LRF的训练,建立起当前状态和最优动作的映射关系...

【专利技术属性】
技术研发人员:王磊赵行李婵颖
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1