具有自主学习能力的在线序列极限学习机方法技术

技术编号:15070423 阅读:58 留言:0更新日期:2017-04-06 17:29
本发明专利技术涉及了一种具有自主学习能力的在线序列极限学习机方法,属于智能机器人技术领域,一共分为九个部分,分别为外部状态集合、外部动作集合、奖赏信号、值函数、状态转移方程、极限学习机网络隐含层输出集合、中间参数转移方程、极限学习机输出集合、极限学习机输出权值转移方程。本发明专利技术提供的具有自主学习能力的在线序列极限学习机方法,以在线序列极限学习机为框架,结合强化Q学习,提出了一种具有自主学习能力的在线序列极限学习机方法,并将该模型运用到移动机器人路径规划研究中,使机器人根据外部环境的状态与奖励,实现自主学习导航,提高机器人在未知环境中的自主学习能力。

【技术实现步骤摘要】

本专利技术涉及了一种具有自主学习能力的在线序列极限学习机方法,属于智能机器人

技术介绍
针对现有认知发育方法中主动性与收敛度不高以及BP网络学习速度慢,容易陷入局部最优等问题,本专利结合极限学习机网络随机获取输入权值与阈值的特点,加快了学习训练速度,避免陷入局部最优解,同时也提高了智能体的主动学习性能。探索认知发育机理,构建认知发育机制,并把这些机制赋予机器人,是人工智能和机器人学、认知科学、神经生理学和发育心理学研究的重要课题。人类可以在不同的环境下调整自己的行为来适应环境、选取最合适的动作去完成任务,并学会新的技能。而机器人自从出现以来,大部分都只用于从事复杂重复、单调或者危险的任务,例如组装机器、探险、搜救、侦查等。与此同时,机器人在面对灵活多变、难以预测的环境时,那些面向特定任务、面向特定数据、遗传算法等传统方法就不再适用了,这也限制了机器人的应用范围,所以未知环境下的自主学习能力、决策能力和任务执行能力就成了机器人研究的重点和难点。因此就产生了一个新的研究方向——认知发育机器人。人的自主心智发育属于发展神经科学以及发展心理学领域的研究。近来,来自机器人和机器智能领域的研究人员通过交叉学科研究,对心智发育机器人的研究形成了一个新的研究领域。而机器人如何根据当前环境来选取合适的潜在动作完成任务又是认知发育机器人的一个新的研究内容。20世纪60年代末至70年代初,斯坦福研究所研制出的具有逻辑推理和行为规划能力的移动式机器人Shakey,被认为是第一个具有自主学习能力的机器人。然而,Shakey是靠单独手工编程或者制定具体任务的机器学习来实现预定功能的,其自适应能力和自主探索能力相对较弱,从某种意义上讲,他并不是一个真正的智能机器人。1997年,麻省理工学院人工智能实验室的Brook教授提出了认知机器人的概念。1998年,J.Weng最早提出了机器人自主心智发育思想。2001年,他在Science上阐述了发育机器人的思想框架和算法模型,并指出真正的智能机器人是具有自主心智发育能力的,使机器人在与环境的交互过程中,独立自主的形成和发育知识及技能,这种能力是渐进形成、发展和完善的,并贯穿于机器人一生。专利申请号为201410101272.0的专利主要针对传统机器人学习速率较低,实时性差等问题提出了一种仿生智能控制方法,该方法可以快速有效的提高机器人的智能水平。申请号为201410055115.0的专利主要针对现有技术中存在的机器人避障导航智能化程度不高等问题,提出了一种基于Skinner操作条件反射原理的机器人避障导航方法,是机器人能够在没有导师信号的情况下,以“learning-by-doing”的试错式方式与环境交互,建立操作条件反射,完成避障导航。申请号为201210398379.7的专利主要针对现有基于视频的人体行为识别方法存在的不足,提出一种基于在线贯序极限学习机的递增式人体行为识别方法该方法基于在线序贯极限学习机分类器对人体行为进行识别,不但能够在训练样本很少的情况下,以较少的训练时间,获得较为精确的人体行为识别结果,而且具有在线学习能力,即当环境和识别对象发生变化时,无需重新训练新的分类器,只需在现有的分类器基础上继续在线学习就可以达到人体行为的准确识别。
技术实现思路
针对BP神经网络在移动机器人路径规划应用中存在的维度高,训练难,学习速度慢等问题,提出一种基于在线序列极限学习机的强化Q学习方法(Q-learning),并运用到移动机器人路径规划研究当中,通过外部环境对机器人动作的奖励(惩罚)值,对机器人系统进行反馈,完成自主认知学习。具体的技术方案为:该方法一共分为九个部分,分别为外部状态集合、外部动作集合、奖赏信号、值函数、状态转移方程、极限学习机网络隐含层输出集合、中间参数转移方程、极限学习机输出集合、极限学习机输出权值转移方程。各个部分具体含义如下:(1)表示外部获得的有限的状态集合,表示第个状态,为外部动机的个数。(2)表示有限的外部智能体动作集合,表示第个动作,表示外部动作个数。(3)表示系统在时刻在外部状态为时所表现出来的外部动作后使状态转移到后的奖赏信号。(4)表示系统在时刻在外部状态为时所表现出来的外部智能体动作后使状态转移到后的值函数。强化Q学习结合了动态规划与动物心理学知识,从而可以实现具有回报的机器在线学习。该方法通过Markov决策过程建模,迭代出最优解。(1)其中,为折扣因子,为学习因子,且。Q学习算法流程如下:Step1:随机初始化;Step2:观测当前状态并选择执行一个动作决策;Step3:获得下一状态,并同时获取奖励信号;Step4:根据(1)式更新Q值。(5)为状态转移方程,即时刻的外部状态总是由时刻的外部状态和外部智能体动作共同决定,一般来讲是由模型本身与外部环境决定。(6)表示极限学习机神经网络系统隐含层输出集合,为第个新训练样本数据,表示新训练样本数据个数。(7)为中间参数转移方程,在时刻的中间参数总是由时刻的中间参数与时刻的极限学习机网络系统隐含层输出共同决定,一般来说是由加入的新样本数据决定。(8)表示极限学习机网络整体的输出参数集合,为经过第个新样本训练数据训练后预期得到的输出参数,表示输出参数的个数。首先采用批量的ELM算法来完成对该批数据的训练,如式(2)(2)之后含有个训练样本的新数据加入到训练模型中,网络的新隐含层输出矩阵如式(3):(3)式(3)可以简化为式(4)(4)网络输出矩阵可以改写成为式(5)(5)则新的输出权值更新为式(6)(6)令(7)(8)于是有:(9)根据Sherman-Morrison矩阵求逆引理可以将式(9)化简为式(10):(10)由式(10)可以得出可以由递推求出,所以得出式(11):(11)(9)为极限学习机网络输出权值转移方程,在时刻的输出权值参数总是由时刻的输出权值参数,时刻的中间参数与极限学习机网络系统隐含层输出同时决定,具体来讲是由上一状态的输出参数决定。将式(9)两边同时求逆得到式(12):(12)所以有式(13):(13)可以推导式(6),从而得到式(14):(14)式中,,都是已知矩阵。可以看出新的输出权值矩阵可以在就模型下递推更新得到,不需要重新训练。更新公式如式(15)本文档来自技高网
...

【技术保护点】
具有自主学习能力的在线序列极限学习机方法,其特征在于,系统的整体认知模型以在线序列极限学习机为基础,模拟人脑认知发育机制,与Q学习算法结合并设计了一个九元数组表示:其中各个部分所表示的内容如下:(1)表示外部获得的有限的状态集合,表示第个状态,为外部动机的个数;(2)表示有限的外部智能体动作集合,表示第个动作,表示外部动作个数;(3)表示系统在时刻在外部状态为时所表现出来的外部动作后使状态转移到后的奖赏信号;(4)表示系统在时刻在外部状态为时所表现出来的外部智能体动作后使状态转移到后的值函数;(5)为状态转移方程,即时刻的外部状态总是由时刻的外部状态和外部智能体动作共同决定;(6)表示在线序列极限学习机网络系统隐含层输出集合,为第个新训练样本数据,表示新训练样本数据个数;(7)为中间参数转移方程,在时刻的中间参数总是由时刻的中间参数与时刻的在线序列极限学习机网络系统隐含层输出共同决定;(8)表示在线序列极限学习机网络整体的输出参数集合,为经过第个新样本训练数据训练后预期得到的输出参数,表示输出参数的个数;(9)为在线序列极限学习机网络输出权值转移方程,在时刻的输出权值参数总是由时刻的输出权值参数,时刻的中间参数与极限学习机网络系统隐含层输出同时决定。...

【技术特征摘要】
1.具有自主学习能力的在线序列极限学习机方法,其特征在于,系统的整体认知模型
以在线序列极限学习机为基础,模拟人脑认知发育机制,与Q学习算法结合并设计了一个九
元数组表示:
其中各个部分所表示的内容如下:
(1)表示外部获得的有限的状态集合,表示第个状态,为外部动
机的个数;
(2)表示有限的外部智能体动作集合,表示第个动作,表示
外部动作个数;
(3)表示系统在时刻在外部状态为时所表现出来的外部动作后使状
态转移到后的奖赏信号;
(4)表示系统在时刻在外部状态为时所表现出来的外部智能体动作后使状态转移到后的值函数;
(5)为状态转移方程,即时刻的外部状态总是由时刻的
外部状态和外部智能体动作共同决定;
(6)表示在线序列极限学习机网络系统隐含层输出集合,为第个新训练样本数据,表示新训练样本数据个数;
(7)为中间参数转移方程,在时刻的中间参数总是由时刻的中
间参数与时刻的在线序列极限学习机网络系统隐含层输出共同决定;
(8)表示在线序列极限学习机网络整体的输出参数集合,为经过
第个新样本训练数据训练后预期得到的输出参数,表示输出参数的个数;
(9)为在线序列极限学习机网络输出权值转移方程,在时
刻的输出权值参数总是由时刻的输出权值参数,时刻的中间参数与极限
学习机网络系统隐含层输出同时决定。
2.根据权利要求书1所述的具有自主学习能力的在线序列极限学习机方法,其特征在
于,所述的(3)、(4)中,强化Q学习算法结合了动态规划与动物心理学知识,从而可以实现具
有回报的机器在线学习;该方法通过Markov决策过程建模,迭代出最优解:
其中,为折扣因子,为学习因子,且;
Q学习算法流程如下:
Step1:随机初始化;
Step2:观测当前状态并选择执行一个动作决策;
Step3:获得下一状态,并同时获取奖励信号;
Step4:根据式更新Q值。<...

【专利技术属性】
技术研发人员:任红格史涛李福进尹瑞张春磊刘伟民霍美杰徐少彬
申请(专利权)人:华北理工大学
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1