具有自主学习能力的在线序列极限学习机方法技术

技术编号：15070423 阅读：58 留言：0更新日期：2017-04-06 17:29

本发明专利技术涉及了一种具有自主学习能力的在线序列极限学习机方法，属于智能机器人技术领域，一共分为九个部分，分别为外部状态集合、外部动作集合、奖赏信号、值函数、状态转移方程、极限学习机网络隐含层输出集合、中间参数转移方程、极限学习机输出集合、极限学习机输出权值转移方程。本发明专利技术提供的具有自主学习能力的在线序列极限学习机方法，以在线序列极限学习机为框架，结合强化Q学习，提出了一种具有自主学习能力的在线序列极限学习机方法，并将该模型运用到移动机器人路径规划研究中，使机器人根据外部环境的状态与奖励，实现自主学习导航，提高机器人在未知环境中的自主学习能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及了一种具有自主学习能力的在线序列极限学习机方法，属于智能机器人

技术介绍
针对现有认知发育方法中主动性与收敛度不高以及BP网络学习速度慢，容易陷入局部最优等问题，本专利结合极限学习机网络随机获取输入权值与阈值的特点，加快了学习训练速度，避免陷入局部最优解，同时也提高了智能体的主动学习性能。探索认知发育机理，构建认知发育机制，并把这些机制赋予机器人，是人工智能和机器人学、认知科学、神经生理学和发育心理学研究的重要课题。人类可以在不同的环境下调整自己的行为来适应环境、选取最合适的动作去完成任务，并学会新的技能。而机器人自从出现以来，大部分都只用于从事复杂重复、单调或者危险的任务，例如组装机器、探险、搜救、侦查等。与此同时，机器人在面对灵活多变、难以预测的环境时，那些面向特定任务、面向特定数据、遗传算法等传统方法就不再适用了，这也限制了机器人的应用范围，所以未知环境下的自主学习能力、决策能力和任务执行能力就成了机器人研究的重点和难点。因此就产生了一个新的研究方向——认知发育机器人。人的自主心智发育属于发展神经科学以及发展心理学领域的研究。近来，来自机器人和机器智能领域的研究人员通过交叉学科研究，对心智发育机器人的研究形成了一个新的研究领域。而机器人如何根据当前环境来选取合适的潜在动作完成任务又是认知发育机器人的一个新的研究内容。20世纪60年代末至70年代初，斯坦福研究所研制出的具有逻辑...

【技术保护点】
具有自主学习能力的在线序列极限学习机方法，其特征在于，系统的整体认知模型以在线序列极限学习机为基础，模拟人脑认知发育机制，与Q学习算法结合并设计了一个九元数组表示：其中各个部分所表示的内容如下：(1)表示外部获得的有限的状态集合，表示第个状态，为外部动机的个数；(2)表示有限的外部智能体动作集合，表示第个动作，表示外部动作个数；(3)表示系统在时刻在外部状态为时所表现出来的外部动作后使状态转移到后的奖赏信号；(4)表示系统在时刻在外部状态为时所表现出来的外部智能体动作后使状态转移到后的值函数；(5)为状态转移方程，即时刻的外部状态总是由时刻的外部状态和外部智能体动作共同决定；(6)表示在线序列极限学习机网络系统隐含层输出集合，为第个新训练样本数据，表示新训练样本数据个数；(7)为中间参数转移方程，在时刻的中间参数总是由时刻的中间参数与时刻的在线序列极限学习机网络系统隐含层输出共同决定；(8)表示在线序列极限学习机网络整体的输出参数集合，为经过第个新样本训练数据训练后预期得到的输出参数，表示输出参数的个数；(9)为在线序列极限学习机网络输出权值转移方程，在时刻的输出权值参数总是由时刻的输...

【技术特征摘要】
1.具有自主学习能力的在线序列极限学习机方法，其特征在于，系统的整体认知模型
以在线序列极限学习机为基础，模拟人脑认知发育机制，与Q学习算法结合并设计了一个九
元数组表示：
其中各个部分所表示的内容如下：
(1)表示外部获得的有限的状态集合，表示第个状态，为外部动
机的个数；
(2)表示有限的外部智能体动作集合，表示第个动作，表示
外部动作个数；
(3)表示系统在时刻在外部状态为时所表现出来的外部动作后使状
态转移到后的奖赏信号；
(4)表示系统在时刻在外部状态为时所表现出来的外部智能体动作后使状态转移到后的值函数；
(5)为状态转移方程，即时刻的外部状态总是由时刻的
外部状态和外部智能体动作共同决定；
(6)表示在线序列极限学习机网络系统隐含层输出集合，为第个新训练样本数据，表示新训练样本数据个数；
(7)为中间参数转移方程，在时刻的中间参数总是由时刻的中
间参数与时刻的在线序列极限学习机网络系统隐含层输出共同决定；
(8)表示在线序列极限学习机网络整体的输出参数集合，为经过
第个新样本训练数据训练后预期得到的输出参数，表示输出参数的个数；
(9)为在线序列极限学习机网络输出权值转移方程，在时
刻的输出权值参数总是由时刻的输出权值参数，时刻的中间参数与极限
学习机网络系统隐含层输出同时决定。
2.根据权利要求书1所述的具有自主学习能力的在线序列极限学习机方法，其特征在
于，所述的(3)、(4)中，强化Q学习算法结合了动态规划与动物心理学知识，从而可以实现具
有回报的机器在线学习；该方法通过Markov决策过程建模，迭代出最优解：
其中，为折扣因子，为学习因子，且；
Q学习算法流程如下：
Step1：随机初始化；
Step2：观测当前状态并选择执行一个动作决策；
Step3：获得下一状态，并同时获取奖励信号；
Step4：根据式更新Q值。<...

【专利技术属性】
技术研发人员：任红格，史涛，李福进，尹瑞，张春磊，刘伟民，霍美杰，徐少彬，
申请(专利权)人：华北理工大学，
类型：发明
国别省市：河北;13

全部详细技术资料下载我是这个专利的主人