基于仿人脑认知计算模型的机器人复杂任务学习算法制造技术

技术编号:39058323 阅读:13 留言:0更新日期:2023-10-12 19:51
本发明专利技术涉及一种基于仿人脑认知计算模型的机器人复杂任务学习算法,本发明专利技术从感知知识自主学习感知

【技术实现步骤摘要】
基于仿人脑认知计算模型的机器人复杂任务学习算法


[0001]本专利技术涉及数据结构与算法
,具体是指一种基于仿人脑认知计算模型的机器人复杂任务学习算法。

技术介绍

[0002]随着人工智能的发展,现如今,智能机器人被应用于各个领域。现有的机器人往往都是根据设计之初的模型框架,根据使用者的指令做出相应的互动。为了使智能机器人在使用过程中与用户更加具有亲和力,更新智能机器人采用的原有的分类模型是必不可少的。本领域技术人员通过感知

动作对的学习过程虽是在线增量式的,但其记忆对学习过程和回忆过程分开进行,因此不适合基于认知计算模型智能体像人一样进行在线学习、回忆与作出决策,无法获得更为复杂的经验和能力。

技术实现思路

[0003]本专利技术要解决上述技术问题,提供一种基于仿人脑认知计算模型的机器人复杂任务学习算法。
[0004]为解决上述技术问题,本专利技术提供的技术方案为:
[0005]一种基于仿人脑认知计算模型的机器人复杂任务学习算法,所述的机器人复杂任务学习算法是从感知知识自主学习感知

动作映射知识,然后再拓展到对感知

动作映射序列的自主学习,并通过感知

动作映射序列经验来实现对复杂任务的执行,实现机器人在认知计算模型及其学习方法的引导下发育智能,执行非特定任务;
[0006]所述的感知

动作映射序列的自主学习算法步骤如下:
[0007]步骤1:始化Q学习参数:值函数Q(s
t
,a
t
),并选定学习率α,折扣因子γ,以及内部动机和外部动机奖励函数的权重ζ,η;初始化节点集合P
node
={p1,p2},Q
node
={q1,q2},其中p1,p2,q1,q2节点的权值向量从输入中随机选取,初始化边的集合C
edge
=Φ,D
edge
=Φ,
[0008][0009]步骤2:输入当前样本x
t
,当前Q值
[0010]步骤3:当前自适应子空间基为U
t
,将当前输入样本投影至感知子空间,得样本的感知映射输入ξ=U
tT
x
t

[0011]步骤4:寻找该感知对应的动作输出,计算ξ与其他各节点的平均距离
[0012][0013]其中
[0014][0015]步骤5:如果则从代表节点新建向量O作为回忆的对应模式向量,输出动作,返回步骤2;如果条件不成立,找不到对应的动作输出,则转到步骤6;
[0016]步骤6:学习新的感知

动作映射,获取当前感知所对应的动作输出向量g,将输入的感知

动作映射向量ξ和g整合为一个向量H,将H加入高斯白噪声,得
[0017][0018]步骤7:由式
[0019][0020][0021][0022][0023]针对感知

动作映射网络,如果
[0024][0025][0026]不成立,则新输入向量I
c
是一个新节点,添加新节点;针对Q值网络,如果和或的距离比阈值或大,则当前Q值是一个新节点,添加新节点,转到步骤8,即针对知识网络,或则针对Q值网络,或则否则转步骤9;
[0027]步骤8:增维更新增量PCA感知映射子空间,转步骤2输入新样本
[0028]步骤9:判断阈值,如果d
euclidean_min
>θ
distance
,则通过在线PCA算法计算新子空间,舍去其最后一个分量,使dim(U
t+1
)=dim(U
t
),转入步骤10;如果d
euclidean_min
<θ
distance
,直接执行步骤11;
[0029]步骤10:更新感知

动作映射网络:如果和之间没有连接它们的边,则创建此连接和的边,并加入集合C
edge
,更新胜者节点及与其直接拓扑近邻节点的权值
[0030][0031][0032]移除年龄大于阈值age
dead_p
的边,即如果(k
p
,l
p
)∈C
edge
,则C
edge
=C
edge
\{(k
p
,l
p
)},同时生成或更新感知

动作映射的代表节点,其权值为聚类节点权均值;
[0033]步骤11:在感知

动作映射Q值网络中获取与计算所有可采取动作的Q值;
[0034]步骤12:根据Q值和Boltzmann规则选择采取的动作;
[0035][0036]步骤13:执行动作,计算外部奖励r
ex

[0037]步骤14:计算视觉陌生度内部动机r
in
=n
v
=ξ

W
winnereuclidean
[0038]步骤15:计算最优动作
[0039][0040]步骤16:Q值迭代更新
[0041][0042]记TD误差为
[0043][0044]步骤17:更新感知

动作映射Q值网络:如果和之间没有连接它们的边,则创建此连接和的边,并加入集合D
edge
,更新胜者节点及与其直接拓扑近邻节点的权值:
[0045][0046][0047]其中ε
1q
(t)是胜者节点权值学习率,ε
2q
(t)是胜者近邻节点权值学习率;移除年龄大于阈值age
dead_q
的边,即如(k
q
,l
q
)∈D
edge

[0048]D
edge
=D
edge
\{(k
q
,l
q
)};
[0049]步骤18:更新当前状态t=t+1,s=s
t+1

[0050]当前时间步学习结束,返回步骤2输入新样本进行下一时间步学习。
[0051]优选地,所述的机器人包括输出状态向量,所述的输出状态向量指在某一输出状态下,以移动所述机器人的行为输出部件参数为元素所组成的向量,
[0052]优选地,所述的左轮和右轮具有对称性。
[0053]优选地,移动所述的机器人在某一状态下的输出状态向量为左轮输出状态向量和
右轮输出状态向量。
[0054]优选地,所述的左轮输出状态向量的公式为
[0055]优选地,所述的右轮输出状态向量的公式为
[0056]采用以上方法后,本专利技术具有如下优点:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于仿人脑认知计算模型的机器人复杂任务学习算法,其特征在于,所述的机器人复杂任务学习算法是从感知知识自主学习感知

动作映射知识,然后再拓展到对感知

动作映射序列的自主学习,并通过感知

动作映射序列经验来实现对复杂任务的执行,实现机器人在认知计算模型及其学习方法的引导下发育智能,执行非特定任务;所述的感知

动作映射序列的自主学习算法步骤如下:步骤1:始化Q学习参数:值函数Q(s
t
,a
t
),并选定学习率α,折扣因子γ,以及内部动机和外部动机奖励函数的权重ζ,η;初始化节点集合P
node
={p1,p2},Q
node
={q1,q2},其中p1,p2,q1,q2节点的权值向量从输入中随机选取,初始化边的集合C
edge
=Φ,D
edge
=Φ,步骤2:输入当前样本x
t
,当前Q值θ;步骤3:当前自适应子空间基为U
t
,将当前输入样本投影至感知子空间,得样本的感知映射输入ξ=U
tT
x
t
;步骤4:寻找该感知对应的动作输出,计算ξ与其他各节点的平均距离其中步骤5:如果则从代表节点新建向量O作为回忆的对应模式向量,输出动作,返回步骤2;如果条件不成立,找不到对应的动作输出,则转到步骤6;步骤6:学习新的感知

动作映射,获取当前感知所对应的动作输出向量g,将输入的感知

动作映射向量ξ和g整合为一个向量H,将H加入高斯白噪声,得步骤7:由式步骤7:由式步骤7:由式步骤7:由式针对感知

动作映射网络,如果
不成立,则新输入向量I
c
是一个新节点,添加新节点;针对Q值网络,如果θ和或的距离比阈值或大,则当前Q值θ是一个新节点,添加新节点,转到步骤8,即针对知识网络,或则针对Q值网络,或则否则转步骤9;步骤8:增维更新增量PCA感知映射子空间,转步骤2输入新样本步骤9:判断阈值,如果d
euclidean_min
>θ
distance
,则通过在线PCA算法计算新子空间,舍去其最后一个分量,使dim(U
t+1
)=dim(U
t
),转入步骤10;如果d
euclidean_min
<θ
distance
,直接执行步骤11;步骤10:更新感知

动作映射网络:如果和之间没有连接它们的边,则创建此连接和的边,并加入集合C
edge
,更新胜者节点及与其直接拓扑近邻节点的权值节点的权值移除年龄大于阈值ag...

【专利技术属性】
技术研发人员:瞿心昱白继平窦慧丽周微
申请(专利权)人:浙江交通职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1