一种具有内发动机机制的感知运动系统认知及其学习方法技术方案

技术编号:11439700 阅读:108 留言:0更新日期:2015-05-13 09:13
一种具有内发动机机制的感知运动系统认知及其学习方法属于智能机器人技术领域。系统认知模型以学习自动机为基础,包括感知状态集合、动作集合、取向性映射集合、好奇心、取向函数、取向性学习矩阵、状态转移函数以及知识熵等十部分。模型首先感知系统当前状态;依据内发动机机制选择动作;执行动作,状态发生转移;计算取向函数的值;更新“感知-运动”映射;重复以上过程,直至知识熵达到极小或学习时间大于终止时间。本发明专利技术引入具有主动学习环境的内发动机机制,不仅使系统具有较强的自学习和自组织能力,同时能够有效避免具有破坏性的小概率事件的发生,提高了系统的稳定性,为建立具有认知发育能力的机器人提供了有力基础。

【技术实现步骤摘要】
一种具有内发动机机制的感知运动系统认知及其学习方法
本专利技术涉及一种具有内发动机机制的感知运动系统认知及其学习方法,属于智能机器人

技术介绍
对智能机器人的研究已由早期的示教再现型机器人以及具有简单感知能力的机器人发展到今天的认知发育机器人。认知发育机器人具有认知和学习的能力,能够从与环境的接触过程中学习到环境知识,对于代替人类完成地震、火灾、深海等危险环境的任务具有重要意义。1952年,日内瓦大学心理学教授皮亚杰指出认知发育的第一阶段主要通过其感知运动技能获得,而感知运动技能的习得需要感知器官和运动器官协调完成,这就涉及到感知运动系统。感知运动系统对于人或动物运动技能的习得有着重要的指导意义,将这种感知运动能力复制到机器人上,使机器人能够主动探索外部世界,学习世界知识,对认知发育机器人的研究有着重要意义。基于以上背景,本专利技术以学习自动机为数学模型,提出了一种具有内发动机机制的感知运动系统认知模型并设计了其学习算法,将其应用于机器人上,使机器人可以模拟人或动物的感知运动认知过程,提高了机器人的认知能力。相关的专利如申请号CN200910086990.4基于斯金纳操作条件反射理论提出了一种操作条件反射自动机模型,并且基于该模型设计了一种仿生自主学习控制方法;申请号CN200910089263.3同样基于斯金纳操作条件反射理论提出一种自治操作条件反射自动机,并讨论了其在实现智能行为中的应用,以上两项工作均在操作条件反射的指导下,使用自动机为数学模型,设计了新的具有自学习和自组织能力的仿生自动机,但均未涉及感知运动系统学习过程,同时,二者在学习过程中均采用依概率机制实施操作,使得模型在达到一定稳定状态后无法杜绝小概率事件的发生。相关专利申请号CN201410101272.0从仿生学角度模拟生物的感觉运动神经系统,使用神经网络为数学模型,将操作条件反射机理融入感觉运动系统的设计中,采用“胜者全拿”的动作选择机制,提出了一种仿生智能控制方法,较好地模拟了生物自学习行为,证明了感知运动系统在智能体学习过程中的重要性。本专利技术以学习自动机为基础,为感知运动系统认知过程设计了一种认知模型及其学习方法,动作选择上设计了能够主动学习环境的内发动机机制,在提高系统学习效率的同时,有效避免小概率事件的发生,提高了系统的稳定性。目前,尚未见到与本专利技术相似的专利记录。
技术实现思路
本专利技术涉及一种具有内发动机机制的感知运动系统认知及其学习方法,属于智能机器人
,系统认知模型以学习自动机为基础,引入好奇心和取向性概念,从生物学角度出发,设计了能够主动学习环境的内发动机机制,提高了系统自学习和自组织的能力及其稳定性。模型包括十部分:感知状态集合、动作集合、取向性映射集合、状态学习次数、好奇心、状态取向值、取向函数、取向性学习矩阵、状态转移函数以及知识熵,各部分含义具体如下:(1)S:系统离散感知状态集合,S={si|i=1,2,…ns},si∈S为第i个感知状态,ns为可感知到的离散状态的个数,针对连续系统,将需要考虑的连续状态空间[Xmin,Xmax]离散化为离散状态空间,其中Xmin为所需考虑状态的下限值,Xmax为所需考虑状态的上限值,一般地,对连续状态空间进行均匀划分,令w=(Xmax-Xmin)/ns,则离散化后的状态空间为:S={[Xmin+(i-1)w,Xmin+iw]|i=1,2,…ns};(2)M:系统动作集合,M={Mi|i=1,2,…,ns},Mi={mij|j=1,2,…,ni},mij表示系统第i个感知状态下第j个可选动作,ni为第i个状态下可选动作的个数;(3)O:“感知-运动”取向性映射集合,O={Oi|i=1,2,…ns},Oi为状态si对应的取向性映射矩阵,其中diag表示括号里的元素以对角阵的方式储存,此处元素oij的下表i(i=1,2,…,ns)并不表示元素所在矩阵的行信息,oij(i∈(1,2,…,ns),j∈(1,2,…,ni))表示一条“感知-运动”映射,表征的是系统在感知状态si∈S下对动作mij的取向性,或称感知状态si与动作mij的感知运动取向性为oij,规定智能体在任何感知状态下对该状态下所有动作的取向性总和保持不变,即当智能体在某状态下对其中一动作的取向性增加时,同时意味着在该状态下对其他动作的取向性减小,本认知模型中,取向性满足0≤oij≤1且(4)N:状态学习次数,N={Ni|i=1,2,…,ns},Ni为至t时刻状态si被学习的次数;(5)C:好奇心,C={ci|i=1,2,…ns},ci为状态si的好奇心,从生物学角度出发,动物在某一状态下的好奇心随探索该状态次数的增加而下降,基于此,好奇心计算方法设计如下:取向性和好奇心是影响生物选择动作的两个内在因素,基于此,本系统的内发动机机制设计为选择所处状态下取向性和好奇心和值最大的动作;(6)V:系统状态取向值,用来决定取向函数的值,V={Vi|i=1,2,…ns},为满足系统普适性,定义Vi∈[-1,1],-1为最差状态的状态取向值,1为最理想状态的状态取向值,对于离散系统,可以根据实际情况定义各状态的取向值,对于连续系统,可以对离散化后的状态定义离散状态取向值,也可以在线计算所处状态的连续状态取向值,针对连续系统,状态取向值的计算方法为:Ji表征期望状态和实际状态之间的误差程度,定义为Ji(t)=(Xb-Xi(t))2,其中Xb为期望状态值,Xi(t)为t时刻实际状态值,Vi被归一化到[-1,1]之间,且为Ji的减函数,意味着t时刻所处状态与期望状态之间误差越大,状态取向值越小,所处状态与期望状态之间误差越小,状态取向值越大,符合生物取向性,λ为归一化系数;(7)Vs:取向函数,Vs=aVn+b(Vn-Vo),Vo和Vn分别表示执行某一动作的前后状态,取向函数影响系统取向性的变化方向,既与状态取向值变化过程相关,也与变化后所处状态的状态取向值相关,其中a≥0,b≥0为取向函数参数,其取值应保证取向函数的正负号不改变(Vn-Vo)的正负号,且满足a+b=1,一般可以通过学习得到;(8)P:取向性学习矩阵,P={Pi|i=1,2,…ns},作用是依据取向函数所提供的信息,对取向性映射进行更新调整,其中为状态si对应的学习矩阵,各参数意义与(3)中相同,不再赘述。设t时刻系统在感知状态si下的取向性映射为Oi(t),执行动作mij后,在该感知状态下的取向性映射变为Oi(t+1),则取向性映射更新方法如下:其中pij(t)为t时刻取向性学习矩阵Pi中的第j个元素,与取向性元素oij(t)相对应,pik(t)为其余元素,与oik(t)对应,η>0为取向性学习参数;(9)F:系统内部状态转移函数,F(s(t),m(t))=s(t+1),表示t时刻在感知状态为s(t)下执行动作m(t)后状态转移为s(t+1);(10)E:感知运动系统的知识熵,E={Ei|i=1,2,…ns},用来描述系统对知识的学习程度,表征系统的自学习和自组织特性,系统在学习初始阶段,没有任何知识,对各动作的取向性相等,经过不断学习,习得世界知识,取向性发生变化,因此可以采用信息熵的变化过程来描述系统自学习、自组织的过程,通过信息熵值的变本文档来自技高网
...
一种具有内发动机机制的感知运动系统认知及其学习方法

【技术保护点】
一种具有内发动机机制的感知运动系统认知及其学习方法,其特征在于,系统认知模型以学习自动机为基础,设计为一个十元组<S,M,O,N,C,V,Vs,P,F,E>,各部分内容具体如下:(1)S:系统离散感知状态集合,S={si|i=1,2,…ns},si∈S为第i个感知状态,ns为可感知到的离散状态的个数,针对连续系统,将需要考虑的连续状态空间[Xmin,Xmax]离散化为离散状态空间,其中Xmin为所需考虑状态的下限值,Xmax为所需考虑状态的上限值,对连续状态空间进行均匀划分,令w=(Xmax‑Xmin)/ns,则离散化后的状态空间为:S={[Xmin+(i‑1)w,Xmin+iw]|i=1,2,…ns};(2)M:系统动作集合,M={Mi|i=1,2,…,ns},Mi={mij|j=1,2,…,ni},mij表示系统第i个感知状态下第j个可选动作,ni为第i个状态下可选动作的个数;(3)O:“感知‐运动”取向性映射集合,O={Oi|i=1,2,…ns},Oi为状态si对应的取向性映射矩阵,其中diag表示括号里的元素以对角阵的方式储存,此处元素oij的下表i(i=1,2,…,ns)并不表示元素所在矩阵的行信息,oij(i∈(1,2,…,ns),j∈(1,2,…,ni))表示一条“感知‐运动”映射,表征的是系统在感知状态si∈S下对动作mij的取向性,或称感知状态si与动作mij的感知运动取向性为oij,规定智能体在任何感知状态下对该状态下所有动作的取向性总和保持不变,即当智能体在某状态下对其中一动作的取向性增加时,同时意味着在该状态下对其他动作的取向性减小,本认知模型中,取向性满足0≤oij≤1且Σj=1nioij=1;]]>(4)N:状态学习次数,N={Ni|i=1,2,…,ns},Ni为至t时刻状态si被学习的次数;(5)C:好奇心,C={ci|i=1,2,…ns},ci为状态si的好奇心;(6)V:系统状态取向值,用来决定取向函数的值,V={Vi|i=1,2,…ns},为满足系统普适性,定义Vi∈[‑1,1],‐1为最差状态的状态取向值,1为最理想状态的状态取向值,对于离散系统,根据实际情况定义各状态的取向值,对于连续系统,对离散化后的状态定义离散状态取向值,也在线计算所处状态的连续状态取向值,针对连续系统,状态取向值的计算方法为:Ji表征期望状态和实际状态之间的误差程度,定义为Ji(t)=(Xb‑Xi(t))2,其中Xb为期望状态值,Xi(t)为t时刻实际状态值,Vi被归一化到[‑1,1]之间,且为Ji的减函数,意味着t时刻所处状态与期望状态之间误差越大,状态取向值越小,所处状态与期望状态之间误差越小,状态取向值越大,符合生物取向性,λ为归一化系数;(7)Vs:取向函数,Vs=aVn+b(Vn‑Vo),Vo和Vn分别表示执行某一动作的前后状态,取向函数影响系统取向性的变化方向,既与状态取向值变化过程相关,也与变化后所处状态的状态取向值相关,其中a≥0,b≥0为取向函数参数,其取值应保证取向函数的正负号不改变(Vn‑Vo)的正负号,且满足a+b=1,通过学习得到;(8)P:取向性学习矩阵,P={Pi|i=1,2,…ns},作用是依据取向函数所提供的信息,对取向性映射进行更新调整,其中为状态si对应的学习矩阵,各参数意义与(3)中相同,不再赘述;(9)F:系统内部状态转移函数,F(s(t),m(t))=s(t+1),表示t时刻在感知状态为s(t)下执行动作m(t)后状态转移为s(t+1);(10)E:感知运动系统的知识熵,E={Ei|i=1,2,…ns},用来描述系统对知识的学习程度,表征系统的自学习和自组织特性,系统在学习初始阶段,没有任何知识,对各动作的取向性相等,经过不断学习,习得世界知识,取向性发生变化,因此采用信息熵的变化过程来描述系统自学习、自组织的过程,通过信息熵值的变化,来反应系统知识积累的程度,系统t时刻在状态si下的知识熵及总的知识熵定义如下:Ei(t)=Ei(mj(t)|si)=-Σj=1nioij(t)iog2oij(t)=-Σj=1nioij(mj(t)|si)iog2oij(mj(t)|si)E(t)=Σi=1nsEi(t);]]>系统按以下步骤进行学习:(1)初始化:设定初始状态S0,初始取向性分布O0及初始好奇心的值C0;(2)感知当前状态;(3)计算当前状态下的取向性映射矩阵;(4)计算当前状态下的好奇心值,生成随机指针,将好奇心投向指针指向的动作;好奇心计算方法设计为:ci=11+e0.01(Ni-1)]]>(5)依据内发动机机制选择动作;(6)实施选定的动作,状态发生转移;(7)计算转移后状态的状态取向值;(8)计算取向函数值...

【技术特征摘要】
1.一种具有内发动机机制的感知运动系统认知模型的学习方法,其特征在于,系统认知模型以学习自动机为基础,设计为一个十元组<S,M,O,N,C,V,Vs,P,F,E>,各部分内容具体如下:(1)S:系统离散感知状态集合,S={si|i=1,2,…ns},si∈S为第i个感知状态,ns为可感知到的离散状态的个数,针对连续系统,将需要考虑的连续状态空间[Xmin,Xmax]离散化为离散状态空间,其中Xmin为所需考虑状态的下限值,Xmax为所需考虑状态的上限值,对连续状态空间进行均匀划分,令w=(Xmax-Xmin)/ns,则离散化后的状态空间为:S={[Xmin+(i-1)w,Xmin+iw]|i=1,2,…ns};(2)M:系统动作集合,M={Mi|i=1,2,…,ns},Mi={mij|j=1,2,…,ni},mij表示系统第i个感知状态下第j个可选动作,ni为第i个状态下可选动作的个数;(3)O:“感知-运动”取向性映射集合,O={Oi|i=1,2,…ns},Oi为状态si对应的取向性映射矩阵,其中diag表示括号里的元素以对角阵的方式储存,此处元素oij的下标i(i=1,2,…,ns)并不表示元素所在矩阵的行信息,oij(i∈(1,2,…,ns),j∈(1,2,…,ni))表示一条“感知-运动”映射,表征的是系统在感知状态si∈S下对动作mij的取向性,或称感知状态si与动作mij的感知运动取向性为oij,规定智能体在任何感知状态下对该状态下所有动作的取向性总和保持不变,即当智能体在某状态下对其中一动作的取向性增加时,同时意味着在该状态下对其他动作的取向性减小,本认知模型中,取向性满足0≤oij≤1且(4)N:状态学习次数,N={Ni|i=1,2,…,ns},Ni为至t时刻状态si被学习的次数;(5)C:好奇心,C={ci|i=1,2,…ns},ci为状态si的好奇心;(6)V:系统状态取向值,用来决定取向函数的值,V={Vi|i=1,2,…ns},为满足系统普适性,定义Vi∈[-1,1],-1为最差状态的状态取向值,1为最理想状态的状态取向值,对于离散系统,根据实际情况定义各状态的取向值,对于连续系统,对离散化后的状态定义离散状态取向值,或者在线计算所处状态的连续状态取向值,针对连续系统,状态取向值的计算方法为:Ji表征期望状态和实际状态之间的误差程度,定义为Ji(t)=(Xb-Xi(t))2,其中Xb为期望状态值,Xi(t)为t时刻实际状态值,Vi被归一化到[-1,1]之间,且为Ji的减函数,意味着t时刻所处状态与期望状态之间误差越大,状态取向值越小,所处状态与期望状态之间误差越小,状态取向值越大,符合生物取向性,λ为归一化系数;(7)Vs:取向函数,Vs=aVn+b(Vn-Vo),Vo和Vn分别表示执行某一动作的前后状态,取向函数影响系统取向性的变化方向,既与状态取向值变化过程相关,也与变化后所处状态的状态取向值相关,其中a≥0,b≥0为取向函数参数,其取值应保证取向函数的正负号不改变(Vn-Vo)的正负号,且满足...

【专利技术属性】
技术研发人员:阮晓钢张晓平武璇黄静陈志刚肖尧朱晓庆奥塔瓦谢
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1