基于操作条件反射进行自主路径探索的方法及模型技术

技术编号:12389154 阅读:63 留言:0更新日期:2015-11-25 22:25
本发明专利技术提供一种基于操作条件反射进行自主路径探索的方法及模型,方法包括:设置初始参数值,包括离散化的环境状态空间和动作空间;在第t步时,通过声纳传感器采集机器人当前环境参数值,判断机器人当前各环境参数值所属的级别状态Si(t);从动作空间A选择概率最大一个动作ak(t)执行;当实施选取的动作ak(t)后,机器人状态发生转移,评价在状态si(t)下,实施操作ak(t)的作用效果,根据评价信号Vik(t),决定是否需要更新“状态si(t)-操作ak(t)”的原Q值。该方法主要特征在于模拟了生物的操作条件反射机制,具有仿生的自组织、自学习和自适应功能,有效的将仿生学、心理学和生物学应用于控制系统,具有实现仿生自主学习控制的功能。

【技术实现步骤摘要】

本专利技术属于路径探索
,具体涉及一种基于操作条件反射进行自主路径探索的方法及模型
技术介绍
Skinner操作条件反射(OperantConditioning)理论在人和动物的学习中,扮演着重要角色,基本原理为:如果在一定的主客观条件下,生物的某种行为所导致的后果符合生物的取向性,那么,在类似的主客观条件下,生物实施类似行为的概率将会上升。此外,Skinner十分强调强化的作用,他认为,人的学习是否成立关键在于强化。当一个操作发生之后,紧接着呈现一个强化刺激时,那么,这个操作的强度就增加。这里所增加的不是“刺激-反应”的联结,而是使反应发生的一般倾向性增强,即反应发生的概率增强了。他认为,在学习中,练习虽然是重要的,但关键的变量却是强化。在未知环境状态下,由于机器人没有合适的教师信号,机器人的学习能力是完成自主路径探索任务的关键所在。如申请号为200910044273.5,名称为未知环境下移动机器人导航安全的方法的专利技术申请,引入模糊神经网络智能技术实现机器人在未知环境中的自主学习探索,以确保运动过程中的安全。虽然以模糊神经网络为基础的机器人研究已经将机器人的控制行为同神经生理学和认知科学联系在一起,但这种联系还很松散和被动,机器人主体的运动控制技能以陈述性控制规则为主,具有过多的设计成份,较少生物系统技能仿生自主学习和自组织特征,还不能真正实现机器人的自主路径探索。操作条件反射学习具有较强的在线自适应性和对复杂系统的自学习能力,很适合于未知环境下的机器人自主导航学习。基于这一优点,操作条件反射学习成为目前仿生自主学习领域研究的热点。近些年,基于操作条件反射机制设计的学习模型,已取得了一定进展,如申请号为200910086990.4,名称为操作条件反射自动机及其在仿生自主学习控制中的应用的专利技术申请,基于有限状态自动机,设计出一种具有自组织功能的操作条件反射模型,并解决了倒立摆系统的控制问题;申请号为200910089263.3,名称为自治操作条件反射自动机及在实现智能行为中的应用的专利技术申请,同样设计了一种操作条件反射自动机,并应用于两轮机器人的平衡控制。但是,上述专利申请设计的操作条件反射自动机的学习机制实质上还是遵循一般有限状态自动机的学习机制,并且,只是应用于解决了简单的平衡控制问题,难以应用于机器人路径探索这种复杂控制任务。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供一种基于操作条件反射进行自主路径探索的方法及模型,可有效应用于机器人路径探索领域。本专利技术采用的技术方案如下:本专利技术提供一种基于操作条件反射进行自主路径探索的方法,包括以下步骤:Step1,设置初始参数值,包括:机器人起点位置信息;迭代学习步数初值t=0;迭代学习次数tf;采样时间ts;学习算法相关参数,包括权重系数β1、β2、β3、β4,退火初始温度T0,退火参数,折扣因子η;设置机器人离散化的环境状态空间S={si|i=1,2,…,n本文档来自技高网
...

【技术保护点】
一种基于操作条件反射进行自主路径探索的方法,其特征在于,包括以下步骤:Step1,设置初始参数值,包括:机器人起点位置信息;迭代学习步数初值t=0;迭代学习次数tf;采样时间ts;学习算法相关参数,包括权重系数β1、β2、β3、β4,退火初始温度T0,退火参数折扣因子η;设置机器人离散化的环境状态空间S={si|i=1,2,…,n},其中,每一个si均用五个状态量表示,即:Si={d~rob_obs_l,d~rob_obs_f,d~rob_obs_r,d~rob_tar,θ~};其中:d~rob_obs_l——机器人左侧距障碍物的距离状态;d~rob_obs_f——机器人前方距障碍物的距离状态;d~rob_obs_r——机器人右侧距障碍物的距离状态;d~rob_tar——机器人与目标点之间的距离状态;θ~——机器人当前运动方向和目标点的夹角状态;对于每一个状态量,均采用模糊法划分为有限个级别状态,每一个级别状态为一个距离区间;设置动作空间A={ak|k=1,2,…,r};其中,ak表示移动机器人路径探索的第k个可选动作;机器人最初从动作空间中选取任意一个动作ak的概率均相等,为1/r;设置安全距离dmax和最小危险距离dmin;Step2,机器人配备有多个声纳传感器,在机器人行走过程中,在第t步时,通过声纳传感器采集机器人当前环境参数值,包括:距左侧障碍物距离dtrob_obs_l、距右侧障碍物距离dtrob_obs_r、距前方障碍物距离dtrob_obs_f、与目标点之间距离dtrob_tar、当前运动方向和目标点夹角θt;判断机器人当前各环境参数值所属的级别状态,从而得到机器人在第t步时所处的环境状态Si(t)={d~rob_obs_l,d~rob_obs_f,d~rob_obs_r,d~rob_tar,θ~},Si(t)∈环境状态空间S;依据公式(3)计算当前状态Si(t)下的信息熵值Hi(t):Hi(t)=Hi(A(t)|si(t))=-Σk=1rpiklog2pik=-Σk=1rp(ak|si(t))log2p(ak|si(t))---(3)]]>其中,ak∈A={ak|k=1,2,…,r}表示移动机器人路径探索的第k个可选动作,A表示机器人路径探索的可选动作集合,r为可选动作的个数;pik=p(ak|si(t))∈Pi表示处于环境状态Si(t)的条件下实施动作ak的概率值,也被称为“状态si‑动作ak”对的激发概率值,满足:0<pik<1,pik∈Pi={pi1,pi2,...,pir},Pi表示第i个状态对应的概率矢量,Pi={pi1,pi2,...,pir}∈P,P代表总的概率矢量;Step3,依据Boltzmann分布,从动作空间A选择概率最大一个动作ak(t)执行;最优动作的学习目标为:①如果机器人与左方、前方和右方障碍物的距离均大于安全距离,即:drob_obs_l>dmax且drob_obs_f>dmax且drob_obs_r>dmax,则执行动作需使机器人倾向直接向目标点移动;②如果机器人与左方、前方和右方障碍物的距离中,存在介于安全距离与最小危险距离之间的数值,即满足以下关系式:dmin<drob_obs_l或drob_obs_f或drob_obs_r<dmax,则执行对应动作需使机器人能实现避障;Step4,当实施选取的动作ak(t)后,机器人状态发生转移,计算新状态si(t+1)下的信息熵值Hi(t+1);判断当前的训练轮数是否超过预先设定的训练轮数N,如果超过,则剔除信息熵值始终保持最大的状态,并转向Step5;否则,直接转向Step5;Step5,首先,获取新状态下机器人与障碍物之间的距离:若drob_obs_l>dmaxdrob_obs_f>dmax且drob_obs_r>dmax,按照式(4)计算“状态si(t)‑操作ak(t)”的评价信号Vik(t);若dmin<drob_obs_l<dmax,按照式(5‑1)计算“状态si(t)‑操作ak(t)”的评价信号Vik(t);若dmin<drob_obs_f<dmax,按照式(5‑2)计算“状态si(t)‑操作ak(t)”的评价信号Vik(t);若dmin<drob_obs_r<dmax,按照式(5‑3)计算“状态si(t)‑操作ak(t)”的评价信号Vik(t);若drob_obs_l<dminordrob_obs_f<dminordrob_obs_r<dmin,学习失败,给予惩罚值,令Vik(t)=‑1;V(drob_tar,θ)=‑β1sign(Δdrob_tar(t))Δ2drob_tar(t)‑β2sign(Δθ(t))Δ2θ(t)   (4)其中,β1、β2为权重系数,0<β1,β2<1;Δθ(t)=θ(...

【技术特征摘要】
1.一种基于操作条件反射进行自主路径探索的方法,其特征在于,包括以
下步骤:
Step1,设置初始参数值,包括:机器人起点位置信息;迭代学习步数初值
t=0;迭代学习次数...

【专利技术属性】
技术研发人员:蔡建羡洪利于瑞红马洪蕊
申请(专利权)人:防灾科技学院
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1