基于效用差分网络的机器人行为学习模型制造技术

技术编号:5324023 阅读:263 留言:0更新日期:2012-04-11 18:40
本发明专利技术的基于效用差分网络的机器人行为学习模型,包括效用拟合网络单元,差分信号计算网络单元,置信度评价网络单元、动作决策网络单元、动作校正网络单元和动作执行单元,利用该模型实现离线学习过程和在线决策过程。效用拟合网络单元计算得到动作执行后的状态的效用拟合值,差分信号计算网络单元用于计算差分信号,置信度评价网络单元将计算得到的置信度输出给动作校正网络单元,动作决策网络单元输出动作选择函数,动作校正网络单元利用置信度对动作选择函数进行校正,计算每个动作选取的概率值,输出概率最大的动作给动作执行单元执行。本发明专利技术能较好保证机器人获取环境知识的完备性,较好地保证了机器人行为决策的及时性和有效性。

【技术实现步骤摘要】

本专利技术涉及一种基于效用差分网络的机器人行为学习模型,属于人工智能领域的 新应用之一。
技术介绍
机器人智能行为一般是指机器人在感知周边环境的基础上进行推理与决策,达到 行为智能决策的过程。智能行为决策模型的建立需要对知识进行获取、表示和推理,并且能 够自动评价机器人行为的优劣。目前,基于强化学习技术的认知行为模型在知识的获取、对 决策环境的适应性、可重用性等方面所具有的优点,使其成为智能行为建模的首选。强化学习过程需要对环境进行探索。可表述为在某个状态下,决策者选择并执行 一个动作,然后感知下一步的环境状态以及相应的回报。决策者并没有被直接告知在什么 情况下要采取什么行动,而是根据回报修正自身的行为,来赢得更多的回报。简单地说,强 化学习过程就是允许决策者通过不断尝试以得到最佳行动序列的过程。目前机器人强化学习的行为决策中使用较多的是基于特定知识或规则的反应式 方式,这种方式的缺点一是知识获取有限,二是问题获取的知识往往带有经验性,不能及时 学习新的知识,三是推理过程实时性不高等。
技术实现思路
本专利技术针对目前机器人强化学习的行为决策存在的缺点,建立了一种基于效用差 分网络的机器人行为学习模型。该模型是一个基于评价的学习系统,通过对环境的交互,自 动生成系统的控制率,进而控制给出选择动作。本专利技术基于效用差分网络的机器人行为学 习模型,解决一般行为决策模型知识获取有限、经验性过强的问题,实现的离线学习过程和 在线决策过程,解决推理过程实时性不高的问题。一种基于效用差分网络的机器人行为学习模型,包括效用拟合网络单元、差分信 号计算网络单元、置信度评价网络单元、动作决策网络单元、动作校正网络单元和动作执行 单元;所述的效用拟合网络单元用来计算t时刻动作\经动作执行单元执行后产生的状态空间向量St所得到的效用拟合值t/ig,并输出给差分信号计算网络单元;差分信号计算网络单元根据输入的效用拟合值 / Ο以及根据状态空间向量St计算的立即回报函数,进一步 计算得到差分信号ATDt,并将该差分信号ATDt输出给效用拟合网络单元、置信度评价网 络单元以及动作决策网络单元;效用拟合网络单元利用差分信号ATDt更新效用拟合网络 单元中神经网络的权值;置信度评价网络单元利用效用拟合网络单元中神经网络的输入层 的输入向量和隐层的输出向量以及差分信号,计算动作决策结果的置信度,并将该置信度 输出给动作校正网络单元;动作决策网络单元根据输入的差分信号ATDt与状态空间向量 st,进行动作的选择学习,输出动作选择函数Aco,…為权),…Aoi)给动作校正网络单 元,其中j、k为大于0的整数;动作校正网络单元利用输入的置信度,对输入的动作选择函数為化),…為杯),…Α<λ)进行校正,然后计算校正后的动作的选取概率值,将概率最大 的动作输出给动作执行单元执行,该动作执行后的状态空间向量再反馈输入给效用拟合网 络单元、差分信号计算网络单元和动作决策网络单元。所述的学习模型具有两个过程离线学习过程和在线决策过程;所述的离线学习 过程中上述各单元都要参与,所述的在线决策过程中仅由离线学习最后得到的动作决策网 络单元与动作执行单元参与,在线决策过程中的动作决策网络单元根据t时刻动作执行后 的状态空间向量st进行计算并得出输出动作选择函数Aco,…為杯),…Α<Λ),通过动 作选择器输出最终选择的动作给动作执行单元执行,执行动作后得到的状态空间向量再输 入给动作决策网络单元。本专利技术的优点与有益效果为(1)本专利技术的机器人学习模型不需要计算产生正确的行动,而是通过在行动-环 境交互-评价的学习环境中解决机器人知识获取困难的问题。由于此学习模型不需要明确 指定环境模型,环境的因果关系已经隐含在具体差分反馈网络中,从而能较好保证机器人 获取环境知识的完备性;(2)本模型设计的离线学习过程能在机器人决策前完成环境知识学习过程,在线 决策过程能进一步完成机器人环境知识获取,运行时的决策不再进行探索和学习活动,只 需要利用重构的网络进行计算和相加,这种离线与在线的模型设计保证了机器人的行为决 策具有较好的实时性,较好地保证了机器人行为决策的及时性和有效性。附图说明图1为本专利技术学习模型第一实施例的离线学习过程结构示意图;图2为本专利技术学习模型第一实施例的动作决策网络流程示意图;图3为本专利技术学习模型第一实施例中动作决策网络中的遗传算子编码结构示意 图;图4为本专利技术学习模型第一实施例中动作决策网络中的遗传算子交叉操作示意 图;图5为本专利技术学习模型第二实施例中在线决策过程的示意图。 具体实施例方式下面将结合附图和实施例对本专利技术作进一步的详细说明。其中,第一实施例对本 专利技术学习模型的离线学习过程进行了具体说明;第二实施例对在线决策过程进行说明。如图1所示,本专利技术学习模型包括五个部分效用拟合网络单元11、差分信号计算 网络单元12、置信度评价网络单元13、动作决策网络单元14和动作校正网络单元15。本发 明学习模型的离线学习过程中,五个部分都参与其中。效用拟合网络单元11用来计算t时刻选择的动作 经动作执行单元16执行后 产生的不同的状态空间向量St所得到的效用拟合值,并输出效用拟合值给差分 信号计算网络单元12,差分信号计算网络单元12输出差分信号ATDt给置信度评价网络单 元13和效用拟合网络单元11。效用拟合网络单元11再利用差分信号计算网络单元12输入的差分信号Δ TDt来不断更新,从而达到真实的效用拟合。差分信号计算网络单元12根据输入的效用拟合值f/ig以及根据状态空间向量St计算的立即回报函数,进一步计算得到差分信号ATDt,并将该差分信号ATDt输出给效用 拟合网络单元11、置信度评价网络单元13以及动作决策网络单元14。置信度评价网络单元13利用效用拟合网络单元11中神经网络的输入层的输入向 量和隐层的输出向量以及差分信号Δ TDt计算动作决策结果的置信度,并将该置信度输出 给动作校正网络单元15,用于对动作选择的调整。动作决策网络单元14根据输入的差分信号ATDt与状态空间向量St,利 用递阶遗传算法对神经网络进行优化,实现动作的选择学习,输出动作选择函数 4CO,…為杯),…Λ<λ)给动作校正网络单元15,其中j、k为大于ο的整数。动作校正网络单元15利用输入的置信度,对输入的动作选择函数 4( ) …Λ(·0,.·.▲(;。进行校正,将概率最大的动作输出。动作执行后的状态空间向量 再反馈输入给效用拟合网络单元11、差分信号计算网络单元12和动作决策网络单元14。其中,效用拟合网络单元11用来对特定的行为引起的状态变化进行效用评价,得 到效用拟合值,由两层反馈的神经网络构成,如图1所示。神经网络的输入为状态空间向量 st,隐层激活函数为Sigmoid函数,神经网络输出为对动作执行之后状态的效用拟合值,神 经网络的权系数为A、B和C(。该神经网络包含η个输入向量单元,以及h个隐层单元,每 个隐层单元接受η个输入并具有η个连接权值,输出单元接受n+h个输入并有1! 个权值。 对于h的值,用户可以自行设定,一般设定为3,本专利技术实施例中设置为2。该神经网络的输入向量为Xi(t),i = 1,2,3... n,函数Xi (t)是s本文档来自技高网...

【技术保护点】
一种基于效用差分网络的机器人行为学习模型,包括动作执行单元(16),其特征在于,该学习模型还包括:效用拟合网络单元(11)、差分信号计算网络单元(12)、置信度评价网络单元(13)、动作决策网络单元(14)和动作校正网络单元(15);所述的效用拟合网络单元(11)用来计算t时刻动作a↓[t]经动作执行单元(16)执行后产生的状态空间向量s↓[t]所得到的效用拟合值U(*↓[t]),并输出给差分信号计算网络单元(12);差分信号计算网络单元(12)根据输入的效用拟合值U(*↓[t])以及根据状态空间向量s↓[t]计算的立即回报函数,进一步计算得到差分信号ΔTD↓[t],并将该差分信号ΔTD↓[t]输出给效用拟合网络单元(11)、置信度评价网络单元(13)以及动作决策网络单元(14);效用拟合网络单元(11)利用差分信号ΔTD↓[t]更新效用拟合网络单元(11)中神经网络的权值;置信度评价网络单元(13)利用效用拟合网络单元(11)中神经网络的输入层的输入向量和隐层的输出向量以及差分信号,计算动作决策结果的置信度,并将该置信度输出给动作校正网络单元(15);动作决策网络单元(14)根据输入的差分信号ΔTD↓[t]与状态空间向量s↓[t],进行动作的选择学习,输出动作选择函数*↓[1](s↓[t]),…*↓[j](s↓[t]),…*↓[k](s↓[t])给动作校正网络单元(15),其中j、k为大于0的整数;动作校正网络单元(15)利用输入的置信度,对输入的动作选择函数*↓[l](s↓[t]),…*↓[j](s↓[t]),…*↓[k](s↓[t])进行校正,然后计算校正后的动作的选取概率值,将概率最大的动作输出给动作执行单元(16)执行,该动作执行后的状态空间向量再反馈输入给效用拟合网络单元(11)、差分信号计算网络单元(12)和动作决策网络单元(14);所述的学习模型具有两个过程:离线学习过程和在线决策过程;所述的离线学习过程中上述各个单元都要参与,所述的在线决策过程中仅由离线学习最后得到的动作决策网络单元(14)与动作执行单元(16)参与,在线决策过程中的动作决策网络单元(14)根据t时刻动作执行单元(16)执行动作后产生的状态空间向量s↓[t]进行计算并得出输出动作选择函数*↓[l](s↓[t]),…*↓[j](s↓[t]),…*↓[k](s↓[t]),通过动作选择器输出最终选择的动作给动作执行单元(16)执行,...

【技术特征摘要】

【专利技术属性】
技术研发人员:宋晓麻士东龚光红
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1