【技术实现步骤摘要】
一种情景记忆引导的机器人操作技能高效学习方法
[0001]本专利技术属于智能机器人服务
,涉及到一种情景记忆引导的机器人操作技能高效学习方法。
技术介绍
[0002]近年来,智能机器人在工业生产、医疗、商业、家庭服务等领域,当前机器人的学习方法针对精确、重复性的任务已经能够胜任,但是缺乏对新任务的学习能力,相似任务场景需重复训练,不能积累经验指导新任务实现快速学习等问题。在专利技术专利CN112518742A中,清华大学深圳国际研究生院的李秀、杨瑞等公开了一种基于动态模型与事后经验回放的多目标机器人控制方法。其基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练,利用事后经验回放技术,在多目标强化学习中,将失败经历的目标替换为实际完成的目标。西安交通大学的田智强、李根等在专利技术专利CN111421538A中公开了一种基于优先级经验回放机制的深度强化学习控制算法。其训练过程中实时采集目标物体的状态信息用于计算经验回放的优先级,然后将经验回放池中的数据根据优先级供强化学习算法采样学习获得控制模型。但是上述 ...
【技术保护点】
【技术特征摘要】
1.一种情景记忆引导的机器人操作技能高效学习方法,其特征在于,所述学习方法包括以下步骤:步骤1:建立机器人学习情景记忆模型M;提出基于机器人技能的事件建模方式;机器人情景记忆模型M,M由不同的事件e构成,即M={e1,e2,e3,
…
e
i
},其中每个事件e由四元组<o
t
,a
t
,r
t
,o
t+1
>表示,M中每个单元的构成与深度强化学习中表述状态的四元组的结构相同;其中,o
t
是由t时刻的环境状态s
t
和机器人状态p
t
所编码成的场景信息,s
t
是机器人通过传感器获得的环境状态,p
t
是包含机器人位姿状态、关节角度或其他机器人状态;a
t
是机器人在环境状态s
t
下执行的动作,在时间维度上表示机器人在当前任务采取的动作序列;r
t
是环境和学习策略在机器人执行动作后给出的奖励值;单一事件可以表示为e
t
,机器人通过执行动作a
t
,从环境状态s
t
步入到环境状态s
t+1
,环境和学习策略共同对机器人的表现做出评价,给出对应的奖赏值r
t
;步骤2:构建情景记忆模型检索算法;机器人在情景记忆模型M中检索与当前场景信息相匹配的所有事件集合E,具体为:采用余弦距离作为相似性度量函数,由任务编码器将当前环境状态与机器人状态编码为场景信息o
t
,通过计算o
t
与情景记忆模型M中存储事件的场景信息o
m
之间的向量相似性,选取情景记忆模型中所有相匹配的事件作为事件集合E:D(o
t
,o
m
)=(o
t
*o
m
)/(‖o
t
‖*‖o
m
‖)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)当D(o
t
,o
m
)大于设定阈值时,认为当前场景在记忆中存在,认为机器人经历过相类似场景和事件,情景记忆中包含o
m
的事件将被提取到E中;当D(o
t
,o
m
)小于阈值时,则认为情景记忆模型中存在的事件与当前场景信息不匹配;步骤3:根据情景记忆模型引导深度强化学习的动作选择;机器人传感器捕获当前环境状态s
t
和机器人状态p
t
,将s
t
和p
t
编码为场景信息o
t
,根据步骤2获取事件集合E,在事件集合中提取拥有最大奖赏值的动作为a
m
;,由深度强化学习的策略网络生成动作a
π
,机器人在a
m
和a
π
中选择最终作用于环境的动作a<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。