【技术实现步骤摘要】
一种任务驱动的机器人操作技能学习方法、介质及设备
[0001]本专利技术涉及机器人自主学习
,具体涉及一种任务驱动的机器人操作技能学习方法、介质及设备。
技术介绍
[0002]机器人自主学习的最终目标之一是使机器人能够通过与环境的不断交互从而像人类一样进化。尽管深度强化学习已经显示出巨大的潜力,但由于探索负担和任务约束,其在学习长步长操纵技能学习方面表现不佳。目前的研究方法主要通过进行有意义的探索来解决这些挑战,即机器人需要在动作和状态空间中探索有效的策略,以实现多样化的复杂技能学习。然而,随机探索的结果很少能接触到物体,更不用说学习复杂操作技能。
[0003]为了解决上述问题,最近的研究方法或者通过仔细的工程设计来避免探索问题,或者侧重于利用各种时间抽象框架来降低探索负担,还有一些方法通过将形式化方法纳入强化学习以解决任务约束。然而,虽然这些方法表现出了更好的可扩展性,但它们往往存在数据效率低、奖励函数设计困难、缺乏可解释性和复杂任务约束等问题。
技术实现思路
[0004]为解决上述技术问题, ...
【技术保护点】
【技术特征摘要】
1.一种任务驱动的机器人操作技能学习方法,通过形式化方法和参数化动作空间对标准强化学习方法进行扩展,包括以下步骤:步骤一:采用线性时序逻辑将机器人的操作技能编码为LTL公式,在抽象层面上分解机器人当前训练任务,并通过LTL进展检测机器人当前训练任务进展;读取机器人当前状态;步骤二:将机器人当前训练任务进展和机器人当前状态作为分层学习模块的输入,输出在环境中采用的动作基元以及对应的基元参数,并按得到的动作基元和基元参数执行动作,收集机器人状态
‑
动作轨迹和获取的奖励;所述分层学习模块为基于异构参数化动作基元库的分层强化学习框架,具有策略网络,能够根据机器人当前状态和机器人当前训练任务进展,决定在环境中采用的动作基元及对应的基元参数;步骤三、对收集的机器人状态
‑
动作轨迹和获取的奖励进行采样,通过代价函数计算出的代价更新分层学习模块中的策略网络,直至训练完成。2.根据权利要求1所述的任务驱动的机器人操作技能学习方法,其特征在于,步骤一中将机器人的操作技能编码为LTL公式时,LTL公式的语义定义为:;其中,表示定义符号,为原子命题,和为由原子命题和操作符组成的子任务公式;、为标准布尔操作符,、为操作符,LTL公式的语义在真值序列上进行解释,表示第i个真值,;在时,真值序列满足记作;给定操作技能的LTL公式,和真值序列,LTL进展在第i步被定义为:,如果,其中;,如果,其中;;;;;;;其中,表示减去后的剩余部分,表示推进LTL公式所需的命题。3.根据权利要求1或2所述的任务驱动的机器人操作技能学习方法,其特征在于,步骤一中,通过基于Transformer结构的编码器,将LTL公式编码为能够表示机器人当前训练任务进展的任务隐特征。4.根据权利要求1或2所述的任务驱动的机器人操作技能学习方法,其特征在于,通过卷积网络或者全连接网络对机器人的环境观测数据进行预处理,得到所述的机器人当前状态。5.根据权利要求1所述的任务驱动的机器...
【专利技术属性】
技术研发人员:阚震,王浩,张昊,李琳,宋永端,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。