一种机器人自主学习方法、装置、设备及存储介质制造方法及图纸

技术编号:33554501 阅读:23 留言:0更新日期:2022-05-26 22:51
本发明专利技术公开一种机器人自主学习方法、装置、设备及存储介质,该方法包括:基于预先构建的虚拟环境,获取由虚拟环境自动生成的环境参数;根据环境参数,通过深度学习模型生成训练数据;根据训练数据,采用分层强化学习框架生成至少一个机器人技能;根据待执行任务确定机器人的状态空间,基于状态空间,采用变分推理方法预测待执行任务的潜在技能向量,潜在技能向量与至少一个机器人技能中的其中一个机器人技能具有一一对应的关系;根据机器人技能和潜在技能向量,采用强化学习算法获得用于完成待执行任务的机器人控制策略。本发明专利技术在面对不同类型的任务时,无需重复针对不同类型的任务对机器人进行技能训练,提高了机器人进行自主学习的泛化性。学习的泛化性。学习的泛化性。

【技术实现步骤摘要】
一种机器人自主学习方法、装置、设备及存储介质


[0001]本专利技术涉及智能机器人
,尤其是涉及一种机器人自主学习方法、装置、设备及存储介质。

技术介绍

[0002]传统的工业机器人对人类依赖度高,在学习过程中需要过多的人为干预,缺乏自主学习的能力,难以从事复杂的工作。而能够自主学习的智能机器人拥有与人类相似的感知能力、动作能力、理解能力和协同能力,能够自主地从感知的数据信息中学习技能,快速适应环境变化,从而能够从事复杂的工作。
[0003]现有的机器人自主学习方法通常需要依赖大量的训练数据,使机器人针对单一类型的工作任务进行技能模型的训练,当面对不同类型的工作任务时,技能模型往往无法有效地完成工作任务,需要针对当前类型的工作任务重新进行技能模型的训练,导致机器人进行自主学习的泛化性较差。

技术实现思路

[0004]本专利技术提供一种机器人自主学习方法、装置、设备及存储介质,能够在虚拟环境中随机生成训练数据,实现训练数据的多样性,能够根据该训练数据针对不同类型的任务对机器人进行技能训练,生成机器人技能,当面对不同类本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种机器人自主学习方法,其特征在于,包括:基于预先构建的虚拟环境,获取由所述虚拟环境自动生成的环境参数;根据所述环境参数,通过深度学习模型生成训练数据;根据所述训练数据,采用分层强化学习框架生成至少一个机器人技能;根据待执行任务确定机器人的状态空间,基于所述状态空间,采用变分推理方法预测所述待执行任务的潜在技能向量,其中,所述潜在技能向量与所述至少一个机器人技能中的其中一个机器人技能具有一一对应的关系;根据所述机器人技能和所述潜在技能向量,采用强化学习算法获得用于完成所述待执行任务的机器人控制策略。2.如权利要求1所述的机器人自主学习方法,其特征在于,所述方法还包括:基于预先确定的用于表示虚拟环境的源域和用于表示现实环境的目标域,采用预设的神经网络模型学习从所述源域到所述目标域的映射情况,根据所述映射情况,获得所述源域和所述目标域之间的误差;根据所述映射情况,采用所述神经网络模型更新所述源域的状态空间,以缩小所述源域和所述目标域之间的误差。3.如权利要求2所述的机器人自主学习方法,其特征在于,所述方法还包括:响应于用户输入的增量学习指令,根据所述增量学习指令中的增量学习信息对所述机器人控制策略进行更新。4.如权利要求3所述的机器人自主学习方法,其特征在于,所述深度学习模型为生成式对抗网络模型;则,所述根据所述环境参数,通过深度学习模型生成训练数据,具体包括:根据所述环境参数,通过所述生成式对抗网络模型中的生成器获取所述环境参数的分布特性;根据所述分布特性,通过所述生成器随机生成所述训练数据。5.如权利要求4所述的机器人自主学习方法,其特征在于,所述分层强化学习框架包括上层决策模型和下层决策模型;则,所述根据所述训练数据,采用分层强化学习框架生成至少一个机器人技能,具体包括:根据所述训练数据,基于所述上层决策模型,通过MPC算法对每个时刻的任务序列进行规划;基于所述下层决策模型,通过DQN算法对所述每个时刻的任务序列进行运动规划,生成所述至少一个机器人技能。6.如权利要求5所述的机器人自主学习方法,其特征在于,所述方法具体通过如下步骤预先获取所述神经网络模型:步骤S61,基于LSTM神经网络,获取所述目标域的初始状态;步骤S62,将所述源域的状态设置为与所述目标域的初始状态相同;步骤S63,按照预设的每个状态所对应的行为策略,分别在所述源域和所述目标域上,在所述源域的当前状态和所述目标域的当前状态执行动作采样,获...

【专利技术属性】
技术研发人员:杜翠凤杜广龙滕少华蒋仕宝
申请(专利权)人:华南理工大学广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1