当前位置: 首页 > 专利查询>河南大学专利>正文

基于世界模型隐变量和多视角融合的机械臂训练系统技术方案

技术编号:38096559 阅读:12 留言:0更新日期:2023-07-06 09:11
本发明专利技术提出了通过在机械臂训练系统中输入并融合多视角的二维图像,以提高机械臂训练效率的方法。由于维度的限制,相机采集的二维图像在描述三维场景下机械臂运动状态的过程中存在局限性,导致机械臂实际训练的难度增加,因此本发明专利技术首先在机械臂训练系统中增加三个机位,分别获得机械臂三维场景下的正视图、侧视图和俯视图。然后在训练阶段中将采集到的三组不同视角下的图像分别输入到编码器中,得到三组关于图像的隐变量,依次与世界模型中的隐变量融合。由于三种视图描述了三维场景下不同视角的状态,因此系统中通过融合后所获得的状态信息量大于其中任意一种视角下的图像,这种方法使机械臂得到高效训练,有助于机械臂完成更复杂的任务。成更复杂的任务。成更复杂的任务。

【技术实现步骤摘要】
基于世界模型隐变量和多视角融合的机械臂训练系统


[0001]本专利技术涉及视觉机械臂控制领域,尤其涉及世界模型算法和多视角融合方法在视觉机械臂领域中的应用部署。

技术介绍

[0002]当前深度学习技术的成果已渗透到机器人领域,使得机器人技术朝着多元化和智能化的方向发展。相比起传统的动力学建模分析,使用深度学习技术,能让机械臂完成复杂任务的同时,又避免对机械臂运动学中各种公式的求解,比如OpenAI训练机械手解魔方,DeepMind训练机械臂搭建积木。虽然机械臂应用领域很广泛,但其中机械臂的抓取学习仍然是机器人技术中最重要的开放性问题之一,也是作为执行通用机械臂任务的第一步,由于需要和物体进行复杂的互动,因此它需要基于视觉的闭环控制来应对动态场景,国外学者使用QT

Opt算法来解决上述抓取任务,使用离线数据进行学习时,抓取成功率可以达到86%,而在微调训练阶段收集的28000个抓取的额外在线数据,可以迅速达到96%的成功率。在最新的实验中,谷歌团队提出的算法将直接收集现实中的数据,对机械臂进行训练,经过实验显示机械臂训练学习的行为水平超出目前的无模型算法,并接近人类水平。
[0003]许多深度强化学习算法需要数百万个随机梯度下降步骤来训练能够完成复杂任务的策略,这往往意味着机器人需要和现实世界进行数百万次互动,这在实践中是十分困难的,因此一种解决方式是建立基于模型的算法,如通过构建RSSM网络,将动态环境特征压缩为隐藏变量,通过学习环境的隐藏信息并进行合理预测来减少智能体与环境的交互次数。另一种解决方式是通过迁移学习中的领域自适应方式,这类方法通过训练一个适配器网络,将真实世界的图像转换为规范的仿真环境图像,使得只在仿真环境中训练的策略能够应用于真实世界。另外也会使用一些与策略训练交织在一起的真实世界的数据来适应仿真参数的分布,通过匹配仿真和现实世界中的策略行为来改善策略转移。
[0004]端到端的训练方式以图像作为输入对机械臂进行训练,会导致训练过程中产生大量的冗余信息,直接降低机械臂训练速度,甚至会导致模型过拟合或诱导模型产生错误决策,增加模型的训练难度,影响最终的训练效果。另一种非端到端的训练方式,利用场景中非图像的关键信息进行训练,如在仿真环境下以仿真坐标为输入,通过躲避障碍物使机械臂到达目标物体,在这种以坐标为状态的仿真环境下进行训练,可以减少训练所需步数。一些学者提出一种带有变分自编码器的强化学习结构,可用于不同的任务目标并减少训练时间。在只针对机械臂做任务控制方向上,由于机械臂本身高自由度的特点,因此可以通过降维分析方法来缩小训练时间,基于深度强化学习的机械臂控制快速训练方法,它能先简化机械臂模型至2D模型,再将模型扩展到3D模型来实现机械臂的快速训练。另外在搭建神经网络过程中,通过合理剪枝,能大大减少神经网络中的参数量,进而提高算法训练速度,如基于稀疏学习的连续型机械臂自适应控制器,训练过程中采用具有随机稀疏拓扑结构的稀疏连接层代替神经网络的全连接层,并以一定概率对连接薄弱的网络进行迭代剪枝,使深度强化学习的策略网络由初始稀疏拓扑结构演化成无标度网络,在不降低训练精度的基础
上压缩了网络规模。对于训练分阶段也可以减少冗余训练次数,在分阶段训练的预训练阶段中,采用目标位置引导联合TD3 算法进行轨迹优化的混合规划策略,训练结束后规划算法能够在机械臂关节空间对任意起点、终点进行速度轨迹的自主规划。这种目标引导机制减少了训练时不必要的探索,在一定程度上解决了高维动作空间中学习效率低下的问题。

技术实现思路

[0005]针对现有无模型强化学习算法在机械臂训练中表现出效率低下,性能不佳等不足之处,本专利技术以世界模型为机械臂动力学建模基础,能提高样本的利用率,在训练过程中将多视角信息融合到模型隐变量中,能有效弥补单视角二维图像描述三维场景所缺失的状态信息,机械臂控制性能因此得到很大的提升。
[0006]为了达到上述目的,本专利技术的技术方案的步骤如下:
[0007]步骤1:搭建机械臂任务环境和放置相机,具体的:
[0008]步骤1.1:确定机械臂执行的具体任务,将物品摆放至工作台可操作空间范围内;
[0009]步骤1.2:确定机械臂的控制器类型以及每次操作机械臂需要动作的数量;
[0010]步骤1.3:约束动作执行的范围;
[0011]步骤1.4:设计与具体任务有关的奖励函数;
[0012]步骤1.5:放置三组不同方位的相机,分别获得机械臂三维场景中的正视图、侧视图和俯视图;
[0013]步骤1.6:测试机械臂训练系统;
[0014]步骤2:采集机械臂交互轨迹数据,具体的:
[0015]步骤2.1:算法训练第一阶段,机械臂在安全空间内执行数轮随机动作,采集对应步数的轨迹,填充至数据经验池中;
[0016]步骤2.2:算法训练第二阶段,采集轨迹数据和更新网络模型参数交替进行,当轨迹数超过经验池最大容量时,删除早期轨迹数据,继续填充新数据。
[0017]步骤3:更新网络模型参数,具体的:
[0018]步骤3.1:从数据经验池中随机选取一段连续的轨迹序列,用于训练世界模型网络;
[0019]步骤3.2:冻结世界模型的参数,由步骤3.1中更新的世界模型隐变量向前预测数步,预测得到的未来隐变量输入到决策网络中,用于训练决策网络中的critic网络和actor网络;
[0020]步骤4:观察回报函数是否收敛,若否,则转至步骤2.2中继续迭代,若是,则可将该算法用于机械臂的实际任务中。
[0021]进一步地,步骤1.5中三组相机的位置在空间上应相互垂直,并尽量减少遮挡面积。
[0022]进一步地,步骤3.1中从数据经验池随机选取一段连续的轨迹序列中包含三组不同视角下的相机图像,图像应分别经过变分自动编码器,得到图像压缩后的隐变量,再依次与世界模型隐变量融合,融合后的隐变量应能复原出原始的三组相机图像,因此损失函数的一部分可通过计算两者图像像素之间的均方误差来构建。
[0023]进一步地,步骤3.2中向前预测过程是连续的,得到的未来隐变量通过全连接层,
输出为对应的奖励值,用来计算决策网络中的损失函数。
[0024]与现有技术相比,本专利技术的有益效果为:
[0025]本专利技术所述的基于世界模型和多视角融合的机械臂训练系统,通过在网络架构中融合多视角二维图像信息,可以缩短机械臂训练周期,在相同任务的条件下,该方法还能够获得比单视角二维图像更高的奖励值。通过实际实验可以发现,使用该系统对机械臂训练一段时间后,在物体抓取任务中,机械臂自主抓取率在98%以上,较单视角相比,有接近20%的性能提升。
附图说明
[0026]为了更清楚地说明本专利技术实施过程,下面将对项目实施例描述中所需要使用的附图作简单介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲。在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于世界模型和多视角融合的机械臂训练系统,其特征在于,其步骤如下:步骤1:搭建机械臂任务环境和放置相机,具体的:步骤1.1:确定机械臂执行的具体任务,将物品摆放至工作台可操作空间范围内;步骤1.2:确定机械臂的控制器类型以及每次操作机械臂需要动作的数量;步骤1.3:约束动作执行的范围;步骤1.4:设计与具体任务有关的奖励函数;步骤1.5:放置三组不同方位的相机,分别获得机械臂三维场景中的正视图、侧视图和俯视图;步骤1.6:测试机械臂训练系统;步骤2:采集机械臂交互轨迹数据,具体的:步骤2.1: 算法训练第一阶段,机械臂在安全空间内执行数轮随机动作,采集对应步数的轨迹,填充至数据经验池中;步骤2.2:算法训练第二阶段,采集轨迹数据和更新网络模型参数交替进行,当轨迹数超过经验池最大容量时,删除早期轨迹数据,继续填充新数据;步骤3:更新网络模型参数,具体的:步骤3.1:从数据经验池中随机选取一段连续的轨迹序列,用于训练世界模型网络;步骤3.2:冻结世界模型的参数,由步骤3.1中更新的世界模型隐变量向前预测...

【专利技术属性】
技术研发人员:王赞汪钇成代震陈立家李孟伟许世文董孟豪连晨轩喻方吴俊霆陈慧彬万富瑞刘慧平郭行通
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1