基于语义域自适应的机器人技能虚实迁移学习方法及系统技术方案

技术编号：43161750 阅读：20 留言：0更新日期：2024-11-01 19:55

本发明专利技术提供一种基于语义域自适应的机器人技能虚实迁移学习方法及系统，该方法包括：S1.构建仿真环境，生成仿真环境对应的感知语义标签，构成源域仿真图像与标签对样本集；S2.输入仿真图像与实物图像，使用基于对抗学习的语义域自适应方法训练语义抽象网络模型；S3.使用仿真语义基于强化学习方法对机器人技能策略神经网络进行训练，得到机器人系统技能策略模型；S4.使用语义抽象神经网络模型将真实环境图像转换为语义信息，将实物语义信息输入至机器人技能策略神经网络模型中得到实时的机器人控制指令。本发明专利技术能够实现对机器人技能策略的高效、安全地虚实迁移，具有实现操作简单、迁移性能强、安全可靠性以及效率高等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器人，具体涉及一种基于语义域自适应的机器人技能虚实迁移学习方法及系统。

技术介绍

1、当前随着机器学习技术尤其是强化学习技术的发展，其在自适应学习与执行复杂任务方面的能力均在显著增强。基于强化学习方式机器人能够通过自主学习的方式获得自适应灵巧技能操作能力，进而协助或代替人类在复杂场景中执行任务，提高任务执行效率。基于强化学习技术实现机器人操作技能训练时，需要通过与环境的交互探索，优化技能策略，但是，由于采样成本昂贵、训练安全难以保证，直接利用深度强化学习在实物系统中交互的方式不仅实现复杂且代价成本非常高。

2、为了解决上述问题，现有技术中通常是通过在相似的机器人技能操作模拟环境中通过强化学习训练一个智能体，再将该智能体部署到真实的机器人系统中。但是该类方案依然会存在以下缺陷：

3、1、仿真图形引擎难以生成与实物系统一致的视觉环境，这会使得模拟环境与真实物理系统之间存在语义偏差，因而难以有效提取出仿真环境与实物系统中蕴含一致的语义信息，导致仿真中训练好的策略在实际物理世界使用时效果并不理想。

4、2、仿真环本文档来自技高网...

【技术保护点】

1.一种基于语义域自适应的机器人技能虚实迁移学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于语义域自适应的机器人技能虚实迁移学习方法，其特征在于，步骤S2中，所述基于对抗学习的语义域自适应方法训练的过程中，使用源域仿真图像与标签对样本集训练语义抽象神经网络模型包括：将源域仿真图像输入到语义抽象神经网络模型中，得到源域的抽象结果通过最小化源域的抽象结果与源域语义标签的距离训练抽象模型

3.根据权利要求1所述的基于语义域自适应的机器人技能虚实迁移学习方法，其特征在于，步骤S2中，所述基于对抗学习的语义域自适应方法训练的过程中，训练所述判别器模型包括：...

【技术特征摘要】

1.一种基于语义域自适应的机器人技能虚实迁移学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于语义域自适应的机器人技能虚实迁移学习方法，其特征在于，步骤s2中，所述基于对抗学习的语义域自适应方法训练的过程中，使用源域仿真图像与标签对样本集训练语义抽象神经网络模型包括：将源域仿真图像输入到语义抽象神经网络模型中，得到源域的抽象结果通过最小化源域的抽象结果与源域语义标签的距离训练抽象模型

3.根据权利要求1所述的基于语义域自适应的机器人技能虚实迁移学习方法，其特征在于，步骤s2中，所述基于对抗学习的语义域自适应方法训练的过程中，训练所述判别器模型包括：

4.根据权利要求3所述的基于语义域自适应的机器人技能虚实迁移学习方法，其特征在于，步骤s2中，基于对抗学习的语义域自适应方法训练的过程中的损失函数为：

5.根据权利要求1所述的基于语义域自适应的机器人技能虚实迁移学习方法，其特征在于，步骤s3中，采用基于安全贝尔曼更新算子的强化学习方法对机器人技能策略神经网络进行训练，所述基于安全贝尔曼更新算子的强化学习方法中，使用安全贝尔曼更新算子学习安全动作值函数：

6.根据权利要求1～5中任意一项所述的基于语义域自适应的机器人技能虚实迁移学习方法，其特征在于，步骤s3中，对机器人技...

【专利技术属性】
技术研发人员：兰奕星，张文卓，徐昕，方强，曾宇骏，唐韬，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人