面向复杂开放环境下的机器人视觉感知表征学习制造技术

技术编号：41221483 阅读：16 留言：0更新日期：2024-05-09 23:41

本发明专利技术公开了一种面向复杂开放环境下的机器人视觉感知表征学习方法，以实例判别为自监督学习的代理任务，通过随机混合一个数据批次中多个图像的图像块，构建一个新的混合图像的图像块序列；新序列中的每个样本与另一种数据增强下的多个视图互为正样本对；进一步提出了跨实例建模的对比方法，包括以下三部分：第一部分是混合图像和原始图像之间的对比学习，以构建混合图像和原始图像之间的相似性，其中每个混合图像在原始图像序列中存在多个正样本，第二部分是混合图像和混合图像之间的对比学习，以进一步建模混合图像之间的复杂关系，每个混合图像序列中的每一个样本在另一个混合图像序列中都存在多个正样本，第三部分是原有的对比学习，它采用未混合的原始图像块序列，将同一个图像经过不同数据增强的视图作为唯一正样本，而其他图像的视图作为负样本，来消除混合图像和原始图像之间的域差异所产生的潜在表示差距。本发明专利技术可以有效地挖掘出自然图像之间的跨实例相似性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉领域，具体涉及一种面向复杂开放环境下的机器人视觉感知表征学习方法。

技术介绍

1、人工智能的发展促进了视觉感知表征学习在机器人上的应用。其中，对比学习是一种无标签的图像表征学习方法，不同的对比学习框架可以归纳为一个实例判别任务，在这个任务中，同一个图像经过不同数据增强的两个视图作为正样本对，而不同图像的视图作为负样本，通过最大化正样本对之间的表征相似性和最小化负样本对之间的表征相似性来进行实例区分。

2、进一步地，许多工作改善了对比学习方法，主要包括以下三个方面：首先，对于正样本，应用更多和更强的数据增强技术，例如随机裁剪和颜色抖动，使得模型可以从不同的增强样本中学习到更本质的图像表征。其次，使用额外的模块，如投影层和预测层，通过将对比表征与代理任务分离来提高表征的可传递性。此外，moco系列引入了动量编码器。第三，提出了基于聚类的方法和基于预测的方法，以探索没有负样本的对比学习方法。

3、然而，对于复杂开放环境下的机器人视觉感知表征学习，这些对比方法忽略了图像实例之间复杂的相似性关系，其...

【技术保护点】

1.一种面向复杂开放环境下的机器人视觉感知表征学习方法，其特征在于，以实例判别为自监督学习的代理任务，通过随机混合一个数据批次中多个图像的图像块，构建一个新的混合图像的图像块序列；进一步提出了跨实例建模的对比方法，包括以下三部分：第一部分是混合图像和原始图像之间的对比学习，以构建混合图像和原始图像之间的相似性，其中每个混合图像在原始图像序列中存在多个正样本；第二部分是混合图像和混合图像之间的对比学习，以进一步建模混合图像实例之间的复杂关系，每个混合图像序列中的每一个样本在另一个混合图像序列中都存在多个正样本，第三部分是原始图像之间的对比学习，它采用未混合的原始图像块序列，将同一个图像经过...

【技术特征摘要】

2.根据权利要求1所述的图像混合方法，其特征在于，对任意数量的图像在图像块级别上进行混合，具体为：

3.根据权利要求2所述的图像混合方法，其特征在于，所述步骤3中，将混合后的图像块序列分成m组，其中m表示用于混合的图像数量。对于第i个图像，每个组表示为其中表示组gin中的图像块数量，t表示经过步骤1后的图像块数量，k(j)表示经过步骤2中打乱操作的图像块序号。为了混合不同图像，从同一个组内的每个图像中选取数量一致且位置不同的图像块来构建混合图像，该过程可以如下表示：

4.根据权利要求1所述的跨实例建模的对比方法，其特征在于，输入图像批次x经过两次随机数据增强和以获得增强后的图像和为构建具有复杂相似性关系的正样本对，分别对图像x(1)和x(2)进行图像块的混合，以获得混合图像批次xmix1和xmix2。

【专利技术属性】
技术研发人员：沈成超，刘大伟，唐浩，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人