【技术实现步骤摘要】
本专利技术属于深度学习技术、多模态学习技术以及视觉触觉交互等,具体涉及一种面向视觉-触觉-动觉联合感知的物体识别方法。
技术介绍
1、随着具身人工智能的兴起,结合视觉、触觉和动觉的感知成为研究热点。结合视觉、触觉和动觉的感知在具身智能领域中机器人感知环境扮演了重要角色。然而,当机器人感知环境时使用的视觉、触觉和动觉数据是低质量的,将会加深机器的感知错误与决策失误。在现实世界中,不同模态的质量在不同场景下是动态变化的。处理质量动态变化的多模态数据是具身人工智能不可避免的问题。
技术实现思路
1、有鉴于此,本专利技术的目的在于提供一种面向视觉-触觉-动觉联合感知的物体识别方法,该方法通过基于transformer构建视觉-触觉-动觉联合模型,通过高斯噪声增强及预处理数据,利用三角型周期性学习率训练,融合视觉、触觉和动觉信息,实现模型对于质量动态变化的多模态数据的性能和泛化性,提高了物体识别性能,解决了机器人在低质量视觉、触觉和动觉数据场景下泛化能力不佳的问题。
2、该方案的总体实现
...【技术保护点】
1.一种面向视觉-触觉-动觉联合感知的物体识别方法,其特征在于:采用不同程度的高斯噪声增强原始不带噪声的视觉、触觉和动觉数据,对视觉、触觉和动觉数据分别进行增强、降维和统一表征的数据预处理;通过基于Transformer的视觉-触觉-动觉联合模型,实现基于视觉、触觉和动觉数据的物体识别;所述视觉-触觉-动觉联合模型的输入为经预处理得到的视觉、触觉和动觉数据,输出为物体类别;包括视觉特征提取器、触觉特征提取器、动觉特征提取器、权重可学习的加权求和操作、Transformer编码器和分类器。
2.根据权利要求1所述的一种面向视觉-触觉-动觉联合感知的物体识别方
...【技术特征摘要】
1.一种面向视觉-触觉-动觉联合感知的物体识别方法,其特征在于:采用不同程度的高斯噪声增强原始不带噪声的视觉、触觉和动觉数据,对视觉、触觉和动觉数据分别进行增强、降维和统一表征的数据预处理;通过基于transformer的视觉-触觉-动觉联合模型,实现基于视觉、触觉和动觉数据的物体识别;所述视觉-触觉-动觉联合模型的输入为经预处理得到的视觉、触觉和动觉数据,输出为物体类别;包括视觉特征提取器、触觉特征提取器、动觉特征提取器、权重可学习的加权求和操作、transformer编码器和分类器。
2.根据权利要求1所述的一种面向视觉-触觉-动觉联合感知的物体识别方法,其特征在于:所述增强包括改变亮度、对比度、旋转角度,降维包括下采样和pca,统一表征包括拼接。
3.根据权利要求1所述的一种面向视觉-触觉-动觉联合感知的物体识别方法,其特征在于:所述视觉-触觉-动觉联合模型的训练过程中,以交叉熵损失函数作为损失函数,通过构建三角型周期性学习率对训练过程中的学习率变化趋势进行调整。
4.根据权利要求1所述的一种面向视觉-触觉-动觉联合感知的物体识别方法,其特征在于:所述视觉-触觉-动觉联合模型通过权重可学习的加...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。