一种从大模型中发现常见交互属性的可操作部件感知方法技术

技术编号：41337367 阅读：4 留言：0更新日期：2024-05-20 09:56

本发明专利技术涉及计算机视觉的技术领域，提出一种从大模型中发现常见交互属性的可操作部件感知方法，包括以下步骤：获取现实场景的物体的可操作部件对应的图像‑文本配对数据集，并编码得到图像‑文本配对数据集对应的视觉级别的嵌入和文本嵌入；利用对比学习训练使所述视觉级别的嵌入和文本嵌入之间的互信息最大化，得到训练好的视觉级别的嵌入和文本嵌入；将训练好的视觉级别的嵌入对应的图像特征蒸馏至3D空间；基于蒸馏结果和训练好的文本嵌入对现实场景物体的可操作部件进行实例分割，得到部件的分割掩码；基于部件的分割掩码利用姿态预测网络预测得到部件的预测位姿；将部件的分割掩码和部件的预测位姿用于实现具身智能与现实场景物体间的交互。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉的，更具体地，涉及一种从大模型中发现常见交互属性的可操作部件感知方法。

技术介绍

1、针对于不同种类物体的可操作部件的识别对操作物体是至关重要的，特别是针对于现实场景中具身智能对场景的交互。目前的研究通常把该问题视为一个鲁棒的3d分割问题。在这个范式中，不同类物体被视为不同域，并且通过对抗性训练方法训练模型来学习部件的领域不变表示。然而，这些学习表征在处理跨不同对象的同一部件类别之间的显著视觉变化时经常面临挑战。此外，它们通常无法捕捉到区分一个零件类别与另一个零件类别的细微视觉区别。另一个可行的解决方案是直接应用现有的开放世界分割方法来分割可操作的部分，这种解决方案通常在不受控制的环境中检测所有可见的物体部分。然而，可操作部件分割侧重于具体识别可与之交互的对象部件，例如手柄、按钮或开关，现有方法则侧重于识别支持交互的对象的功能方面，因此，现有方法对物体的可操作部分的感知较弱。

技术实现思路

1、本专利技术为克服上述现有技术所述的对物体的可操作部分的感知较弱的缺陷，提供一种能够精确感知物体的可操作部分的从大模型中发现常见交互属性的可操作部件感知方法。

2、为解决上述技术问题，本专利技术的技术方案如下：

3、利用大语言模型和扩散模型，获取现实场景的物体的可操作部件对应的图像-文本配对数据集；

4、利用图像编码器和文字编码器，对图像-文本配对数据集进行编码，得到图像-文本配对数据集对应的视觉级别的嵌入和文本嵌入；

6、基于知识蒸馏，将训练好的视觉级别的嵌入对应的图像特征蒸馏至3d空间；

7、基于蒸馏至3d空间的图像特征和训练好的文本嵌入，对现实场景的物体的可操作部件进行实例分割，得到部件的分割掩码；

8、基于部件的分割掩码，利用姿态预测网络预测得到部件的预测位姿；

9、将部件的分割掩码和部件的预测位姿用于实现具身智能与现实场景的物体之间的交互。

10、本专利技术还提出了从大模型中发现常见交互属性的可操作部件感知系统用于实现上述的从大模型中发现常见交互属性的可操作部件感知方法。所述系统包括：

11、数据集获取模块，用于利用大语言模型和扩散模型，获取现实场景的物体的可操作部件对应的图像-文本配对数据集；

12、数据集编码模块，用于利用图像编码器和文字编码器，对图像-文本配对数据集进行编码，得到图像-文本配对数据集对应的视觉级别的嵌入和文本嵌入；

13、互信息最大化模块，用于利用对比学习训练所述视觉级别的嵌入和文本嵌入，当所述视觉级别的嵌入和文本嵌入之间的互信息最大化时，停止训练，得到训练好的视觉级别的嵌入和训练好的文本嵌入；

14、知识蒸馏模块，用于基于知识蒸馏，将训练好的视觉级别的嵌入对应的图像特征蒸馏至3d空间；

15、实例分割模块，用于基于蒸馏至3d空间的图像特征和训练好的文本嵌入，对现实场景的物体的可操作部件进行实例分割，得到部件的分割掩码；

16、位姿预测模块，用于基于部件的分割掩码，利用姿态预测网络预测得到部件的预测位姿；

17、交互模块，将部件的分割掩码和部件的预测位姿用于实现具身智能与现实场景的物体之间的交互。

18、本专利技术还提出了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，其中所述计算机可读指令被所述处理器执行时，使得所述处理器执行本专利技术提出的从大模型中发现常见交互属性的可操作部件感知方法的步骤。

19、与现有技术相比，本专利技术技术方案的有益效果是：

20、本专利技术基于现实场景的物体的可操作部件对应的图像-文本配对数据集对应的视觉级别的嵌入和文本嵌入，利用对比学习进行训练，使视觉级别的嵌入和文本嵌入之间的互信息最大化，确保可操作部件的2d视觉信息和文本描述之间实现了一致性和可泛化性的对齐，并基于知识蒸馏，将训练好的视觉级别的嵌入对应的图像特征蒸馏至3d空间，将最初在2d层面获得的共同功能知识蒸馏成它们的3d点特征当量，丰富了三维点特征，增强了其有效泛化的能力，最后利用蒸馏至3d空间的图像特征和文本嵌入获得分割掩码和预测位姿，从而实现对物体的可操作部分的精确感知。

本文档来自技高网...

【技术保护点】

1.一种从大模型中发现常见交互属性的可操作部件感知方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的从大模型中发现常见交互属性的可操作部件感知方法，其特征在于，基于现实场景的物体，利用大语言模型和扩散模型，获取现实场景的物体的可操作部件对应的图像-文本配对数据集时，获取图像-文本配对数据集中的第p组图像-文本配对数据，包括：

3.根据权利要求2所述的从大模型中发现常见交互属性的可操作部件感知方法，其特征在于，利用图像编码器和文字编码器，对图像-文本配对数据集进行编码，得到图像-文本配对数据集对应的视觉级别的嵌入和文本嵌入的步骤包括：

4.根据权利要求3所述的从大模型中发现常见交互属性的可操作部件感知方法，其特征在于，利用对比学习训练所述视觉级别的嵌入和文本嵌入的步骤包括：

5.根据权利要求1～4任一项所述的从大模型中发现常见交互属性的可操作部件感知方法，其特征在于，基于知识蒸馏，将训练好的视觉级别的嵌入对应的图像特征蒸馏至3D空间的步骤包括：

6.根据权利要求5所述的从大模型中发现常见交互属性的可操作部件感知方法

7.根据权利要求6所述的从大模型中发现常见交互属性的可操作部件感知方法，其特征在于，基于部件的分割掩码，利用姿态预测网络预测得到部件的预测位姿的步骤包括：

8.根据权利要求7所述的从大模型中发现常见交互属性的可操作部件感知方法，其特征在于，将部件的分割掩码和部件的预测位姿用于实现具身智能与现实场景的物体之间的交互之前，设计用于优化部件的分割掩码和部件的预测位姿的损失函数Ltotal，迭代求解损失函数Ltotal，直至损失函数Ltotal达到最小化或迭代次数达到预设次数时，停止迭代，得到部件的分割掩码和部件的预测位姿的优化结果，并将所述优化结果用于实现具身智能与现实场景的物体部件之间的交互；

9.一种从大模型中发现常见交互属性的可操作部件感知系统，用于实现权利要求1～8任一项所述从大模型中发现常见交互属性的可操作部件感知方法，其特征在于，包括：

10.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1～8任一项所述从大模型中发现常见交互属性的可操作部件感知方法的步骤。

...

【技术特征摘要】

1.一种从大模型中发现常见交互属性的可操作部件感知方法，其特征在于，包括以下步骤：

5.根据权利要求1～4任一项所述的从大模型中发现常见交互属性的可操作部件感知方法，其特征在于，基于知识蒸馏，将训练好的视觉级别的嵌入对应的图像特征蒸馏至3d空间的步骤包括：

6.根据权利要求5所述的从大模型中发现常见交互属性的可操作部件感知方法，其特征在于，基于蒸馏至3d空间的图像特征和训练好的文本嵌入，对现实场景的物体的可操...

【专利技术属性】
技术研发人员：梁小丹，温悠朋，赵屾，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人