三维视觉语言对齐方法及装置、介质、设备制造方法及图纸

技术编号：38749851 阅读：18 留言：0更新日期：2023-09-09 11:16

本申请的实施例提供一种基于神经网络模型的三维视觉语言对齐方法，包括：获取文本场景对，其中，所述文本场景对包括场景信息和基于所述场景信息的需求文本；以及利用预先构建的神经网络模型，根据所述文本场景对，得到三维视觉语言对齐结果，其中，所述三维视觉语言对齐结果包括基于所述场景信息的对所述需求文本的应对结果。本申请的实施例还提供了一种基于神经网络模型的三维视觉语言对齐装置、计算机可读存储介质和电子设备。算机可读存储介质和电子设备。算机可读存储介质和电子设备。

全部详细技术资料下载

【技术实现步骤摘要】
三维视觉语言对齐方法及装置、介质、设备

[0001]本申请涉及人工智能
，尤其涉及根据所述文本场景对，得到三维视觉语言对齐结果的方法，更具体地，涉及一种基于神经网络模型的三维视觉语言对齐方法及装置、介质、设备。

技术介绍

[0002]随着人工智能技术的发展，具身智能也受到了广泛关注，将3D物理世界与自然语言对齐是实现具身智能的关键一步。
[0003]为实现3D物理世界与自然语言对齐，3D视觉语言任务引起了越来越多的关注，3D视觉语言任务包括3D视觉基础、语法学习、问题回答、密集字幕和情境推理等等，然而，大多数为实现3D视觉语言任务开发的模型比较复杂，具体体现为需要使用目标检测的损失函数、需要使用知识蒸馏来增强模型表现、需要使用物体分类和文本分类损失函数、需要使用人工设计的交叉注意力机制和/或需要使用多视角的数据增强。
[0004]因此，如何通过简单的方法，实现三维视觉语言对齐，是所属领域技术人员亟需要解决的技术问题。

技术实现思路

[0005]有鉴于此，本申请要解决的技术问题在于提供一种...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络模型的三维视觉语言对齐方法，其特征在于，该方法包括：获取文本场景对，其中，所述文本场景对包括场景信息和基于所述场景信息的需求文本；以及利用预先构建的神经网络模型，根据所述文本场景对，得到三维视觉语言对齐结果，其中，所述三维视觉语言对齐结果包括基于所述场景信息的对所述需求文本的应对结果。2.根据权利要求1所述的基于神经网络模型的三维视觉语言对齐方法，其特征在于，所述文本场景对包括{对场景信息的场景图中物体的描述文本，场景信息的场景图中至少一个点云}、{针对场景信息的场景图提出的问题文本，场景信息的场景图中至少一个点云}和{针对场景信息的场景图提出的问题文本，智能体在场景信息的场景图中的位置信息}中的至少一个，当所述文本场景对包括{对场景信息的场景图中物体的描述文本，场景信息的场景图中至少一个点云}时，所述三维视觉语言对齐结果包括所述描述文本中物体的坐标和尺寸；当所述文本场景对包括{针对场景信息的场景图提出的问题文本，场景信息的场景图中至少一个点云}时，所述三维视觉语言对齐结果包括对所述问题文本的答复文本；当所述文本场景对包括{针对场景信息的场景图提出的问题文本，智能体在场景信息的场景图中的位置信息}时，所述三维视觉语言对齐结果包括对所述问题文本的基于所述位置信息的答复文本。3.根据权利要求2所述的基于神经网络模型的三维视觉语言对齐方法，其特征在于，当所述文本场景对包括{对场景信息的场景图中物体的描述文本，场景信息的场景图中至少一个点云}时，预先构建神经网络模型的步骤，包括：获取第一训练样本集，其中，每个所述第一训练样本集包括至少一个第一训练样本，每个所述第一训练样本包括{对第一样本场景信息的第一样本场景图中物体的第一样本描述文本，第一样本场景信息的第一样本场景图中至少一个点云，所述第一样本描述文本中物体的标注坐标和标注尺寸}；根据所述第一训练样本集训练所述神经网络模型，得到第一训练模型参数；以及将所述第一训练模型参数作为所述神经网络模型的模型参数进行应用，其中，所述第一训练模型参数包括对场景信息的场景图中物体的描述文本、场景信息的场景图中至少一个点云以及所述描述文本中物体的坐标和尺寸之间的映射关系，当所述文本场景对包括{针对场景信息的场景图提出的问题文本，场景信息的场景图中至少一个点云}时，预先构建神经网络模型的步骤，包括：获取第二训练样本集，其中，每个所述第二训练样本集包括至少一个第二训练样本，每个所述第二训练样本包括{针对第二样本场景信息的第二样本场景图提出的第二样本问题文本，第二样本场景信息的第二样本场景图中至少一个点云，对所述第二样本问题文本的标注答复文本}；根据所述第二训练样本集训练所述神经网络模型，得到第二训练模型参数；以及将所述第二训练模型参数作为所述神经网络模型的模型参数进行应用，其中，所述第二训练模型参数包括针对场景信息的场景图提...

【专利技术属性】
技术研发人员：诸子钰，李庆，马晓健，黄思远，陈以新，
申请(专利权)人：北京通用人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人