一种基于语言指导采样的指代表达理解方法技术

技术编号：40339956 阅读：10 留言：0更新日期：2024-02-09 14:28

本说明书公开了一种基于语言指导采样的指代表达理解方法，可以获取包括图像、指代表达文本及指代表达文本对应指代目标的真实目标框的训练集，通过视觉特征编码器获取包含语义信息的多尺度视觉特征，通过语言特征编码器提取语言特征，根据语言特征，对多尺度视觉特征进行特征采样，得到采样后特征，将采样后特征与多尺度视觉特征进行融合，得到目标特征，根据语言特征以及目标特征，对指代表达文本所指代的图像中的位置进行预测，得到预测目标框，从而对整体的网络进行训练，本发明专利技术基于语言指导采样，在语言特征的指导下，能够自适应地采样与语言特征相关的视觉特征，从而提升指代表达理解网络的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及指代表达理解，尤其涉及一种基于语言指导采样的指代表达理解方法。

技术介绍

1、指代表达理解的任务目标是根据指代表达文本的描述信息，在图像中定位到相关目标的位置。该任务涉及视觉图像和语言两种模态，为了避免推理的歧义性，其关键问题在于对齐语言及相关的视觉目标区域，从而为下游任务如视觉问答，图像描述，视觉语言导航等提供帮助。另外，该项技术可用于机器人领域，帮助机器人对复杂指令进行更好的理解，服务于意图理解和自主决策。

2、现有的指代表达理解的方法主要分为三种：两阶段、一阶段和基于transformer的指代表达理解方法。其中，两阶段和一阶段方法基于目标检测框架来实现指代表达理解，因此它们的性能依赖事先生成的区域候选框或者提前设计好的锚框，并且其使用的多模态融合方式是非常简单的，如级联，相加等，虽然这种简单的融合方式是有效的，但是对于长而复杂的指代表达文本的理解能力不足。而基于transformer的指代表达理解方法，借助transformer强大的表达能力，将视觉和语言特征充分融合，并且抛弃两阶段和一阶段在候选框上做预测的这种间接的方式，直接回归目标的坐标，取得了非常不错的效果。尽管如此，此类方法在进行多模态特征融合的时候，考虑了不相关视觉区域的特征，在获得有利于指代表达理解的代表性特征的同时，也引入了噪声，从而限制了指代表达理解网络的性能。

技术实现思路

1、本说明书提供一种基于语言指导采样的指代表达理解方法，以部分的解决现有技术存在的上述问题。

3、本说明书提供了一种基于语言指导采样的指代表达理解方法，包括：

4、获取训练集，训练集中样本包括图像、指代表达文本及所述指代表达文本对应指代目标的真实目标框；

5、对图像进行预处理，将预处理后的图像输入到指代表达理解网络中的视觉特征编码器获取包含语义信息的多尺度视觉特征；

6、对指代表达文本进行预处理，将预处理后的文本输入到指代表达理解网络中的语言特征编码器提取语言特征；

7、根据所述语言特征，对所述多尺度视觉特征进行特征采样，得到采样后特征，将所述采样后特征与所述多尺度视觉特征进行融合，得到目标特征；

8、根据所述语言特征以及所述目标特征，通过所述指代表达理解网络对所述指代表达文本所指代的图像中的位置进行预测，得到预测目标框，以最小化所述预测目标框与所述真实目标框之间的差异为优化目标，对所述指代表达理解网络进行训练。

9、可选地，根据所述语言特征，对所述多尺度视觉特征进行特征采样，得到采样后特征，具体包括：

10、确定所述语言特征与所述多尺度视觉特征之间的特征相似度，并通过所述特征相似度对所述多尺度视觉特征进行增强，得到增强后特征；

11、从所述增强后特征进行采样得到初始采样点，并将所述增强后特征输入到所述指代表达理解网络中的偏移网络中，生成针对所述初始采样点的偏移结果；

12、根据所述初始采样点以及所述偏移结果，确定目标采样点，并根据所述目标采样点对所述多尺度视觉特征进行特征采样，得到采样后特征。

13、可选地，所述视觉特征编码器包含补丁提取层和各视觉特征提取层；

14、将预处理后的图像输入到指代表达理解网络中的视觉特征编码器获取包含语义信息的多尺度视觉特征，具体包括：

15、首先将图像输入到所述视觉特征编码器中，得到若干不同尺度的视觉特征，所述若干不同尺度的视觉特征的数量与所述视觉特征提取层的数量相对应；

16、将高层的低分辨率特征进行最邻近插值，并与低层的高分辨率特征进行相加，得到包含语义信息的多尺度视觉特征。

17、可选地，所述指代表达理解网络中包括若干采样模块；

18、根据所述语言特征，对所述多尺度视觉特征进行特征采样，得到采样后特征，将所述采样后特征与所述多尺度视觉特征进行融合，得到目标特征，具体包括：

19、在第i个采样模块中，确定所述语言特征fcls与多尺度视觉特征之间的相似度，得到相似度图si，将所述相似度图si与原始的多尺度视觉特征相乘，得到增强后的视觉特征f′i；在增强后的视觉特征上利用均匀采样，获取初始的参考点r；将增强后的视觉特征输入到由两层卷积层组成的偏移网络φ中，产生对于初始采样点的偏移δr；将初始参考点与偏移相加，得到最终的采样点r+δr；基于最终的采样点，将对应位置的视觉特征采样出来，得到特征然后将与下一层特征进行相加，得到特征接着将送入第i+1个采样模块进行采样和融合。迭代此过程，得到融合了低层目标位置信息和高层语义信息的特征使用最大池化得到将和的特征进行平铺，并级联起来，得到所述目标特征pv，n为多尺度视觉特征中包含的视觉特征的数量。

20、可选地，对图像进行预处理，具体包括：

21、对图像进行数据增强，得到增强后的图像，数据增强的方式包括随机缩放和裁剪，随机改变图像的亮度、对比度和饱和度，随机水平翻转中的至少一种；

22、对增强后的图像进行归一化，并通过填充像素调整为固定的尺寸大小，得到预处理后的图像。

23、可选地，对指代表达文本进行预处理，具体包括：

24、使用分词器对指代表达文本进行序列化；在指代表达文本的开头添加第一信息[cls]，用来表示整体文本的语义信息，在指代表达文本的结尾添加第二信息[sep]，标志文本的结束，通过截断或者补全的方式将文本长度设置为固定值，根据分词器中的词典将文本token转换为数字id，进行向量化，设计掩码，对补全的单词进行遮盖，以得到预处理后的文本。

25、可选地，所述指代表达理解网络中还包括多模态特征编码器以及预测网络；

26、根据所述语言特征以及所述目标特征，通过所述指代表达理解网络对所述指代表达文本所指代的图像中的位置进行预测，得到预测目标框，具体包括：

27、将预设的初始多模态特征与所述语言特征和所述目标特征进行拼接，输入到所述多模态特征编码器，以得到更新后的多模态特征；

28、将所述更新后的多模态特征输入到所述预测网络中，得到预测目标框。

29、本说明书提供了一种基于语言指导采样的指代表达理解装置，包括：

30、获取模块，用于获取训练集，训练集中样本包括图像、指代表达文本及所述指代表达文本对应指代目标的真实目标框；

31、图像预处理模块，用于对图像进行预处理，将预处理后的图像输入到指代表达理解网络中的视觉特征编码器获取包含语义信息的多尺度视觉特征；

32、文本预处理模块，用于对指代表达文本进行预处理，将预处理后的文本输入到指代表达理解网络中的语言特征编码器提取语言特征；

33、特征采样模块，用于根据所述语言特征，对所述多尺度视觉特征进行特征采样，得到采样后特征，将所述采样后特征与所述多尺度视觉特征进行融合，得到目标特征；

34、训练模块，本文档来自技高网...

【技术保护点】

1.一种基于语言指导采样的指代表达理解方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，根据所述语言特征，对所述多尺度视觉特征进行特征采样，得到采样后特征，具体包括：

3.如权利要求1所述的方法，其特征在于，所述视觉特征编码器包含补丁提取层和各视觉特征提取层；

4.如权利要求3所述的方法，其特征在于，所述指代表达理解网络中包括若干采样模块；

5.如权利要求1所述的方法，其特征在于，对图像进行预处理，具体包括：

6.如权利要求1所述的方法，其特征在于，对指代表达文本进行预处理，具体包括：

7.如权利要求2所述的方法，其特征在于，所述指代表达理解网络中还包括多模态特征编码器以及预测网络；

8.一种基于语言指导采样的指代表达理解装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～7任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的

...

【技术特征摘要】

1.一种基于语言指导采样的指代表达理解方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，根据所述语言特征，对所述多尺度视觉特征进行特征采样，得到采样后特征，具体包括：

3.如权利要求1所述的方法，其特征在于，所述视觉特征编码器包含补丁提取层和各视觉特征提取层；

4.如权利要求3所述的方法，其特征在于，所述指代表达理解网络中包括若干采样模块；

5.如权利要求1所述的方法，其特征在于，对图像进行预处理，具体包括：

6.如权利要求1所述的方法，其特征在于，对指代表达文...

【专利技术属性】
技术研发人员：张格格，宋伟，金天磊，郭方泰，袭向明，姜娜，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人