当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于语言指导采样的指代表达理解方法技术

技术编号:40339956 阅读:27 留言:0更新日期:2024-02-09 14:28
本说明书公开了一种基于语言指导采样的指代表达理解方法,可以获取包括图像、指代表达文本及指代表达文本对应指代目标的真实目标框的训练集,通过视觉特征编码器获取包含语义信息的多尺度视觉特征,通过语言特征编码器提取语言特征,根据语言特征,对多尺度视觉特征进行特征采样,得到采样后特征,将采样后特征与多尺度视觉特征进行融合,得到目标特征,根据语言特征以及目标特征,对指代表达文本所指代的图像中的位置进行预测,得到预测目标框,从而对整体的网络进行训练,本发明专利技术基于语言指导采样,在语言特征的指导下,能够自适应地采样与语言特征相关的视觉特征,从而提升指代表达理解网络的性能。

【技术实现步骤摘要】

本说明书涉及指代表达理解,尤其涉及一种基于语言指导采样的指代表达理解方法


技术介绍

1、指代表达理解的任务目标是根据指代表达文本的描述信息,在图像中定位到相关目标的位置。该任务涉及视觉图像和语言两种模态,为了避免推理的歧义性,其关键问题在于对齐语言及相关的视觉目标区域,从而为下游任务如视觉问答,图像描述,视觉语言导航等提供帮助。另外,该项技术可用于机器人领域,帮助机器人对复杂指令进行更好的理解,服务于意图理解和自主决策。

2、现有的指代表达理解的方法主要分为三种:两阶段、一阶段和基于transformer的指代表达理解方法。其中,两阶段和一阶段方法基于目标检测框架来实现指代表达理解,因此它们的性能依赖事先生成的区域候选框或者提前设计好的锚框,并且其使用的多模态融合方式是非常简单的,如级联,相加等,虽然这种简单的融合方式是有效的,但是对于长而复杂的指代表达文本的理解能力不足。而基于transformer的指代表达理解方法,借助transformer强大的表达能力,将视觉和语言特征充分融合,并且抛弃两阶段和一阶段在候选框上做预测的这种间接的方式,本文档来自技高网...

【技术保护点】

1.一种基于语言指导采样的指代表达理解方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,根据所述语言特征,对所述多尺度视觉特征进行特征采样,得到采样后特征,具体包括:

3.如权利要求1所述的方法,其特征在于,所述视觉特征编码器包含补丁提取层和各视觉特征提取层;

4.如权利要求3所述的方法,其特征在于,所述指代表达理解网络中包括若干采样模块;

5.如权利要求1所述的方法,其特征在于,对图像进行预处理,具体包括:

6.如权利要求1所述的方法,其特征在于,对指代表达文本进行预处理,具体包括:

7.如权利要求...

【技术特征摘要】

1.一种基于语言指导采样的指代表达理解方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,根据所述语言特征,对所述多尺度视觉特征进行特征采样,得到采样后特征,具体包括:

3.如权利要求1所述的方法,其特征在于,所述视觉特征编码器包含补丁提取层和各视觉特征提取层;

4.如权利要求3所述的方法,其特征在于,所述指代表达理解网络中包括若干采样模块;

5.如权利要求1所述的方法,其特征在于,对图像进行预处理,具体包括:

6.如权利要求1所述的方法,其特征在于,对指代表达文...

【专利技术属性】
技术研发人员:张格格宋伟金天磊郭方泰袭向明姜娜
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1