【技术实现步骤摘要】
本说明书涉及指代表达理解,尤其涉及一种基于语言指导采样的指代表达理解方法。
技术介绍
1、指代表达理解的任务目标是根据指代表达文本的描述信息,在图像中定位到相关目标的位置。该任务涉及视觉图像和语言两种模态,为了避免推理的歧义性,其关键问题在于对齐语言及相关的视觉目标区域,从而为下游任务如视觉问答,图像描述,视觉语言导航等提供帮助。另外,该项技术可用于机器人领域,帮助机器人对复杂指令进行更好的理解,服务于意图理解和自主决策。
2、现有的指代表达理解的方法主要分为三种:两阶段、一阶段和基于transformer的指代表达理解方法。其中,两阶段和一阶段方法基于目标检测框架来实现指代表达理解,因此它们的性能依赖事先生成的区域候选框或者提前设计好的锚框,并且其使用的多模态融合方式是非常简单的,如级联,相加等,虽然这种简单的融合方式是有效的,但是对于长而复杂的指代表达文本的理解能力不足。而基于transformer的指代表达理解方法,借助transformer强大的表达能力,将视觉和语言特征充分融合,并且抛弃两阶段和一阶段在候选框上做预
...【技术保护点】
1.一种基于语言指导采样的指代表达理解方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,根据所述语言特征,对所述多尺度视觉特征进行特征采样,得到采样后特征,具体包括:
3.如权利要求1所述的方法,其特征在于,所述视觉特征编码器包含补丁提取层和各视觉特征提取层;
4.如权利要求3所述的方法,其特征在于,所述指代表达理解网络中包括若干采样模块;
5.如权利要求1所述的方法,其特征在于,对图像进行预处理,具体包括:
6.如权利要求1所述的方法,其特征在于,对指代表达文本进行预处理,具体包括:
...【技术特征摘要】
1.一种基于语言指导采样的指代表达理解方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,根据所述语言特征,对所述多尺度视觉特征进行特征采样,得到采样后特征,具体包括:
3.如权利要求1所述的方法,其特征在于,所述视觉特征编码器包含补丁提取层和各视觉特征提取层;
4.如权利要求3所述的方法,其特征在于,所述指代表达理解网络中包括若干采样模块;
5.如权利要求1所述的方法,其特征在于,对图像进行预处理,具体包括:
6.如权利要求1所述的方法,其特征在于,对指代表达文...
【专利技术属性】
技术研发人员:张格格,宋伟,金天磊,郭方泰,袭向明,姜娜,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。