基于语言引导的指称表达理解推理网络系统及推理方法技术方案

技术编号:40537135 阅读:24 留言:0更新日期:2024-03-01 13:59
本发明专利技术提供一种基于语言引导的指称表达理解推理网络系统及推理方法,包括:文本特征提取器、图像特征提取器、文本特征扩展器(TFE)、跨模态对齐模块(TCA)和跨模态融合模块(TCF);通过语言引导推理网络模型(LGR‑NET),以充分利用指称表达式的指导;设置预测标记来捕捉跨模态特征,为了充分利用文本特征,通过文本特征扩展模块(TFE)从三个方面对其进行了扩展,文本生成的坐标嵌入有助于预测词元捕获关键的视觉特征;文本特征用于交替的跨模态推理;新颖的跨模态损失增强了跨模态对齐;如此文本特征从多个角度充分的引导了模型整体的跨模态推理流程,充分利用了文本中的线索,大大提高了模型性能。

【技术实现步骤摘要】

本专利技术属于计算机智能处理,尤其是一种基于语言引导的指称表达理解推理网络系统及推理方法


技术介绍

1、指称表达理解(rec)是视觉和语言领域的一项基本任务,旨在根据自然语言表达定位图像区域,rec要求模型捕捉文本中的关键线索,并执行准确的跨模态推理。

2、为了解决rec任务,一个关键挑战是如何执行准确的跨模态推理:现有技术中,通常采用如下三种方法进行跨模态推理,即:两阶段方法、一阶段方法和基于transformer的rec方法;

3、①两阶段方法:首先从图像中生成一组区域建议,然后使用跨模态相似性度量来测量候选区域与指称表达之间的匹配分数;最后选择具有最高匹配得分的区域作为最终的预测结果。

4、②一阶段方法:通常在提取图像特征的同时执行多模态融合,并直接在预定义的锚点上预测边界框。

5、总的来说,上述两种类型的方法都严重依赖于现成的对象检测器的性能,具体而言,前两类方法分别基于两阶段或一阶段对象检测器;两阶段流程通常首先生成图片的一组区域建议,然后通过检索与给定表达式的匹配得分最高的区域作为最终结果;相反本文档来自技高网...

【技术保护点】

1.基于语言引导的指称表达理解推理网络系统,其特征在于,包括:文本特征提取器、图像特征提取器、文本特征扩展器、文本引导的跨模态对齐模块和文本引导的跨模态融合模块;

2.基于语言引导的指称表达理解推理网络系统的推理方法,其特征在于,包括如下步骤:

3.根据权利要求2所述的基于语言引导的指称表达理解推理网络系统的推理方法,其特征在于,指称表达包括:位置词或对象之间的空间关系,使用空间信息可以有效地增强用于定位的预测词元的空间表示。

4.根据权利要求3所述的基于语言引导的指称表达理解推理网络系统的推理方法,其特征在于,本专利技术模型包括:N层堆叠的TCA和T...

【技术特征摘要】

1.基于语言引导的指称表达理解推理网络系统,其特征在于,包括:文本特征提取器、图像特征提取器、文本特征扩展器、文本引导的跨模态对齐模块和文本引导的跨模态融合模块;

2.基于语言引导的指称表达理解推理网络系统的推理方法,其特征在于,包括如下步骤:

3.根据权利要求2所述的基于语言引导的指称表达理解推理网络系统的推理方法,其特征在于,指称表达包括:位置词或对象之间的空间关系,使用空间信息可以有效地增强用于定位的预测词元的空间表示。

4.根...

【专利技术属性】
技术研发人员:李睿凡陆明聪冯方向马占宇王小捷
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1