【技术实现步骤摘要】
本专利技术属于计算机智能处理,尤其是一种基于语言引导的指称表达理解推理网络系统及推理方法。
技术介绍
1、指称表达理解(rec)是视觉和语言领域的一项基本任务,旨在根据自然语言表达定位图像区域,rec要求模型捕捉文本中的关键线索,并执行准确的跨模态推理。
2、为了解决rec任务,一个关键挑战是如何执行准确的跨模态推理:现有技术中,通常采用如下三种方法进行跨模态推理,即:两阶段方法、一阶段方法和基于transformer的rec方法;
3、①两阶段方法:首先从图像中生成一组区域建议,然后使用跨模态相似性度量来测量候选区域与指称表达之间的匹配分数;最后选择具有最高匹配得分的区域作为最终的预测结果。
4、②一阶段方法:通常在提取图像特征的同时执行多模态融合,并直接在预定义的锚点上预测边界框。
5、总的来说,上述两种类型的方法都严重依赖于现成的对象检测器的性能,具体而言,前两类方法分别基于两阶段或一阶段对象检测器;两阶段流程通常首先生成图片的一组区域建议,然后通过检索与给定表达式的匹配得分最高的区
...【技术保护点】
1.基于语言引导的指称表达理解推理网络系统,其特征在于,包括:文本特征提取器、图像特征提取器、文本特征扩展器、文本引导的跨模态对齐模块和文本引导的跨模态融合模块;
2.基于语言引导的指称表达理解推理网络系统的推理方法,其特征在于,包括如下步骤:
3.根据权利要求2所述的基于语言引导的指称表达理解推理网络系统的推理方法,其特征在于,指称表达包括:位置词或对象之间的空间关系,使用空间信息可以有效地增强用于定位的预测词元的空间表示。
4.根据权利要求3所述的基于语言引导的指称表达理解推理网络系统的推理方法,其特征在于,本专利技术模型包括:
...【技术特征摘要】
1.基于语言引导的指称表达理解推理网络系统,其特征在于,包括:文本特征提取器、图像特征提取器、文本特征扩展器、文本引导的跨模态对齐模块和文本引导的跨模态融合模块;
2.基于语言引导的指称表达理解推理网络系统的推理方法,其特征在于,包括如下步骤:
3.根据权利要求2所述的基于语言引导的指称表达理解推理网络系统的推理方法,其特征在于,指称表达包括:位置词或对象之间的空间关系,使用空间信息可以有效地增强用于定位的预测词元的空间表示。
4.根...
【专利技术属性】
技术研发人员:李睿凡,陆明聪,冯方向,马占宇,王小捷,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。