一种基于多模态多层次统一交互的短语定位识别方法技术

技术编号:27142064 阅读:32 留言:0更新日期:2021-01-27 21:21
本发明专利技术公开了一种基于多模态多层次统一交互的短语定位识别方法,包括:构建预训练机器阅读模型和预训练目标检测模型;获取图片和针对图片的文字说明;利用预训练机器阅读模型提取文字说明中各个短语基于上下文的文本特征;利用预训练目标检测模型提取图片中的多个图像候选位置,并对图像候选位置对应的低维特征进行优化处理;利用注意力算法模拟各个短语与各个图像候选位置之间的交互;基于交互结果计算各个短语与图像候选位置之间的特征相似度,并以特征相似度作为键值确定各个短语的定位决策结果;利用深度集合模型对各个短语的定位决策结果进行整合和正则化处理。本发明专利技术大大提高短语定位识别的精确度,且更具鲁棒性。且更具鲁棒性。且更具鲁棒性。

【技术实现步骤摘要】
一种基于多模态多层次统一交互的短语定位识别方法


[0001]本专利技术涉及计算机视觉技术和深度学习
,更具体的说是涉及一种基于多模态多层次统一交互的短语定位识别方法。

技术介绍

[0002]多模态机器学习是指通过机器学习的方法实现处理和理解多源模态信息的能力,如图像、视频、音频、语义之间的多模态学习。现有技术中,图像和文字之间的交互仅仅单纯考虑了图像信息内部的交互或文字信息内部的交互,并没有将语言和图像信息之间的跨模态交互和多个短语的决策过程之间的彼此交互考虑进来,因此,现有技术中,在文字描述或者图像信息较为复杂时,无法准确找到输入短语在图像中的定位。
[0003]因此,如何提供一种你能够实现短语在图像中的定位识别的基于多模态多层次统一交互的短语定位识别算法是本领域技术人员亟需解决的问题。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种基于多模态多层次统一交互的短语定位识别方法,将文本和图像信息之间的跨模态交互以及多个输入短语的定位决策之间的相互作用纳入了最终定位决策过程的考虑范围内,从而更好地应对复杂或高难度输入的情况,同时能够大大提高短语定位识别的精确度。
[0005]为了实现上述目的,本专利技术采用如下技术方案:
[0006]一种基于多模态多层次统一交互的短语定位识别方法,包括:
[0007]构建预训练机器阅读模型和预训练目标检测模型;
[0008]获取图片和针对所述图片的文字说明;
[0009]利用所述预训练机器阅读模型提取所述文字说明中各个短语基于上下文的文本特征;
[0010]利用所述预训练目标检测模型提取所述图片中的多个图像候选位置,并对所述图像候选位置对应的低维特征进行优化处理;
[0011]利用注意力算法模拟各个所述短语与各个所述图像候选位置之间的交互;
[0012]基于交互结果计算各个所述短语与所述图像候选位置之间的特征相似度,并以所述特征相似度作为键值确定各个所述短语的定位决策结果;
[0013]利用深度集合模型对各个所述短语的定位决策结果进行整合和正则化处理。
[0014]经由上述的技术方案可知,与现有技术相比,本专利技术具有以下有益效果:
[0015]首先,在文字信息部分,利用预训练机器阅读模型提取基于上下文的文本特征,从而能够高效地将文本信息映射到低维空间中并充分利用每个短语的上下文信息。
[0016]其次,在图像信息部分,利用预训练目标检测模型为图像提取出多个候选位置及其低维特征表示,再通过局部和全局注意力机制优化候选位置的低维特征,补全因为预训练模型不足导致缺失的特征信息,从而避免预训练目标检测模型的缺陷过多地影响到后续
的决策过程。
[0017]再次,基于文字和图像这两个模态的信息,利用注意力算法模拟短语和图像候选位置之间的交互。利用注意力算法计算得到的注意力图,为每一个短语和每一个图像侯选位置生成了其在另一个模态对应的上下文信息,并利用这一上下文信息优化特征。
[0018]最后,本专利技术利用上一步的交互结果计算各个短语和图像候选位置的特征相似度,并以此作为键值对候选进行定位。同时,将所有输入短语的定位结果利用深度集合模型整合起来做正则化处理。通过正则化处理方式,不同短语的定位结果能够同时影响到正则化处理的优化目标,从而将这些短语的定位决策之间的互动纳入了优化范围。这样,深度集合模型不再仅仅针对独立的短语定位进行优化,而是以同时定位所有短语为目标,这使得本专利技术算法更具鲁棒性。
[0019]优选的,在上述一种基于多模态多层次统一交互的短语定位识别方法中,所述预训练机器阅读模型为在海量无标注文本上训练得到的BERT模型。
[0020]优选的,在上述一种基于多模态多层次统一交互的短语定位识别方法中,所述预训练目标检测模型为在Visual-Genome数据库上预训练得到的,并使用ResNet-101作为backbone。
[0021]优选的,在上述一种基于多模态多层次统一交互的短语定位识别方法中,利用局部注意力机制和全局注意力机制优化所述图像候选位置的低维特征。
附图说明
[0022]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0023]图1附图为本专利技术提供的基于多模态多层次统一交互的短语定位识别方法流程图;
[0024]图2附图为本专利技术提供的基于多模态多层次统一交互的短语定位识别方法的跨模态交互过程的整体结构示意图;
[0025]图3附图为本专利技术提供的基于多模态多层次统一交互的短语定位识别方法的第一阶段中图像模态内部的交互过程的结构示意图;
[0026]图4附图为本专利技术提供的基于多模态多层次统一交互的短语定位识别方法的第一阶段中文字模态内部的交互过程的结构示意图;
[0027]图5附图为本专利技术提供的第二阶段中跨模态交互过程的结构示意图;
[0028]图6附图为本专利技术提供的第三阶段决策结果的计算过程的结构示意图;
[0029]图7附图为本专利技术提供的基于多模态多层次统一交互的短语定位识别方法的可视化跨模态交互结果;
[0030]图8附图为本专利技术提供的基于多模态多层次统一交互的短语定位识别方法在Flickr30K数据集和ReferItGame数据集上的接地识别结果。
具体实施方式
[0031]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]如图1所示,本专利技术实施例公开了一种基于多模态多层次统一交互的短语定位识别方法,包括以下步骤:
[0033]S1、构建预训练机器阅读模型和预训练目标检测模型;
[0034]S2、获取图片和针对图片的文字说明;
[0035]S3、利用预训练机器阅读模型提取文字说明中各个短语基于上下文的文本特征;
[0036]S4、利用预训练目标检测模型提取图片中的多个图像候选位置,并对图像候选位置对应的低维特征进行优化处理;
[0037]S5、利用注意力算法模拟各个短语与各个图像候选位置之间的交互;
[0038]S6、基于交互结果计算各个短语与图像候选位置之间的特征相似度,并以特征相似度作为键值确定各个短语的定位决策结果;
[0039]S7、利用深度集合模型对各个短语的定位决策结果进行整合和正则化处理。
[0040]具体的,S1中预训练机器阅读模型为在海量无标注文本上训练得到的BERT模型。预训练目标检测模型为在Visual-Genome数据库上预训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态多层次统一交互的短语定位识别方法,其特征在于,包括:构建预训练机器阅读模型和预训练目标检测模型;获取图片和针对所述图片的文字说明;利用所述预训练机器阅读模型提取所述文字说明中各个短语基于上下文的文本特征;利用所述预训练目标检测模型提取所述图片中的多个图像候选位置,并对所述图像候选位置对应的低维特征进行优化处理;利用注意力算法模拟各个所述短语与各个所述图像候选位置之间的交互;基于交互结果计算各个所述短语与所述图像候选位置之间的特征相似度,并以所述特征相似度作为键值确定各个所述短语的定位决策结果;利用深度集合模型对各个所述短语的定...

【专利技术属性】
技术研发人员:刘偲余天予惠天瑞廖越余志浩
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1