一种基于多模态多层次统一交互的短语定位识别方法技术

技术编号：27142064 阅读：32 留言：0更新日期：2021-01-27 21:21

本发明专利技术公开了一种基于多模态多层次统一交互的短语定位识别方法，包括：构建预训练机器阅读模型和预训练目标检测模型；获取图片和针对图片的文字说明；利用预训练机器阅读模型提取文字说明中各个短语基于上下文的文本特征；利用预训练目标检测模型提取图片中的多个图像候选位置，并对图像候选位置对应的低维特征进行优化处理；利用注意力算法模拟各个短语与各个图像候选位置之间的交互；基于交互结果计算各个短语与图像候选位置之间的特征相似度，并以特征相似度作为键值确定各个短语的定位决策结果；利用深度集合模型对各个短语的定位决策结果进行整合和正则化处理。本发明专利技术大大提高短语定位识别的精确度，且更具鲁棒性。且更具鲁棒性。且更具鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态多层次统一交互的短语定位识别方法

[0001]本专利技术涉及计算机视觉技术和深度学习
，更具体的说是涉及一种基于多模态多层次统一交互的短语定位识别方法。

技术介绍

[0002]多模态机器学习是指通过机器学习的方法实现处理和理解多源模态信息的能力，如图像、视频、音频、语义之间的多模态学习。现有技术中，图像和文字之间的交互仅仅单纯考虑了图像信息内部的交互或文字信息内部的交互，并没有将语言和图像信息之间的跨模态交互和多个短语的决策过程之间的彼此交互考虑进来，因此，现有技术中，在文字描述或者图像信息较为复杂时，无法准确找到输入短语在图像中的定位。
[0003]因此，如何提供一种你能够实现短语在图像中的定位识别的基于多模态多层次统一交互的短语定位识别算法是本领域技术人员亟需解决的问题。

技术实现思路

[0004]有鉴于此，本专利技术提供了一种基于多模态多层次统一交互的短语定位识别方法，将文本和图像信息之间的跨模态交互以及多个输入短语的定位决策之间的相互作用纳入了最终定位决策过程的考虑范围内，从而更好地应对复杂或高难度输入的情况，同时能够大大提高短语定位识别的精确度。
[0005]为了实现上述目的，本专利技术采用如下技术方案：
[0006]一种基于多模态多层次统一交互的短语定位识别方法，包括：
[0007]构建预训练机器阅读模型和预训练目标检测模型；
[0008]获取图片和针对所述图片的文字说明；
[0009]利用所述预训练机器阅读模型提取所述文...

【技术保护点】

【技术特征摘要】
1.一种基于多模态多层次统一交互的短语定位识别方法，其特征在于，包括：构建预训练机器阅读模型和预训练目标检测模型；获取图片和针对所述图片的文字说明；利用所述预训练机器阅读模型提取所述文字说明中各个短语基于上下文的文本特征；利用所述预训练目标检测模型提取所述图片中的多个图像候选位置，并对所述图像候选位置对应的低维特征进行优化处理；利用注意力算法模拟各个所述短语与各个所述图像候选位置之间的交互；基于交互结果计算各个所述短语与所述图像候选位置之间的特征相似度，并以所述特征相似度作为键值确定各个所述短语的定位决策结果；利用深度集合模型对各个所述短语的定...

【专利技术属性】
技术研发人员：刘偲，余天予，惠天瑞，廖越，余志浩，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人