【技术实现步骤摘要】
一种基于解耦和干预的图网络对齐短语和图片区域的方法
本专利技术属于图像数据处理领域,尤其涉及计算机视觉中的一种对齐短语和图片区域的方法。
技术介绍
视觉语言(VisionandLanguage)是一门计算机视觉与自然语言处理为一体的交叉学科。对齐图片描述中名词短语和图片区域(PhraseGrounding)是视觉语言中一项基本任务,给定一组图片和对应文本描述,将文本句子中的名词性短语定位到与之对应视觉图片的候选区域,完成跨模态对齐。该任务可以连接视觉和文本知识,能够服务于视觉问答、视觉导航、常识推理等诸多跨模态任务。对于给定的一组图片和对应描述句子,文本句子一般不能够全面的反应图片中视觉信息,因此一种通用的解决方法是共同学习图片中视觉物体和它周围的环境信息,然后将集成了环境信息的视觉物体表征和文本短语特征进行匹配,完成对齐。传统的方法要么是每个短语单独地定位到对应图片区域,要么是利用文本中短语的顺序序列化地定位图片中视觉区域,这些方法忽略了视觉或文本中环境信息从而造成错误的结果。随着图神经网络在深度学习领域地成功实践,最近的方法建立文本的图结构(结点表示短语,边表示短语之间的潜在关系)或视觉的图结构(结点表示物体,边表示物体之间的潜在关系),利用图神经网络学习短语和图片区域的表征,最后计算它们之间的相似度完成对齐。但是上述基于图神经网络的方法在建立文本和视觉图结构的时候采用的是全连接图结构,忽略了结点之间是否真实存在语义关系,保留的噪音关系对模型造成了错误信息的传递;此外在上述图神经网络方法中,对图中 ...
【技术保护点】
1.一种基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,包括如下步骤:/nS1:提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征,并分别利用视觉场景图和语法分析树得到以图片候选区域为结点的视觉语义图结构和以句子中名词性短语为结点的文本语义图结构;/nS2:将视觉语义图结构和文本语义图结构分别通过基于解耦和干预的图神经网络,得到包含图结构中分类邻居关系的解耦视觉特征和解耦文本特征;/nS3:通过跨模态的自注意力机制,将解耦视觉特征和解耦文本特征映射到同一子空间进行对齐;针对目标名词性短语,计算该名词性短语对齐后的解耦文本特征与图片中每个候选区域对齐后解耦文本特征之间的内积,以内积代表定位概率得到目标名词性短语和图片区域的对齐结果。/n
【技术特征摘要】
1.一种基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,包括如下步骤:
S1:提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征,并分别利用视觉场景图和语法分析树得到以图片候选区域为结点的视觉语义图结构和以句子中名词性短语为结点的文本语义图结构;
S2:将视觉语义图结构和文本语义图结构分别通过基于解耦和干预的图神经网络,得到包含图结构中分类邻居关系的解耦视觉特征和解耦文本特征;
S3:通过跨模态的自注意力机制,将解耦视觉特征和解耦文本特征映射到同一子空间进行对齐;针对目标名词性短语,计算该名词性短语对齐后的解耦文本特征与图片中每个候选区域对齐后解耦文本特征之间的内积,以内积代表定位概率得到目标名词性短语和图片区域的对齐结果。
2.根据权利要求1所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,所述S1的具体步骤如下:
S11:使用特征提取模型提取图片中候选区域的视觉特征;
S12:使用预训练的语言模型从图片的文本描述句子中提取名词性短语的文本特征;
S13:将图片候选区域输入场景图生成模型中得到视觉场景图,图中结点表示候选区域特征,结点之间的边表示候选区域间存在的视觉语义关系;
S14:将图片描述句子输入语法分析器中得到文本场景图,图中结点表示名词性短语特征,结点之间的边表示短语间存在的文本语法关系。
3.根据权利要求2所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,所述特征提取模型为FasterR-CNN模型。
4.根据权利要求2所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,所述语言模型为Bert模型。
5.根据权利要求2所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于所述S2的具体步骤如下:
S21:对于视觉场景图,利用解耦图神经网络将每个候选区域视觉特征作为原始结点先分块为K个子部份,再将K个子部份一一对应初始化映射到K个子空间,其中第k个子空间初始化后的视觉特征为:
其中:k=1,…,K,Wk和bk分别表示映射到第k个子空间的权重和偏置,||•||2表示L2正则化,vi,k表示第i个原始结点vi映射到第k个子空间中的特征表示,σ(•)表示激活函数;
S22:将初始化映射到K个子空间中的视觉特征,分别在各自的空间下进行解耦图神经网络的聚合和更新操作,其中聚合时首先分别计算自我结点周围的一度邻居结点在K个子空间下的重要程度,然后在每...
【专利技术属性】
技术研发人员:庄越挺,汤斯亮,肖俊,慕宗燊,郁强,蒋忆,
申请(专利权)人:浙江大学,城云科技中国有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。