当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于解耦和干预的图网络对齐短语和图片区域的方法技术

技术编号:26764530 阅读:42 留言:0更新日期:2020-12-18 23:40
本发明专利技术公开了一种基于解耦和干预的图网络对齐短语和图片区域的方法,属于图像数据处理领域。该方法先提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征,并利用视觉场景图和语法解析树分别得到视觉和文本语义图结构;然后将视觉和文本图结构通过基于解耦和干预的图神经网络后得到包含图结构中邻居关系的视觉候选区域和文本短语特征;最后通过跨模态的自注意力机制进行对齐映射,并根据对齐后的内积判断指定短语和视觉区域的对齐结果。本发明专利技术结合解耦和干预的图神经网络方法,能够学习到更加可解释和鲁棒的视觉和文本特征,从而利用包含图结构环境关系的特征实现跨模态对齐,完成短语到图片区域的定位。

【技术实现步骤摘要】
一种基于解耦和干预的图网络对齐短语和图片区域的方法
本专利技术属于图像数据处理领域,尤其涉及计算机视觉中的一种对齐短语和图片区域的方法。
技术介绍
视觉语言(VisionandLanguage)是一门计算机视觉与自然语言处理为一体的交叉学科。对齐图片描述中名词短语和图片区域(PhraseGrounding)是视觉语言中一项基本任务,给定一组图片和对应文本描述,将文本句子中的名词性短语定位到与之对应视觉图片的候选区域,完成跨模态对齐。该任务可以连接视觉和文本知识,能够服务于视觉问答、视觉导航、常识推理等诸多跨模态任务。对于给定的一组图片和对应描述句子,文本句子一般不能够全面的反应图片中视觉信息,因此一种通用的解决方法是共同学习图片中视觉物体和它周围的环境信息,然后将集成了环境信息的视觉物体表征和文本短语特征进行匹配,完成对齐。传统的方法要么是每个短语单独地定位到对应图片区域,要么是利用文本中短语的顺序序列化地定位图片中视觉区域,这些方法忽略了视觉或文本中环境信息从而造成错误的结果。随着图神经网络在深度学习领域地成功实践,最近的方法建立文本的图结构(结点表示短语,边表示短语之间的潜在关系)或视觉的图结构(结点表示物体,边表示物体之间的潜在关系),利用图神经网络学习短语和图片区域的表征,最后计算它们之间的相似度完成对齐。但是上述基于图神经网络的方法在建立文本和视觉图结构的时候采用的是全连接图结构,忽略了结点之间是否真实存在语义关系,保留的噪音关系对模型造成了错误信息的传递;此外在上述图神经网络方法中,对图中结点不同邻居关系统一对待,最后自我结点学习到的表征是包含所有邻居结点关系信息的混合,这种包含混合关系的特征不能很好地提供跨模态对齐的解释;在大数据时代海量数据驱动神经网络的训练,数据中难免存在噪音和偏执,如果混合特征中某类关系经常出现,模型就忽视了不常见的关系模式,导致通用性和鲁棒性的下降。
技术实现思路
本专利技术的目的是为了实现跨模态的对齐,提出一种基于解耦和干预的图网络对齐短语和图片区域的方法,预期在给定一组图片和对应文本描述的条件下,将句子中名词性短语标的到视觉图片候选区域中。为了实现上述专利技术目的,本专利技术具体采用如下技术方案:一种基于解耦和干预的图网络对齐短语和图片区域的方法,其包括如下步骤:S1:提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征,并分别利用视觉场景图和语法分析树得到以图片候选区域为结点的视觉语义图结构和以句子中名词性短语为结点的文本语义图结构;S2:将视觉语义图结构和文本语义图结构分别通过基于解耦和干预的图神经网络,得到包含图结构中分类邻居关系的解耦视觉特征和解耦文本特征;S3:通过跨模态的自注意力机制,将解耦视觉特征和解耦文本特征映射到同一子空间进行对齐;针对目标名词性短语,计算该名词性短语对齐后的解耦文本特征与图片中每个候选区域对齐后解耦文本特征之间的内积,以内积代表定位概率得到目标名词性短语和图片区域的对齐结果。作为优选,所述S1的具体步骤如下:S11:使用特征提取模型提取图片中候选区域的视觉特征;S12:使用预训练的语言模型从图片的文本描述句子中提取名词性短语的文本特征;S13:将图片候选区域输入场景图生成模型中得到视觉场景图,图中结点表示候选区域特征,结点之间的边表示候选区域间存在的视觉语义关系;S14:将图片描述句子输入语法分析器中得到文本场景图,图中结点表示名词性短语特征,结点之间的边表示短语间存在的文本语法关系。进一步的,所述特征提取模型为FasterR-CNN模型。进一步的,所述语言模型为Bert模型。更进一步的,所述S2的具体步骤如下:S21:对于视觉场景图,利用解耦图神经网络将每个候选区域视觉特征作为原始结点先分块为K个子部份,再将K个子部份一一对应初始化映射到K个子空间,其中第k个子空间初始化后的视觉特征为:其中:k=1,…,K,Wk和bk分别表示映射到第k个子空间的权重和偏置,||•||2表示L2正则化,vi,k表示第i个原始结点vi映射到第k个子空间中的特征表示,σ(•)表示激活函数;S22:将初始化映射到K个子空间中的视觉特征,分别在各自的空间下进行解耦图神经网络的聚合和更新操作,其中聚合时首先分别计算自我结点周围的一度邻居结点在K个子空间下的重要程度,然后在每个子空间下按照重要程度聚合一度邻居结点的解耦分块特征,并将聚合特征作为包含邻居关系的环境信息更新到自我结点的解耦分块特征中并输出;S23:堆叠解耦图神经网络的每一层输出,将第i个结点第k个子部分在每层网络中得到的解耦分块特征相加,得到第i个结点第k个子部分包含邻居关系的解耦结点特征;再把K个子部分的解耦结点特征拼接起来获得第i个结点包含K类邻居关系的解耦视觉特征:S24:对于文本场景图,利用与视觉场景图相同的方法通过解耦图神经网络得到解耦文本特征;其中,用于视觉场景图的解耦图神经网络在训练过程中加入干预机制,其训练样本中含有经过边干扰或者特征干扰的负例;而用于文本场景图的解耦图神经网络在训练过程中不加入干预机制。更进一步的,所述的边干扰是将原始结点之间的边关系打乱,生成用于学习邻居关系的干扰负例。更进一步的,所述的特征干扰是将不同原始结点的解耦分块特征进行相互对调,生成干扰负例。更进一步的,所述S22中,所述解耦图神经网络为一层的解耦图神经网络,其在对初始化映射到K个子空间中的视觉特征进行聚合时,第i个自我结点的第j个一度邻居结点在K个子空间下的重要程度为:更新聚合特征后输出的自我结点的解耦分块特征为:其中Wek和Wnk分别表示自我结点和邻居结点更新参数,为第i个自我节点的一度邻居结点集合。更进一步的,所述S3的具体步骤如下:S31:将S2中解耦和干预后的视觉和文本特征送入跨模态的多头注意力机制中,使包含不同邻居关系的解耦视觉特征和解耦文本特征对齐至同一子空间;S32:计算对齐后的解耦视觉特征和解耦文本特征的内积,得到候选区域和名词短语的相似度,用于表示描述中该名词性短语正确定位到对应图片区域的概率;S33:针对图片描述句子中的待对齐的目标名词性短语,选择图片中所述概率最大的一个候选区域作为其最终定位区域。更进一步的,所述K=1或2或4。本专利技术从文本和视觉图结构的构建、图神经网络算法和模型鲁棒性三点出发,提出了一种基于解耦和干预的图神经网络对齐图片描述中名词短语和图片区域的方法。与现有技术相比,本专利技术的有益效果如下:1)本专利技术采用基于解耦的图神经网络方法,与基于简单图神经网络的短语标的方法相比,具有更好的解释性,可以将表示不同邻居关系的环境信息聚合到不同的分块特征中,通过调整解耦特征分块的个数控制邻居关系的种类。2)本专利技术采用基于干预的特征学习方本文档来自技高网
...

【技术保护点】
1.一种基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,包括如下步骤:/nS1:提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征,并分别利用视觉场景图和语法分析树得到以图片候选区域为结点的视觉语义图结构和以句子中名词性短语为结点的文本语义图结构;/nS2:将视觉语义图结构和文本语义图结构分别通过基于解耦和干预的图神经网络,得到包含图结构中分类邻居关系的解耦视觉特征和解耦文本特征;/nS3:通过跨模态的自注意力机制,将解耦视觉特征和解耦文本特征映射到同一子空间进行对齐;针对目标名词性短语,计算该名词性短语对齐后的解耦文本特征与图片中每个候选区域对齐后解耦文本特征之间的内积,以内积代表定位概率得到目标名词性短语和图片区域的对齐结果。/n

【技术特征摘要】
1.一种基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,包括如下步骤:
S1:提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征,并分别利用视觉场景图和语法分析树得到以图片候选区域为结点的视觉语义图结构和以句子中名词性短语为结点的文本语义图结构;
S2:将视觉语义图结构和文本语义图结构分别通过基于解耦和干预的图神经网络,得到包含图结构中分类邻居关系的解耦视觉特征和解耦文本特征;
S3:通过跨模态的自注意力机制,将解耦视觉特征和解耦文本特征映射到同一子空间进行对齐;针对目标名词性短语,计算该名词性短语对齐后的解耦文本特征与图片中每个候选区域对齐后解耦文本特征之间的内积,以内积代表定位概率得到目标名词性短语和图片区域的对齐结果。


2.根据权利要求1所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,所述S1的具体步骤如下:
S11:使用特征提取模型提取图片中候选区域的视觉特征;
S12:使用预训练的语言模型从图片的文本描述句子中提取名词性短语的文本特征;
S13:将图片候选区域输入场景图生成模型中得到视觉场景图,图中结点表示候选区域特征,结点之间的边表示候选区域间存在的视觉语义关系;
S14:将图片描述句子输入语法分析器中得到文本场景图,图中结点表示名词性短语特征,结点之间的边表示短语间存在的文本语法关系。


3.根据权利要求2所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,所述特征提取模型为FasterR-CNN模型。


4.根据权利要求2所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,所述语言模型为Bert模型。


5.根据权利要求2所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于所述S2的具体步骤如下:
S21:对于视觉场景图,利用解耦图神经网络将每个候选区域视觉特征作为原始结点先分块为K个子部份,再将K个子部份一一对应初始化映射到K个子空间,其中第k个子空间初始化后的视觉特征为:



其中:k=1,…,K,Wk和bk分别表示映射到第k个子空间的权重和偏置,||•||2表示L2正则化,vi,k表示第i个原始结点vi映射到第k个子空间中的特征表示,σ(•)表示激活函数;
S22:将初始化映射到K个子空间中的视觉特征,分别在各自的空间下进行解耦图神经网络的聚合和更新操作,其中聚合时首先分别计算自我结点周围的一度邻居结点在K个子空间下的重要程度,然后在每...

【专利技术属性】
技术研发人员:庄越挺汤斯亮肖俊慕宗燊郁强蒋忆
申请(专利权)人:浙江大学城云科技中国有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1