一种基于反事实推理的跨模态检索模型、方法及计算机设备技术

技术编号:35138437 阅读:49 留言:0更新日期:2022-10-05 10:13
本发明专利技术公开了一种基于反事实推理的跨模态检索模型、方法及计算机设备,包括:提取原始图片和文本的特征,使用反事实对比学习构建样本的正负样本。采用反事实方法分别生成实例级、图像级的正负样本,使模型关注图片细节信息及全局场景信息;生成文本在语义级的反事实样本,构建语义级的对比学习,实现跨模态语义关系;将上述部分融合得到跨模态检索模型并整体训练。本发明专利技术将反事实推理的多级对比学习应用在跨模态检索中,构造文本特征和图片特征对齐模块,对生成反事实样本进行指导,分别在实例级、图像级和语义级构建反事实对比样本,通过反事实对比学习,缓解由于数据集的数据分布不均导致的虚假问题,提升模型的语义对齐能力以及模型准确度。以及模型准确度。以及模型准确度。

【技术实现步骤摘要】
一种基于反事实推理的跨模态检索模型、方法及计算机设备


[0001]本专利技术属于多媒体计算领域,具体涉及一种基于反事实推理的跨模态检索模型、方法及计算机设备。

技术介绍

[0002]伴随着人工智能技术在各个领域的广泛应用,数据呈现形式越来越多样化。文本、图像、视频等多模态数据急剧增长,单一模态数据的信息是有限的,交互的多模态数据能传递更为丰富的信息,同一事物会有多种不同模态数据的描述。这些数据在形式上“异构同源”,而在语义上相互关联,数据内容形式多样化能帮助人对周围世界的感知与理解,因为人们很容易做到不同形式信息对齐与互补从而更加全面准确地学习知识。在人工智能跨模态领域,带来了跨模态检索的迫切需求。跨模态检索是跨模态学习的重要应用之一,又称为跨媒体检索,其特点是训练过程中所有模态的数据都存在,但在测试过程中只有一种模态可用。跨模态检索旨在实现两个不同模态之间的信息交互,其根本目的在于挖掘不同模态样本之间的关系,即通过一种模态样本来检索具有近似语义的另一种模态样本。跨模态检索要求检索集和查询集为不同模态,比如用文本去搜索图片、图片去搜索视频等。如何提取不同模态数据的结构信息以及其深度语义对应关系,进而对其进行建模是提升多模态检索的难点。
[0003]近些年来随着因果关系论在深度学习领域的应用,基于因果推理的反事实方法在多模态领域开始被用来不同模态数据间的深层次语义对齐关系。目前已经在很多跨模态子任务比如VQA(Visual Question Answering)中取得了非常好的效果。因果关系具有较强的可解释性,而基于因果的反事实学习是在假设已经存在一个因果关系结构,通过控制变量的方法得到每次的影子投射结果,就可以对历史中不存在的情况进行分布建模,从而能得到无偏估计。Swaminathan等首先定义了在历史记录中进行反事实学习的机器学习框架,并且针对其模型结构在深度学习上进行推广以及进一步归一化。此外,反事实学习也被扩展在表示学习以及日志学习领域。

技术实现思路

[0004]本专利技术的目的是利用多层级的反事实对比学习来促进模型对多样的图像内容,高层级的文本语义,和复杂的跨模态间关系的联合建模,从而学习更具判别力的特征表示。实现本专利技术的技术方案如下:
[0005]一种基于反事实推理的跨模态检索模型,该模型由以下步骤得到:
[0006]步骤S1,分别使用Faster

RCNN模型和经过预训练的Bert模型来提取原始图片特征和文本特征,将得到的图片特征和文本特征独立映射到同一维度之后,各自用四层 transformer构成的图片特征编码器和文本特征编码器中得到特征向量,将得到的图片特征向量和文本特征向量使用一个两层Transformer进行高层次语义对齐,使得图片特征向量和文本特征向量映射到同一个公共空间,通过计算损失来优化模型。
[0007]然后将图片特征和原始文本使用反事实推理方法进行处理,使用识别到的图像区域标签,与从原始文本中提取到的名词进行比较,为后续三种对比学习(实例级、图像级、语义级)提供构造正负样本的系数矩阵。
[0008]步骤S2,使用反事实推理构建实例级的正负样本,将步骤S1中得到的实例级图片特征和文本特征分别独立映射到同一维度之后,各自用四层transformer构成的图片特征编码器和文本特征编码器中得到特征向量,将得到的图片特征向量和文本特征向量使用一个两层Transformer进行对齐,使得图片特征向量和文本特征向量映射到一个公共空间来构建实例级的对比学习,使得模型感知图像中的视觉物体并学习细粒度的图片文本局部特征对齐,使得模型能感知图片细节信息。
[0009]步骤S3,利用反事实推理生成图像级的正负样本,将步骤S1得到的图像级图片特征和文本特征独立映射到同一维度之后,再使用由四层Transformer构成的图片特征编码器和文本特征编码器中计算得到特征向量,将得到的图片特征向量和文本特征向量使用一个两层Transformer进行处理,将图片特征向量和文本特征向量映射到一个公共空间来构建图像级的对比学习,指导模型学习细粒度的图片文本全局特征对齐,使模型能感知图片全局场景信息。
[0010]步骤S4,使用反事实推理生成文本在语义级的反事实样本,将步骤S1得到的语义级图片特征和文本特征独立映射到同一维度之后,各自用四层Transformer构成的图片特征编码器和文本特征编码器中得到特征向量,将得到的图片特征向量和文本特征向量使用一个两层Transformer进行处理,将图片特征向量和文本特征向量映射到一个公共空间来构建语义级的对比学习中,得到最终的特征向量,并基于这些特征构建图像级的对比学习,指导模型学习细粒度的图片文本全局特征对齐,使模型能够跨模态语义关系。
[0011]步骤S5,将上述所有部分整合到一个统一框架,进行跨模态检索模型的整体训练。
[0012]本专利技术的有益效果:
[0013](1)本专利技术提出了一个多层级反事实对比学习跨模态检索框架,提高了模型对多样化的视觉内容、高层级的文本语义、和复杂的跨模态关系的理解推理能力。
[0014](2)将基于反事实推理的多级对比学习方法应用在跨模态检索中,分别在实例级、图像级和语义级构建反事实对比样本。使得模型能够提取到更具有判别性的特征,从而对图像和语言表达进行全面的理解,提升模型的语义对齐能力。
[0015](3)通过反事实对比学习方法,可以缓解由于数据集的数据分布不均导致的虚假相关问题。
附图说明
[0016]图1是本专利技术基于反事实推理的跨模态检索模型框架图;
[0017]图2是本专利技术构建的基本的跨模态检索模型。
[0018]图3是本专利技术基于反事实推理的跨模态检索方法流程图。
具体实施方式
[0019]本专利技术提出了一种基于反事实推理的跨模态检索模型、方法及计算机设备。利用反事实推理来构建多级别对比学习。根据各对象节点的重要程度来生成反事实正负样本,
在实例级对比学习模块中我们通过在原图像上掩盖重要的对象区域来生成反事实样本 (负样本),原图像作为事实样本(正样本)来进行对比学习。在图像级反事实对比学习模块中将小批量中的其他图像作为反事实样本,掩盖重要性低的对象作为事实样本,使得模型能够着重于学习图像和文本高度相关的区域特征,在语义级通过随机替换文本中的名词来生成反事实样本,原文本作为事实样本并且在使用反事实样本进行对比学习的过程中,可以缓解数据集中可能存在的虚假相关和选择偏差。使得模型能够提取到更具有判别性的特征,从而对图像和语言表达进行全面的理解,提升模型的语义对齐能力,提高模型的精度。
[0020]下面结合附图对本专利技术作进一步说明。
[0021]图1为本专利技术提出的反事实推理的跨模态检索模型的框架图,利用反事实生成对比学习的正负样本,并利用多层级对比学习使模型对丰富的视觉信息和复杂的跨模态关系进行联合建模。具体来说,所述模型由以下步骤得到:
[0022]步骤S1,如图1中的文本特征提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于反事实推理的跨模态检索模型,其特征在于,该模型由以下步骤得到:S1、分别提取原始的图片特征和文本特征,将得到的图片特征和文本特征独立映射到同一维度之后,各自用四层transformer构成的图片特征编码器和文本特征编码器得到特征向量,将得到的图片特征向量和文本特征向量使用一个两层Transformer进行高层次语义对齐,使得图片特征向量和文本特征向量映射到同一个公共空间,通过计算损失来优化;然后将图片特征和原始文本使用反事实推理方法进行处理,使用识别到的图像区域标签,与从原始文本中提取到的名词进行比较,为后续三种对比学习(实例级、图像级、语义级)提供构造正负样本的系数矩阵;S2、使用反事实推理构建实例级的正负样本,使模型能够关注视觉图片中物体的细节信息;S3,利用反事实生成图像级的正负样本,使模型能够关注图片全局场景信息;S4,使用反事实生成文本在语义级的反事实样本,构建语义级的对比学习,使模型能够跨模态语义关系;S5,融合上述过程,得到基于反事实推理的跨模态检索模型。2.根据权利要求1所述的一种基于反事实推理的跨模态检索模型,其特征在于,所述S1的具体实现包括:S1.1:对训练数据中的每一张图片I以及其对应的文本表述E,提取其文本特征图像特征位置特征以及图片的对象区域标签这里D
q
,D
v
代表文本特征和图像特征的维度,D
s
代表图片标注出来的标签区域数量,即这张图片所有被识别出来的对象的轮廓区域(不一定是矩形)。D
n
代表从图像中提取到的局部区域数量,D
p
表示为局部区域的位置特征维度,D
l
代表句子的长度;图像特征通过Faster

RCNN进行提取,得到36(即D
n
=36)个区域视觉特征,之后将其连接在一起作为图像特征V。每个区域视觉特征的维度为2048(即D
v
=2048),位置特征P包含每个特征区域的左上角坐标和右下角坐标以及区域的面积。D
p
为5。其中x1,y1,x2,y2分别是区域左上角坐标和区域右下角坐标,W,H分别表示图片的宽度和高度;文本特征T通过BERT提取,得到768维文本特征(即D
q
=768),T
F
=FC
t
(Bert(T))#(3)FC
v
和FC
t
表示两个独立的全连接层、Bert表示Bert模型、表示将前后两个值在相同维度上连接起来,D
e
=1024;构建一个包含各自用四层Transformer构成的图片特征编码器和文本特征编码器、用来进行高级语义特征对齐的两层参数共享的Transformer结构的基本的跨模态检索模型;将图像特征和文本特征经过式(2)(3)处理之后得到的V
F
和T
F
输入创建的基本跨模态检索模型中,将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量,建立三元组损失函数作为图像和文本对齐的损失函数:
其中t,x表示为正样本对,t

,x

表示为负样本,即同一批次的其他文本特征和图像特征,α为超参数,[a]
+
=max(a,0),S1.2:提取图像区域标签S,与从原始文本中提取到的名词进行对齐,之后和需要进行掩盖的对象轮廓进行比对,将图像的所有局部特征区域形成的方框长宽各均匀分为14份,取交叉点共计196个点,然后通过统计落在对象轮廓内部的点的数量除以196来计算该图像区域特征对文本的重要系数,再将所有值连接起来构成系数矩阵如式(5)所示,其中F
i
值越小表示区域特征V
i
越重要。P
i
表示区域i的位置特征,表示...

【专利技术属性】
技术研发人员:马泽伟张飞飞徐常胜
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1