【技术实现步骤摘要】
一种基于反事实推理的跨模态检索模型、方法及计算机设备
[0001]本专利技术属于多媒体计算领域,具体涉及一种基于反事实推理的跨模态检索模型、方法及计算机设备。
技术介绍
[0002]伴随着人工智能技术在各个领域的广泛应用,数据呈现形式越来越多样化。文本、图像、视频等多模态数据急剧增长,单一模态数据的信息是有限的,交互的多模态数据能传递更为丰富的信息,同一事物会有多种不同模态数据的描述。这些数据在形式上“异构同源”,而在语义上相互关联,数据内容形式多样化能帮助人对周围世界的感知与理解,因为人们很容易做到不同形式信息对齐与互补从而更加全面准确地学习知识。在人工智能跨模态领域,带来了跨模态检索的迫切需求。跨模态检索是跨模态学习的重要应用之一,又称为跨媒体检索,其特点是训练过程中所有模态的数据都存在,但在测试过程中只有一种模态可用。跨模态检索旨在实现两个不同模态之间的信息交互,其根本目的在于挖掘不同模态样本之间的关系,即通过一种模态样本来检索具有近似语义的另一种模态样本。跨模态检索要求检索集和查询集为不同模态,比如用文本去搜索图片、图片去搜索视频等。如何提取不同模态数据的结构信息以及其深度语义对应关系,进而对其进行建模是提升多模态检索的难点。
[0003]近些年来随着因果关系论在深度学习领域的应用,基于因果推理的反事实方法在多模态领域开始被用来不同模态数据间的深层次语义对齐关系。目前已经在很多跨模态子任务比如VQA(Visual Question Answering)中取得了非常好的效果。因果关系具有较强的可解释性, ...
【技术保护点】
【技术特征摘要】
1.一种基于反事实推理的跨模态检索模型,其特征在于,该模型由以下步骤得到:S1、分别提取原始的图片特征和文本特征,将得到的图片特征和文本特征独立映射到同一维度之后,各自用四层transformer构成的图片特征编码器和文本特征编码器得到特征向量,将得到的图片特征向量和文本特征向量使用一个两层Transformer进行高层次语义对齐,使得图片特征向量和文本特征向量映射到同一个公共空间,通过计算损失来优化;然后将图片特征和原始文本使用反事实推理方法进行处理,使用识别到的图像区域标签,与从原始文本中提取到的名词进行比较,为后续三种对比学习(实例级、图像级、语义级)提供构造正负样本的系数矩阵;S2、使用反事实推理构建实例级的正负样本,使模型能够关注视觉图片中物体的细节信息;S3,利用反事实生成图像级的正负样本,使模型能够关注图片全局场景信息;S4,使用反事实生成文本在语义级的反事实样本,构建语义级的对比学习,使模型能够跨模态语义关系;S5,融合上述过程,得到基于反事实推理的跨模态检索模型。2.根据权利要求1所述的一种基于反事实推理的跨模态检索模型,其特征在于,所述S1的具体实现包括:S1.1:对训练数据中的每一张图片I以及其对应的文本表述E,提取其文本特征图像特征位置特征以及图片的对象区域标签这里D
q
,D
v
代表文本特征和图像特征的维度,D
s
代表图片标注出来的标签区域数量,即这张图片所有被识别出来的对象的轮廓区域(不一定是矩形)。D
n
代表从图像中提取到的局部区域数量,D
p
表示为局部区域的位置特征维度,D
l
代表句子的长度;图像特征通过Faster
‑
RCNN进行提取,得到36(即D
n
=36)个区域视觉特征,之后将其连接在一起作为图像特征V。每个区域视觉特征的维度为2048(即D
v
=2048),位置特征P包含每个特征区域的左上角坐标和右下角坐标以及区域的面积。D
p
为5。其中x1,y1,x2,y2分别是区域左上角坐标和区域右下角坐标,W,H分别表示图片的宽度和高度;文本特征T通过BERT提取,得到768维文本特征(即D
q
=768),T
F
=FC
t
(Bert(T))#(3)FC
v
和FC
t
表示两个独立的全连接层、Bert表示Bert模型、表示将前后两个值在相同维度上连接起来,D
e
=1024;构建一个包含各自用四层Transformer构成的图片特征编码器和文本特征编码器、用来进行高级语义特征对齐的两层参数共享的Transformer结构的基本的跨模态检索模型;将图像特征和文本特征经过式(2)(3)处理之后得到的V
F
和T
F
输入创建的基本跨模态检索模型中,将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量,建立三元组损失函数作为图像和文本对齐的损失函数:
其中t,x表示为正样本对,t
‑
,x
‑
表示为负样本,即同一批次的其他文本特征和图像特征,α为超参数,[a]
+
=max(a,0),S1.2:提取图像区域标签S,与从原始文本中提取到的名词进行对齐,之后和需要进行掩盖的对象轮廓进行比对,将图像的所有局部特征区域形成的方框长宽各均匀分为14份,取交叉点共计196个点,然后通过统计落在对象轮廓内部的点的数量除以196来计算该图像区域特征对文本的重要系数,再将所有值连接起来构成系数矩阵如式(5)所示,其中F
i
值越小表示区域特征V
i
越重要。P
i
表示区域i的位置特征,表示...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。