一种基于CLIP背景知识的图文特征融合方法技术

技术编号:37854597 阅读:21 留言:0更新日期:2023-06-14 22:47
本发明专利技术涉及一种基于CLIP背景知识的图文特征融合方法,属于图文融合信息处理与应用技术领域。首先利用OCR图片文本识别模型,对数据集中的每张图片进行文本提取,并将其添加至输入中。对输入分别使用不同的预训练模型得到向量表示。将各个隐向量串联,然后经过两个Transformer编码器,计算不同模态向量间的关系。之后使用CLIP模型,分别抽取图片和文本的向量,得到富有知识的多模态融合特征。将多模态融合特征串联后输入到全连接层,使用softmax函数进行归一化,由此在CLIP语境下得到了图文的融合特征,完成基于CLIP背景知识的多模态特征融合。本发明专利技术丰富了图片和文本之间的联系,使用OCR增强了图片模态在文本模态上的关系,提升了多模态融合特征的表示程度。提升了多模态融合特征的表示程度。提升了多模态融合特征的表示程度。

【技术实现步骤摘要】
一种基于CLIP背景知识的图文特征融合方法


[0001]本专利技术涉及一种图文特征融合方法,具体涉及一种基于CLIP(Contrastive Language

Image Pre

Training,简称CLIP)预训练模型为背景知识的图文特征融合方法,属于图文融合信息处理与应用


技术介绍

[0002]近年来,图文特征融合被广泛应用于分类、问答等场景领域。常见的融合方法能够有效表示不同模态之间的关系,但是,其特征仍然存在异质和解释性差等问题。而有效的多模态特征融合方法主要用于解决这些问题,其目的是通过特征的融合来进一步增强不同模态特征之间的关联性。
[0003]目前,常用的方法是:通过神经网络或预训练模型来获取不同模态的特征向量,之后再进行融合。典型的多模态特征融合方法可以分为早期融合方法和晚期融合方法。其中,早期融合方法是指在模态特征提取阶段就考虑各模态之间的关系,其常见的有两种做法,一是在图片中抽取有用的实体并将其转换为文本;二是直接通过注意力机制学习不同模态之间的关联。晚期融合方法是本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于CLIP背景知识的图文特征融合方法,其特征在于,包括以下步骤:步骤1:利用OCR图片文本识别模型,对数据集中的每张图片进行文本提取,并将其添加至输入中,输入包括三部分:图片、文本、OCR文本;若提取不到文本,则使用原文本进行填充;步骤2:将步骤1中的输入分别使用不同的预训练模型得到向量表示;其中,图片使用Vision Transformer模型,简称ViT模型,文本和OCR文本使用RoBERTa模型;具体地,步骤2包括以下步骤:步骤2.1:给定任务输入中的一个样本(I
i
,T
i
,O
i
),(I
i
,T
i
,O
i
)∈S,S表示该任务的数据集,I
i
表示图片,T
i
表示文本,O
i
表示OCR得到的文本;使用BERT的词表对O的所有文本进行清洗,过滤掉不成文的单词;步骤2.2:对于图片I,使用预训练的ViT模型,提取其最后一层的隐向量表示H
I
,具体如下:H
I
=ViT(I)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,是预训练模型的输出,R表示一个向量矩阵,l
I
表示图片经过序列化后的长度;步骤2.3:对于文本T和文本O,分别使用两个RoBERTa模型提取最后一层的隐向量H
T
和H
O
,具体如下:H
T
=RoBERTa1(T)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)H
O
=RoBERTa2(O)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,是预训练模型的输出,R表示一个向量矩阵,l
T
、l
O
为文本的长度;步骤3:将步骤2所得的各个隐向量串联,然后经过两个Transformer编码器,计算不同模态向量间的...

【专利技术属性】
技术研发人员:史树敏陈雨涛黄河燕
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1