【技术实现步骤摘要】
一种基于CLIP背景知识的图文特征融合方法
[0001]本专利技术涉及一种图文特征融合方法,具体涉及一种基于CLIP(Contrastive Language
‑
Image Pre
‑
Training,简称CLIP)预训练模型为背景知识的图文特征融合方法,属于图文融合信息处理与应用
技术介绍
[0002]近年来,图文特征融合被广泛应用于分类、问答等场景领域。常见的融合方法能够有效表示不同模态之间的关系,但是,其特征仍然存在异质和解释性差等问题。而有效的多模态特征融合方法主要用于解决这些问题,其目的是通过特征的融合来进一步增强不同模态特征之间的关联性。
[0003]目前,常用的方法是:通过神经网络或预训练模型来获取不同模态的特征向量,之后再进行融合。典型的多模态特征融合方法可以分为早期融合方法和晚期融合方法。其中,早期融合方法是指在模态特征提取阶段就考虑各模态之间的关系,其常见的有两种做法,一是在图片中抽取有用的实体并将其转换为文本;二是直接通过注意力机制学习不同模态之间的 ...
【技术保护点】
【技术特征摘要】
1.一种基于CLIP背景知识的图文特征融合方法,其特征在于,包括以下步骤:步骤1:利用OCR图片文本识别模型,对数据集中的每张图片进行文本提取,并将其添加至输入中,输入包括三部分:图片、文本、OCR文本;若提取不到文本,则使用原文本进行填充;步骤2:将步骤1中的输入分别使用不同的预训练模型得到向量表示;其中,图片使用Vision Transformer模型,简称ViT模型,文本和OCR文本使用RoBERTa模型;具体地,步骤2包括以下步骤:步骤2.1:给定任务输入中的一个样本(I
i
,T
i
,O
i
),(I
i
,T
i
,O
i
)∈S,S表示该任务的数据集,I
i
表示图片,T
i
表示文本,O
i
表示OCR得到的文本;使用BERT的词表对O的所有文本进行清洗,过滤掉不成文的单词;步骤2.2:对于图片I,使用预训练的ViT模型,提取其最后一层的隐向量表示H
I
,具体如下:H
I
=ViT(I)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,是预训练模型的输出,R表示一个向量矩阵,l
I
表示图片经过序列化后的长度;步骤2.3:对于文本T和文本O,分别使用两个RoBERTa模型提取最后一层的隐向量H
T
和H
O
,具体如下:H
T
=RoBERTa1(T)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)H
O
=RoBERTa2(O)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,是预训练模型的输出,R表示一个向量矩阵,l
T
、l
O
为文本的长度;步骤3:将步骤2所得的各个隐向量串联,然后经过两个Transformer编码器,计算不同模态向量间的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。