一种基于CLIP背景知识的图文特征融合方法技术

技术编号：37854597 阅读：21 留言：0更新日期：2023-06-14 22:47

本发明专利技术涉及一种基于CLIP背景知识的图文特征融合方法，属于图文融合信息处理与应用技术领域。首先利用OCR图片文本识别模型，对数据集中的每张图片进行文本提取，并将其添加至输入中。对输入分别使用不同的预训练模型得到向量表示。将各个隐向量串联，然后经过两个Transformer编码器，计算不同模态向量间的关系。之后使用CLIP模型，分别抽取图片和文本的向量，得到富有知识的多模态融合特征。将多模态融合特征串联后输入到全连接层，使用softmax函数进行归一化，由此在CLIP语境下得到了图文的融合特征，完成基于CLIP背景知识的多模态特征融合。本发明专利技术丰富了图片和文本之间的联系，使用OCR增强了图片模态在文本模态上的关系，提升了多模态融合特征的表示程度。提升了多模态融合特征的表示程度。提升了多模态融合特征的表示程度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于CLIP背景知识的图文特征融合方法

[0001]本专利技术涉及一种图文特征融合方法，具体涉及一种基于CLIP(Contrastive Language
‑
Image Pre
‑
Training，简称CLIP)预训练模型为背景知识的图文特征融合方法，属于图文融合信息处理与应用

技术介绍

[0002]近年来，图文特征融合被广泛应用于分类、问答等场景领域。常见的融合方法能够有效表示不同模态之间的关系，但是，其特征仍然存在异质和解释性差等问题。而有效的多模态特征融合方法主要用于解决这些问题，其目的是通过特征的融合来进一步增强不同模态特征之间的关联性。
[0003]目前，常用的方法是：通过神经网络或预训练模型来获取不同模态的特征向量，之后再进行融合。典型的多模态特征融合方法可以分为早期融合方法和晚期融合方法。其中，早期融合方法是指在模态特征提取阶段就考虑各模态之间的关系，其常见的有两种做法，一是在图片中抽取有用的实体并将其转换为文本；二是直接通过注意力机制学习不同模态之间的...

【技术保护点】

【技术特征摘要】
1.一种基于CLIP背景知识的图文特征融合方法，其特征在于，包括以下步骤：步骤1：利用OCR图片文本识别模型，对数据集中的每张图片进行文本提取，并将其添加至输入中，输入包括三部分：图片、文本、OCR文本；若提取不到文本，则使用原文本进行填充；步骤2：将步骤1中的输入分别使用不同的预训练模型得到向量表示；其中，图片使用Vision Transformer模型，简称ViT模型，文本和OCR文本使用RoBERTa模型；具体地，步骤2包括以下步骤：步骤2.1：给定任务输入中的一个样本(I
i
,T
i
,O
i
)，(I
i
,T
i
,O
i
)∈S，S表示该任务的数据集，I
i
表示图片，T
i
表示文本，O
i
表示OCR得到的文本；使用BERT的词表对O的所有文本进行清洗，过滤掉不成文的单词；步骤2.2：对于图片I，使用预训练的ViT模型，提取其最后一层的隐向量表示H
I
，具体如下：H
I
＝ViT(I)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中，是预训练模型的输出，R表示一个向量矩阵，l
I
表示图片经过序列化后的长度；步骤2.3：对于文本T和文本O，分别使用两个RoBERTa模型提取最后一层的隐向量H
T
和H
O
，具体如下：H
T
＝RoBERTa1(T)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)H
O
＝RoBERTa2(O)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中，是预训练模型的输出，R表示一个向量矩阵，l
T
、l
O
为文本的长度；步骤3：将步骤2所得的各个隐向量串联，然后经过两个Transformer编码器，计算不同模态向量间的...

【专利技术属性】
技术研发人员：史树敏，陈雨涛，黄河燕，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人