【技术实现步骤摘要】
一种基于图文线性组合的多模态预训练方法
[0001]本专利技术属于图文多模态检索
,更具体地,涉及一种基于图文线性组合的多模态预训练方法。
技术介绍
[0002]模态是事情经历和发生的方式,我们生活在一个由多种模态信息构成的世界,包括视觉信息、听觉信息、文本信息、嗅觉信息等等,当研究的问题或者数据集包含多种这样的模态信息时,我们称其为多模态问题。研究多模态问题,是推动人工智能更好地了解和认知我们周围世界的关键。
[0003]现如今比较常见的应用包括媒体描述、事件识别、多媒体检索、视觉推理、视觉问答等等。目前,很多视觉任务都采用在一个充分预训练的卷积模型上进行微调的方式.另外就是在自然语言处理领域,表征学习的发展尤其迅速,过去文本领域一直效果很好的基于词频统计的TF
‑
IDF特征逐渐被word2vec等隐式表征向量所代替,这些隐式表征充分挖掘了文本信息的潜在含义可以对文本进行更丰富的信息表达。另外,像卷积神经网络、递归神经网络等,也常被用来作为文本表征的挖掘工具.另外,近年来,基于预训练技术的表 ...
【技术保护点】
【技术特征摘要】
1.一种基于图文线性组合的多模态预训练方法,其特征在于,包括以下步骤:S1:对文本和图像分别进行特征提取;S2:在交互层建立文本和图像两种模态间的联系;S2.1:将S1中得到的视觉模态和语言模态的特征向量联合输入到多模态预训练模型的交互层中;S2.2:利用Transformer中的注意力机制,让两种模态相互之间产生联系;S3:将图文匹配或屏蔽语言模型作为预训练目标,将模型训练至可用;S4:将具体的应用场景和下游任务作为训练目标,对所述预训练模型进行微调训练,将模型的性能在该场景下达到最优。2.根据权利要求1所述的基于图文线性组合的多模态预训练方法,其特征在于,所述S1中对文本的特征进行提取采用Word2vec中基于Hierarchical Softmax的word embedding方法,包括:S11.1:一个单词整体表达式:S11.2:将预料中所有单词求和,得到目标函数:S11.3:取子式计算两参数X和θ的梯度:S11.31:计算θ的梯度:S11.32:因为两参数X和θ是对称的,所以同理可得X的梯度为:S11.4:两参数可进行迭代更新,得到word2vec输出的特征向量:S11.5:在word2vec输出的特征向量中嵌入文本位置向量,得到最终提取的自然语言模态的特征向量t:其中,w:代表单词,C:图像通道数,i:表示该语句中的第i个单词,p
w
:从根结点到w对应结点的路径,结点编码,根结点不编码,X
w
:代表文本中各词向量的累加,包括根节点的非叶子结点对应的向量,一个结点被分为正类的概率,到w路径上的的结点,word2vec输出的自然语言特征
向量,η:代表学习率,T
pos
∈R
(L+1)
×
H
:代表文本中各词的位置向量,T:代表矩阵转秩,R:表示集合中的实数集,L:代表文本的长度
‑
1,因为编号是从零开始,H:单个词向量的维度,Context(w):文本向量集与w的映射关系,属于模型迭代训练过程中的中间变量,与w做区分的。3.根据权利要求2所述的基于图文线性组合的多模态预训练方法,其特征在于,所述S1中需先构建霍夫曼树,根据逻辑回归原理确定一个结点被分成正类的概念,构造Word2vec目标函数:其中:4.根据权利要求1所述的基于图文线性组合的多模态预训练方法,其特征在于,所述S1中对图像的特征进行提取包括:S12.1:将每一张二维的图像X∈R
C
×
H
×
W
切割分块并铺平成S12.2:将N块图像分块展平,使用线性投影将其映射到D维向量;S12.3:加上位置向量即可得到视觉模态的特征向量v:X
class
随着其他的图像编码向量一同输入到Transformer交互层,输出1+N个编码向量,并用第1个编码向量,即X
class
的输出进行分类预测;其中,p:代表正方形切块的边长,(P,P)是切块的分辨率,(H,W)是原始图像的分辨率,C是图像通道数,N=HW/P2是切割成图像块的数量,R:表示集合中的实数集,x
p
代表图像块,代表第N块图像块,E:全连接层,它的输入维度大小是P2·
C,输出维度大小是D,X
class
:可学习的嵌入向量,后续用作分类任务,E
pos
:图像块的位置向量。5.根据权利要求1所述的基于图文线性组合的多模态预训练方法...
【专利技术属性】
技术研发人员:袁鑫攀,张知奇,陈博,王克,李长云,
申请(专利权)人:湖南工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。