基于跨粒度自蒸馏的视频-文本跨模态检索方法技术

技术编号:33638417 阅读:21 留言:0更新日期:2022-06-02 01:54
本发明专利技术公开了基于跨粒度自蒸馏的视频

【技术实现步骤摘要】
基于跨粒度自蒸馏的视频

文本跨模态检索方法


[0001]本专利技术涉及一种基于跨粒度自蒸馏的视频

文本跨模态检索方法,属于人工智能


技术介绍

[0002]近年来信息技术的迅猛发展,特别是移动互联网的高速化和社交媒体的多样化,使得媒体传播的形式更加多元。媒体内容以文字、图片、音频和视频等形式甚至是各形式相融合的方式传播。在媒体信息爆炸增长的时代,如何高效处理海量的信息,从而更好地服务受众已经成为一个越来越迫切的问题。视频和文本是两个重要的信息载体,视频

文本的跨模态检索也是多媒体信息处理的一个重要领域。这个任务旨在给定一个视频(或文本描述),在数据库中查询与其相关的文本描述(或视频)。为了实现高效检索,现有的方法通常分别利用视频和文本编码器将两个模态的数据向量化,以嵌入到联合空间,使得对应的视频

文本向量间的距离小于不成对的视频

文本向量间的距离。这些方法的重点在于视频和文本的表示学习以及视频

文本的跨模态对齐。最近的研究表明Transformer或BERT在视频

文本跨模态检索任务中的优越性,越来越多的方法都选择基于Transformer的结构作为编码器。
[0003]现有的视频

文本跨模态检索方法可以根据模态间的交互情况大致分为两类:第一类是先用两个独立的编码器将不同模态的内容编码成特征向量,然后通过简单的函数或操作计算两者的相似度;第二类是将两个模态的内容一起输入编码器,让它们在模型内通过自注意力(self

attention)充分交互,最后直接输出两者的匹配得分。由于第一种方法可以提前离线计算好待检索资源库内容的向量,因此效率更高,在实际生活中有广泛的应用。但是此类方法面临着一些问题:
[0004]1.出于高效的考虑,视频编码器和文本编码器分别将视频和文本编码成一个表示向量,然后基于向量距离计算某个视频和某段文本的匹配程度。这样做的好处是可以提前离线计算好全部数据库资源的向量,检索效率比较高。但是由于编码过程中大量信息丢失,导致检索时缺少细粒度(比如视频中的帧和文本中的字)的交互,影响匹配精度。
[0005]2.由于基于Transformer的结构通常有较强的表达,如果数据量不够多,很容易造成过拟合。此外,现有的方法主要通过在联合空间拉近正样本,推远负样本来优化网络,InfoNCE是一种基于此思想的常见对比损失。这个损失为正样本对分布一个标签“1”,为负样本对分配标签“0”,并通过交叉熵进行优化。但是,这样二元的离散标签过于绝对,不利于网络学习,实际上的标签分布应该更平缓。
[0006]本专利技术针对上述问题,设计了一个基于跨粒度自蒸馏的视频

文本跨模态检索方法,利用跨模态之间的细粒度交互提供软标签的自蒸馏损失,通过构建适配于自蒸馏的轻量级标记筛选深度学习网络,实现视频

文本跨模态检索。该方法与前面两种方法相比,能够解决跨模态对比学习中二元标签不够平滑,不符合真实情况的问题,能显著提高检索性能。

技术实现思路

[0007]本专利技术的主要目的是设计一个基于跨粒度自蒸馏的视频

文本跨模态检索方法,其核心在于利用跨模态之间的细粒度交互提供软标签的自蒸馏损失。此外,考虑每个token的作用并不是等同的,为了尽可能确保软标签的可靠性,本专利技术另外提出了一个适配于自蒸馏的轻量级标记筛选网络,选取每个模态的代表性标记,再进行后续的软标签计算。
[0008]为实现上述目的,本专利技术的训练和检索流程如图1,具体如下:
[0009]步骤1、给定一个大小为b的mini

batch其中{V
k
,T
k
}为第k对视频

文本。将字长为N的文本T
i
(i=1,2,..,b)和帧长为M的视频V
j
(j=1,2,...,b)输入各自的编码器f和g,分别得到和其中d为表示向量的维度。
[0010]步骤2、分别计算f(T
i
)和g(V
j
)的平均池化,得到和和有通过向量内积计算它们的相似度通过向量内积计算它们的相似度因此,可以根据式(1)计算InfoNCE损失:
[0011][0012]步骤3、如图2所示,将f(T
i
)和g(V
j
)分别输入结构一样的两个tokens筛选模块,分别得到n(n≤N)个“关键”文本tokens和m(m≤M)个“关键”视频tokens。以视频为例,在tokens筛选模块中,g(V
j
)首先通过一个由“Linear

ReLU

Linear

Softmax”组成的权重生成器,得到一个向量w=(w0,w1,...,w
M
‑1),每一位都是一个0

1之间的数,表示对应token的“重要性”。接着根据每一个token的重要性得分,选出前m个“最重要”的token;同理,文本tokens也进行此操作。
[0013]步骤4、根据步骤3筛选出视频和文本的“关键”tokens后,进行跨模态tokens之间的两两交互(向量内积),得到细粒度交互矩阵I中的每一个元素代表一个文本token和另一个视频token的相似度。接着可以通过先对I的每一行取最大值再求均值,得到文本T
i
对视频V
j
的细粒度相似度得分s
t2v
(T
i
,V
j
);同理,先对I的每一列取最大值再求均值,得到视频V
j
对文本T
i
的细粒度相似度得分s
v2t
(V
j
,T
i
)。
[0014]步骤5、对于一个mini

batch的样本,经上述步骤得到任意两个T
i
和V
j
的细粒度交互相似度,可以构成文本

视频软标签矩阵其中第i行第j个元素代表文本T
i
对视频V
j
的细粒度相似度得分,即s
t2v
(T
i
,V
j
);同理可得视频

文本软标签矩阵同时,由步骤2可得粗粒度的相似度矩阵其中第i行第j个元素代表文本T
i
和视频V
j
的粗粒度相似度得分。跨粒度自蒸馏损失为粗粒度相似度分布和细粒度相似度软标签的KL散度,即:
[0015][0016][0017]其中,S
i
为矩阵S的第i行,S
T
为S的转置,P和Q分别为维数为b的概率分布。
[0018]步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于跨粒度自蒸馏的视频

文本跨模态检索方法,包括如下步骤:步骤1、将不同模态的输入经过基于Transformer的各模态编码器,得到一系列特征向量;步骤2、对各模态编码器产生的特征序列进行平均池化,得到各模态的粗粒度表示特征;推理时,直接使用该表示特征进行向量检索;训练时,使用此表示特征在大小为b的mini

batch内计算任意两个样本的跨模态相似度s(T
i
,V
j
),从而构成粗粒度的相似度矩阵并通过交叉熵计算InfoNCE损失步骤3、该步骤仅在训练时执行;通过tokens筛选模块,为各模态选出一部分“更重要”的tokens,再通过这些关键tokens间的细粒度交互产生任意两个样本的跨模态相似度伪标签s
t2v
(T
i
,V
j
)和s
v2t
(V
j
,T
i
),并通过KL散度计算跨粒度自蒸馏损失步骤4、该步骤仅在训练时执行;通过超参数λ计算最终损失基于此损失对网络进行迭代优化。2.根据权利要求1所述的基于跨粒度自蒸馏的视频

文本跨模态检索方法,其特征在于,所述训练阶段的跨粒度自蒸馏损失,其计算方法为:将文本和视频编码器最后一层输出的特征序列f(T
i
)和g(V
j
)分别送入各自的tokens筛选模块,选出“关键”的tokens,继而计算跨模态tokens之间的两两内积,得到细粒度交互矩阵I;接着通过先对I的每一行取最大值再求均值,得到文本T
i
对视频V
j
的细...

【专利技术属性】
技术研发人员:杨盈昀王家宸花妍
申请(专利权)人:中国传媒大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1