基于跨粒度自蒸馏的视频-文本跨模态检索方法技术

技术编号：33638417 阅读：21 留言：0更新日期：2022-06-02 01:54

本发明专利技术公开了基于跨粒度自蒸馏的视频

全部详细技术资料下载

【技术实现步骤摘要】
基于跨粒度自蒸馏的视频
‑
文本跨模态检索方法

[0001]本专利技术涉及一种基于跨粒度自蒸馏的视频
‑
文本跨模态检索方法，属于人工智能

技术介绍

[0002]近年来信息技术的迅猛发展，特别是移动互联网的高速化和社交媒体的多样化，使得媒体传播的形式更加多元。媒体内容以文字、图片、音频和视频等形式甚至是各形式相融合的方式传播。在媒体信息爆炸增长的时代，如何高效处理海量的信息，从而更好地服务受众已经成为一个越来越迫切的问题。视频和文本是两个重要的信息载体，视频
‑
文本的跨模态检索也是多媒体信息处理的一个重要领域。这个任务旨在给定一个视频(或文本描述)，在数据库中查询与其相关的文本描述(或视频)。为了实现高效检索，现有的方法通常分别利用视频和文本编码器将两个模态的数据向量化，以嵌入到联合空间，使得对应的视频
‑
文本向量间的距离小于不成对的视频
‑
文本向量间的距离。这些方法的重点在于视频和文本的表示学习以及视频
‑
文本的跨模态对齐。最近的研究表明Transformer或BERT在视频
‑
文本跨模态检索任务中的优越性，越来越多的方法都选择基于Transformer的结构作为编码器。
[0003]现有的视频
‑
文本跨模态检索方法可以根据模态间的交互情况大致分为两类：第一类是先用两个独立的编码器将不同模态的内容编码成特征向量，然后通过简单的函数或操作计算两者的相似度；第二类...

【技术保护点】

【技术特征摘要】
1.基于跨粒度自蒸馏的视频
‑
文本跨模态检索方法，包括如下步骤：步骤1、将不同模态的输入经过基于Transformer的各模态编码器，得到一系列特征向量；步骤2、对各模态编码器产生的特征序列进行平均池化，得到各模态的粗粒度表示特征；推理时，直接使用该表示特征进行向量检索；训练时，使用此表示特征在大小为b的mini
‑
batch内计算任意两个样本的跨模态相似度s(T
i
,V
j
)，从而构成粗粒度的相似度矩阵并通过交叉熵计算InfoNCE损失步骤3、该步骤仅在训练时执行；通过tokens筛选模块，为各模态选出一部分“更重要”的tokens，再通过这些关键tokens间的细粒度交互产生任意两个样本的跨模态相似度伪标签s
t2v
(T
i
,V
j
)和s
v2t
(V
j
,T
i
)，并通过KL散度计算跨粒度自蒸馏损失步骤4、该步骤仅在训练时执行；通过超参数λ计算最终损失基于此损失对网络进行迭代优化。2.根据权利要求1所述的基于跨粒度自蒸馏的视频
‑
文本跨模态检索方法，其特征在于，所述训练阶段的跨粒度自蒸馏损失，其计算方法为：将文本和视频编码器最后一层输出的特征序列f(T
i
)和g(V
j
)分别送入各自的tokens筛选模块，选出“关键”的tokens，继而计算跨模态tokens之间的两两内积，得到细粒度交互矩阵I；接着通过先对I的每一行取最大值再求均值，得到文本T
i
对视频V
j
的细...

【专利技术属性】
技术研发人员：杨盈昀，王家宸，花妍，
申请(专利权)人：中国传媒大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人