基于非掩码对齐的视频基模型获取方法技术

技术编号:37968397 阅读:7 留言:0更新日期:2023-06-30 09:43
本发明专利技术涉及基于非掩码对齐的视频基模型获取方法,用于解决当前视频基模型获取时训练成本高且难收敛、不具有泛化性和扩展性的问题。所述方法首先仅使用视频数据来进行掩码视频建模,得到一个能够在纯视频任务中表现优异的视频基模型。接下来,将获得的视频基模型与其它模态模型联合训练,比如文本模型,可获得一个能够处理复杂的与视频相关的跨模态任务模型。针对不同的纯视频或跨模态下游任务,可以对获得的基础模型进行简单的微调,能够使其高效地完成各种下游任务。高效地完成各种下游任务。高效地完成各种下游任务。

【技术实现步骤摘要】
基于非掩码对齐的视频基模型获取方法


[0001]本专利技术涉及计算机视觉,尤其涉及基于非掩码对齐的视频基模型获取方法。

技术介绍

[0002]由于高昂的计算成本和数据稀缺,视频基模型的探索十分有限。以往的视频基模型依赖于图像基模型,但转换到视频领域面临艰巨的挑战。在充分预训练好的图像基模型上构建视频基模型,能够大大降低训练成本,但是它面临由图像领域向视频领域转移知识的重要挑战。首先,由于视频数据有限且存在巨大的领域差异,二次视频预训练可能会削弱从图像基模型上继承的泛化性。此外,强大的空间初始化提供了感知视频中场景的简单策略(例如,“骑马”中的“草地”),这限制了视频基模型学习识别和定位时间相关的行为(如“打开”和“关闭”)。最后,这种模式很难扩展,因为它需要有充分预训练好的图像特征模型。
[0003]最近,VideoMAE成功从零开始学习有效的时空特征,能够有效地处理复杂的时间行为识别和检测任务。虽然VideoMAE能从有限的数据中训练出强大的ViT,但是这是通过长时间的预训练换取的高数据效率,例如,在160k个视频上进行了2400轮迭代。而且它的低级重建任务收敛困难,并且与高级跨模态对齐任务存在冲突,它不适用于视频语言任务,因为低级像素重构任务与高级跨模态对齐任务相互冲突。再者,额外的解码器处理掩码和未掩码的视觉标记(token),会由于全局自注意力机制而导致内存开销过高,使得这种模式的扩展也具有挑战性。

技术实现思路

[0004]为了解决现有技术中存在的上述问题,本专利技术的目的在于提出一种基于非掩码对齐的视频基模型获取方法,获得的视频基模型结合其它模态模型结合进行进一步训练,获得的最终模型能够实现跨模态视频任务处理。
[0005]为实现上述目的,本专利技术的技术方案如下。
[0006]第一方面,本专利技术提出一种基于非掩码对齐的视频基模型获取方法,所述方法包括下述步骤:
[0007]将作为训练数据的原始视频的视频图像块集合作为第一数据集,对原始视频的图像帧采用掩码策略进行遮挡,获得非掩码视频图像块(patch)集合作为第二数据集;
[0008]将CLIP(Contrastive Language

Image Pre

Training,对比文本

图像预训练)模型的视觉编码器作为教师模型,将未经训练的视觉编码器作为学生模型;
[0009]在训练时,将第一数据集输入教师模型,将第二数据集输入学生模型,挑选两个模型的对应的非掩码视频图像块输出进行线性投影对齐,计算标准化后二者的均方误差,并不断优化减小均方误差;
[0010]将训练好的学生模型作为视频基模型,将其与其它模态模型结合进行进一步训练,获得的最终模型能够实现跨模态视频任务处理。
[0011]在上述技术方案的一种实施方式中,所述掩码策略为对要进行掩码处理的图像帧
依次采用语义引导进行掩码,且掩码比例为80%。
[0012]在上述技术方案的一种实施方式中,所述对要进行掩码处理的图像帧依次采用语义引导进行掩码,具体为:
[0013]在教师模型的最后一层自注意力中,获取每帧的类标记(class token)z
cls
∈R1×
C
和空间标记(spatial tokens)Z∈R
L
×
C
,L=H
×
W是标记(token)的数量,C是标记(token)的维度,H和W为该帧的高和宽;
[0014]采用下式计算注意力分数A∈R1×
L
,用于表示每个标记(token)的语义主要性:
[0015][0016][0017]式中:N为注意力头的数目,Q
n
(
·
)和K
n
(
·
)是第n个注意力头的线性投影,softmax为归一化指数函数;
[0018]基于A选择一帧图像中的非掩码块标记(token),将未被选择的进行掩码处理。
[0019]在上述技术方案的一种实施方式中,要进行掩码处理的图像帧通过稀疏采样从原始视频图像中获得。
[0020]在上述技术方案的一种实施方式中,线性投影对齐,具体实现为:
[0021]在教师模型使用预训练的映射层,建立视觉和文本编辑之间的语义联系;
[0022]在学生模型使用映射层对齐通道维数;
[0023]将学生模型中的每一个输出标记(token)和教师模型中相关的输出标记(token)进行对齐。
[0024]在上述技术方案的一种实施方式中,所述方法还包括为训练好的视觉编码器配置文本编码器、跨模态解码器构成跨模态任务模型;
[0025]文本编码器、训练好的视觉编码器的输出端与跨模态解码器相连;
[0026]跨模态解码器根据其输入,能够实现的功能包括:视频行为识别和行为检测、视频检索、视频问答。
[0027]在上述技术方案的一种实施方式中,在对跨模态任务模型进行训练时,训练数据包括视频

文本数据、图像

文本数据,训练目标除了将教师模型和学生模型进行非掩码输出标记(token)对齐外,还包括视频文本对比、视频文本匹配以及视频引导的掩码语言建模三个训练目标;
[0028]所述视频文本对比,为将非掩码视频和文本嵌入进行对齐;
[0029]所述视频文本匹配,通过将非掩码视频标记(token)和文本标记(token)进行融合分类;
[0030]所述视频引导的掩码语言建模,使用跨模态解码器从文本和非掩码视频标记(token)中预测掩码文本。
[0031]在上述技术方案的一种实施方式中,在不同阶段预训练后,还包括对多种下游任务模型进行微调;所述微调,为在完成预训练后,根据预期实现的功能,使用下游任务数据
对视觉编码器、文本编码器、跨模态解码器进行选择性参数调整。具体地,对纯视频任务,对最初训练好的视觉编码器进行微调;对视频检索任务,对视觉编码器和文本编码器进行微调;对视频问答任务,对视觉编码器、文本编码器以及跨模态解码器进行微调。
[0032]第二方面,本专利技术提出一种云服务器,在所述云服务器上部署有能够被执行的如上述任一种方法的计算机程序。
附图说明
[0033]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0034]图1、一种具体实施方式中的教师模型和学生模型结构示意图;
[0035]图2、一种具体实施方式中的渐进式视频基模型预训练框架示意图;
[0036]图3、一种具体实施方式中的应用示意图。
具体实施方式
[0037]现有的视频基模型,主要基于充分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于非掩码对齐的视频基模型获取方法,其特征在于,所述方法包括下述步骤:将作为训练数据的原始视频的视频图像块集合作为第一数据集,对原始视频的图像帧采用掩码策略进行遮挡,获得非掩码视频图像块(patch)集合作为第二数据集;将CLIP模型的视觉编码器作为教师模型,将未被训练的视觉编码器作为学生模型;在训练时,将第一数据集输入教师模型,将第二数据集输入学生模型,挑选两个模型的对应的非掩码视频图像块输出进行线性投影对齐,计算标准化后二者的均方误差,并不断优化减小均方误差;将训练好的学生模型作为视频基模型,将其与其它模态模型结合进行进一步训练,获得的最终模型能够实现跨模态视频任务处理。2.根据权利要求1所述的方法,其特征在于,所述掩码策略为对要进行掩码处理的图像帧依次采用语义引导进行掩码,掩码比例为80%。3.根据权利要求2所述的方法,其特征在于,所述对要进行掩码处理的图像帧依次采用语义引导进行掩码,具体为:在教师模型的最后一层自注意力中,获取每帧的类标记(class token)z
cls
∈R1×
C
和空间标记(spatial tokens)Z∈R
L
×
C
,L=H
×
W是标记(token)的数量,C是标记(token)的维度,H和W为该帧的高和宽;采用下式计算注意力分数A∈R1×
L
,用于表示每个标记(token)的语义主要性:,用于表示每个标记(token)的语义主要性:式中:N为注意力头的数目,Q
n
(
·
)和K
n
(
·
)是第n个注意力头的线性投影,softmax为归一化指数函数;基于A选择一帧图像中的非掩码块标记(token),将未被选择的进行掩码处理。4.根据权利要求3所述的方法,其特征在于,要进行掩码处理的图...

【专利技术属性】
技术研发人员:黎昆昌王亚立李一卓王毅何逸楠王利民乔宇
申请(专利权)人:上海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1