一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质技术方案

技术编号：34898883 阅读：12 留言：0更新日期：2022-09-10 13:59

本发明专利技术公开了一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质，属于计算机视觉领域。获取不同类别视频及对应的查询文本，提取视觉特征和文本特征；通过跨模态特征校准器目标类别视频的视觉特征和文本特征进行语义信息校准；通过视频特征重构器对目标类别视频的视觉特征随机掩码并进行视觉特征重构；通过跨模态特征融合器对视频特征和文本特征进行融合；通过领域鉴别器对视频特征和文本特征进行单模态领域不变性特征表达学习，以及对初始融合特征进行跨模态领域不变性特征表达学习；通过双仿射预测器对源类别视频的最终融合特征进行预测。本发明专利技术实现了针对跨类别视频的时间定位，提高了模型应对未知目标视频的泛化能力。知目标视频的泛化能力。知目标视频的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质

[0001]本专利技术涉及计算机视觉领域，具体涉及一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质。

技术介绍

[0002]视频时间定位任务旨在从没有经过处理的视频中给出与查询文本对应的视频片段时间边界。目前传统方法包括全监督学习和弱监督学习两种方法。全监督学习在训练阶段耗费时间较长并且需要大量人工标注数据，费时又费力；弱监督学习虽然不需要大量人工标注数据，但由于缺少足够的标注数据，模型性能相比全监督学习模型差距很大，并且上述两种方法都是在训练数据和测试数据同分布的前提下展开，没有考虑真实世界不同类别场景之间的域偏移。基于上述两种方法训练出来的模型应对未知类别数据的泛化性较差，不能很好满足真实世界场景的需求。

技术实现思路

[0003]针对上述问题，本专利技术提供一种基于对抗多模态领域自适应的跨类别视频时间定位方法，以提高模型应对未知目标数据的泛化能力。
[0004]为此，本专利技术采用的技术方案如下：
[0005]第一个方面，本专利技术提供了一种基于对抗多模态领域自适应的跨类别视频时间定位方法，包括如下步骤：
[0006]S1：获取源类别视频、目标类别视频及其对应的每一个视频的查询文本，提取视频的初始视觉特征和查询文本的初始文本特征，编码后作为最终的视觉特征和文本特征；
[0007]S2：通过跨模态特征校准器对步骤S1得到的目标类别视频的视觉特征和文本特征进行语义信息校准；/>[0008]S3：通过视频特征重构器对步骤S1得到的目标类别视频的视觉特征随机掩码并进行视觉特征重构，得到重构视觉特征；
[0009]S4：通过跨模态特征融合器对步骤S1得到的视频特征和文本特征进行融合，得到源类别视频的初始融合特征和最终融合特征，以及目标类别视频的初始融合特征和最终融合特征；
[0010]S5：通过领域鉴别器分别对步骤S1得到的视频特征和文本特征进行单模态领域不变性特征表达学习，以及对步骤S4得到的初始融合特征进行跨模态领域不变性特征表达学习；
[0011]S6：通过双仿射预测器对步骤S4得到的源类别视频的最终融合特征进行预测，得到每个查询文本对应的所有可能结果的预测概率，预测概率最大的即为最终的预测结果。
[0012]第二个方面，本专利技术提供了一种基于对抗多模态领域自适应的跨类别视频时间定位系统，用于实现上述的基于对抗多模态领域自适应的跨类别视频时间定位方法。
[0013]第三个方面，本专利技术提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的基于对抗多模态领域自适应的跨类别视频时间定位方法。
[0014]与现有技术相比，本专利技术的优势在于：
[0015]本专利技术提出了一个基本训练模块，主要用于对带标签的源类别数据进行监督学习；提出了一个对抗领域鉴别模块，用于学习领域不变性特征；提出了一个跨模块特征校准模块，用于减小目标类别数据中不同模态特征之间的语义间隙；提出了一个视频重构模块，用于学习时序语义关系和可鉴别特征表达。本专利技术首次提出并实现了针对跨类别视频数据的视频时间定位任务，实验结果显示了本专利技术提出的模型具有良好的泛化能力。
附图说明
[0016]图1为根据一示例性实施例示出的一种基于对抗多模态领域自适应的跨类别视频时间定位方法的整体架构示意图；
[0017]图2为根据一示例性实施例示出的对抗领域鉴别模块的示意图；
[0018]图3为根据一示例性实施例示出的跨模态特征校准模块的示意图；
[0019]图4为根据一示例性实施例示出的视频特征重构模块的示意图；图5为根据一示例性实施例示出的具备数据处理能力的设备终端示意图。
具体实施方式
[0020]下面结合附图和实施例对本专利技术进行进一步说明。附图仅为本专利技术的示意性图解，附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器系统和/或微控制器系统中实现这些功能实体。
[0021]如图1所示，本专利技术提出的一种基于对抗多模态领域自适应的跨类别视频时间定位方法，包括如下步骤：
[0022]S1：首先通过3维卷积神经网络分别提取源类别视频和目标类别视频的语义信息，得到视觉特征并通过视觉编码器进行特征编码最终得到编码后的视觉特征接着通过Glove模型提取源类别查询文本和目标类别查询文本的语义信息，得到文本特征并通过文本编码器进行特征编码最终得到编码后的文本特征
[0023]本专利技术首次实现了针对跨类别视频的时间定位任务，其中输入数据包含带标签的源类别数据和不带标签的目标类别数据，以此来提高模型对未知类别视频的泛化能力，将输入的数据定义如下：
[0024][0025][0026]其中，V
s
是源类别视频，Q
s
是源类别视频的查询文本集合，T
s
是源类别数据的标签集合，代表源类别视频中的第i个源视频及其对应的查询文本，代表源类别视频中第i个查询文本匹配第i个源视频的真实时间边界；V
t
是目标类别视频，Q
t
是目标类别视频的查询文本集合，T
t
是目标类别数据的标签集合，本实施例为空；代表目标类别视频
中第i个目标视频及其对应的查询文本；B代表批大小，即每次输入模型中的源视频或目标视频及其对应的查询文本的数量。
[0027]本步骤中，采用同一个视觉特征提取器和视觉编码器获取不同类别视频的视觉特征并编码，以及，采用同一个文本特征提取器和文本编码器获取不同类别视频对应的查询文本的文本特征并编码。
[0028]具体的，步骤S1的实现过程为：
[0029]S1
‑
1：通过3维卷积神经网络提取输入的源类别视频V
s
和目标类别视频V
t
的语义信息，得到初始视觉特征通过Glove模型提取源类别视频的查询文本Q
s
和目标类别视频的查询文本Q
t
的语义信息，得到初始文本特征S1
‑
2：对步骤S1
‑
1得到的初始视觉特征和初始文本特征分别通过一个卷积层和一个线性投影层投影到相同的隐藏维度，并通过多头注意力层进行编码，得到编码后的视觉特征和文本特征作为最终特征，用于后续计算；所述的编码后的视觉特征和文本特征表示为：
[0030][0031][0032][0033][0034]其中，n为每一个视频中的帧个数，m为查询文本长度，d为隐藏维度，为源类别视频的视觉特征，为第i个源类别视频的视觉特征，为第i个源类别视频第j帧的视觉特征，为目标类别视频的视觉特征，为第i个目标类别视频的视觉特征，为第i个目标类别视频第j帧的视觉特征，为源类别视频的查询文本的文本特征，为第i个本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于对抗多模态领域自适应的跨类别视频时间定位方法，其特征在于，包括如下步骤：S1：获取源类别视频、目标类别视频及其对应的每一个视频的查询文本，提取视频的初始视觉特征和查询文本的初始文本特征，编码后作为最终的视觉特征和文本特征；S2：通过跨模态特征校准器对步骤S1得到的目标类别视频的视觉特征和文本特征进行语义信息校准；S3：通过视频特征重构器对步骤S1得到的目标类别视频的视觉特征随机掩码并进行视觉特征重构，得到重构视觉特征；S4：通过跨模态特征融合器对步骤S1得到的视频特征和文本特征进行融合，得到源类别视频的初始融合特征和最终融合特征，以及目标类别视频的初始融合特征和最终融合特征；S5：通过领域鉴别器分别对步骤S1得到的视频特征和文本特征进行单模态领域不变性特征表达学习，以及对步骤S4得到的初始融合特征进行跨模态领域不变性特征表达学习；S6：通过双仿射预测器对步骤S4得到的源类别视频的最终融合特征进行预测，得到每个查询文本对应的所有可能结果的预测概率，预测概率最大的即为最终的预测结果。2.根据权利要求1所述的基于对抗多模态领域自适应的跨类别视频时间定位方法，其特征在于，所述的步骤S1包括：S1
‑
1：定义输入数据：1：定义输入数据：T
t
＝φ其中，V
s
是源类别视频，Q
s
是源类别视频的查询文本集合，T
s
是源类别数据的标签集合，V
is
、代表源类别视频中的第i个源视频及其对应的查询文本，代表源类别视频中第i个查询文本匹配第i个源视频的真实时间边界；V
t
是目标类别视频，Q
t
是目标类别视频的查询文本集合，T
t
是目标类别数据的标签集合，本实施例为空；V
it
、代表目标类别视频中第i个目标视频及其对应的查询文本；B代表批大小；S1
‑
2：提取源类别视频V
s
和目标类别视频V
t
的语义信息，得到初始视觉特征提取源类别视频的查询文本Q
s
和目标类别视频的查询文本Q
t
的语义信息，得到初始文本特征S1
‑
3：对步骤S1
‑
2得到的初始视觉特征和初始文本特征分别进行编码，得到编码后的视觉特征和文本特征作为最终特征；所述的编码后的视觉特征和文本特征表示为：示为：示为：
其中，n为每一个视频中的帧个数，m为查询文本长度，d为隐藏维度，为源类别视频的视觉特征，为第i个源类别视频的视觉特征，为第i个源类别视频第j帧的视觉特征，为目标类别视频的视觉特征，为第i个目标类别视频的视觉特征，为第i个目标类别视频第j帧的视觉特征，为源类别视频的查询文本的文本特征，为第i个源类别视频的查询文本的文本特征，为第i个源类别视频的查询文本中第j个单词的文本特征，为目标类别视频的查询文本的文本特征，第i个目标类别视频的查询文本的文本特征，第i个目标类别视频的查询文本中第j个单词的文本特征。3.根据权利要求2所述的基于对抗多模态领域自适应的跨类别视频时间定位方法，其特征在于，所述的步骤S3中，对步骤S1得到的目标类别视频的初始视觉特征随机掩码并进行视觉特征重构。4.根据权利要求3所述的基于对抗多模态领域自适应的跨类别视频时间定位方法，其特征在于，所述的步骤S3包括：S3
‑
1：随机对步骤S1得到的目标类别视频的初始视觉特征以β概率进行掩码操作，并通过视觉编码器进行编码，得到编码后的掩码视觉特征S3
‑
2：通过跨模态特征融合器对步骤S3
‑
1得到的掩码视觉特征和步骤S1得到的目标类别视频的查询文本的文本特征进行融合，得到掩码视频的初始融合特征F
m
；S3
‑
3：根据步骤S3
‑
1得到的掩码视觉特征和步骤S3
‑
2得到的初始融合特征F
m
进行视频特征重构，得到重构视觉特征V
recon
，计算过程如下：其中，Conv1D为1维卷积层，ReLU为激活函数，代表按元素添加操作；所述的跨模态特征融合器的训练损失采用均方差损失。5.根据权利要求1所述的基于对抗多模态领域自适应的跨类别视频时间定位方法，其特征在于，所述的步骤S2包括：S2
‑
1：计算目标类别视频的视觉特征和文本特征沿时间轴的平均值：其中，表示第i个目标类别视频所有帧的视觉特征的均值，表示第i个目标类别视频所有帧的视觉特征的均值的集合，表示第i个源类别视频的查询文本中所有单词的文本特征的均值，表示第i个源类别视频的查询文本中所有单词的文本特征的均值的集合；S2
‑
2：利用构建正负样本：将作为正样本，作为负样本，表示为：
S2
‑
3：利用正负样本训练跨模态特征校准器，对目标类别视频的视觉特征和文本特征进行语义信息校准；所述的跨模态特征校准器的损失函数为：进行语义信息校准；所述的跨模态特征校准器的损失函数为：其中，表示跨模态特征校准器损失，表示三元损失，B表示批大小，Δ是边界，l(.,.)用于计算向量之间的余弦相似度，Z
V
‑
表示视觉特征的负样本集合，Z
Q
‑
表示文本特征的负样本集合。6.根据权利要求1所述的基于对抗多模态领域自适应的跨类别视频时间定位方法，其特征在于，所述的步骤S4包括：S4
‑
1：计算出步骤S1得到视觉特征和文本特征之间的跨模态相似度矩阵S，其中，k∈{s,t}，k＝s时，表示源类别视频的视觉特征，为源类别视频的查询文本的文本特征，k＝t时，为目标类别视频的视觉特征，为目标类别视频的查询文本的文本特征；S4
‑
2：对步骤S4
‑
1得到的跨模态相似度矩阵S沿行和列分别进行归一化，得到相似性密度矩阵S
r
和S
...

【专利技术属性】
技术研发人员：佘清顺，黄海烽，赵洲，陈哲乾，
申请(专利权)人：杭州一知智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人