基于特征解耦和交叉对比的视频时序定位方法技术

技术编号：31753481 阅读：20 留言：0更新日期：2022-01-05 16:35

本发明专利技术公开了一种基于特征解耦和交叉对比的视频时序定位方法，主要解决现有技术数据信息挖掘不充分，导致定位结果不精确的问题。其方案为：从公开网站获取视频文本训练集和测试集，提取训练样本的视频特征和文本特征；构建包含特征解耦网络、多模态融合网络、交叉对比网络和定位回归网络的文本视频定位网络；对文本视频定位网络进行训练得到最优的网络参数；将测试集输入训练好的文本视频定位网络中进行文本定位，得到文本在视频中对应的起止时间坐标，完成视频时序定位。本发明专利技术深入挖掘了视频的内部信息，得到了更有判别力的视频特征，利用视频文本对之间的关联，提高了定位结果的准确性，可用于电子商务、在线教育、智能监控、视频编辑和制作。视频编辑和制作。视频编辑和制作。

全部详细技术资料下载

【技术实现步骤摘要】
基于特征解耦和交叉对比的视频时序定位方法

[0001]本专利技术属于多模态视频
，特别涉及一种视频时序定位方法，可用于电子商务、在线教育、智能监控、视频编辑和制作。

技术介绍

[0002]视频时序定位是指根据给定的一段文本查询句，在对应的原始视频中定位与该查询句所描述内容在语义上相近的视频片段的起止时间。该技术大大减少人工查找所耗费的人力和时间，但是这要求深入理解视频和文本两个模态的语义信息并对其进行充分交互与精确对齐，极具挑战性。
[0003]现有的视频时序定位方法主要基于深度学习，大致可分为两类：基于分割片段的方法和直接预测起止时间的方法。其中基于分割片段的方法的主要思想可总结为如图1所示框图，其首先将一个长视频切割成不同尺度的多个视频片段，并从每个片段和文本查询句中提取特征，然后使用多模态处理技术进行多模态交互，最终计算得到预测的起止时间坐标与准确起止时间坐标的时间偏移量。尽管这种方法操作方便并且取得了很好的结果，但是它需要将所有视频片段与文本查询进行匹配排序，需要十分昂贵的计算资源。另外，最终定位结果的准确率严重依赖生成的片段的质量，缺乏灵活性。
[0004]为了有效解决上述问题，近年的一些工作研究通过回归方法直接预测起止时间实现目标视频的定位。当前，研究人员已经提出两种直接预测起止时间的方法。第一种为基于循环神经网络和注意力机制的回归方法。第二种为基于强化学习的回归方法。
[0005]Yitian Yuan和Tao Mei等人在2019年的American Associatio...

【技术保护点】

【技术特征摘要】
1.一种基于特征解耦和交叉对比的视频时序定位方法，其特征在于，包括：(1)在公开数据集分别获取训练样本集和测试样本集；(2)从训练样本集中获取视频特征和文本特征：2a)对训练样本集中的视频依次进行特征提取，得到视频特征对每个训练样本的视频特征采样得到T＝128个视频片段特征并将每一个视频特征x
i
投影到维度为1024的空间γ，其中，d
v
为视频片段特征维度，T为视频片段数目，i＝1,2，...,N，批大小N为100；2b)对训练样本集中的文本进行特征提取，得到全局文本特征其中，d
Q
为文本特征维度；(3)构建由背景编码器、动作编码器、重建解码器和特征解耦损失层依次级联组成的视频特征解耦网络D，用于得到表示能力更好的动作特征和背景特征(4)构建由concatenate层、线性层、特征融合层、信息融合层、线性加权层、权重校准损失层依次级联组成的多模态融合网络F；(5)构建包括正负mask向量采样层、正负样本生成器、负样本权重分配层、对比损失层组成的交叉对比网络C，用于进行以文本为锚点的视频加权对比和以视频为锚点的文本加权对比；(6)构建依次由定位层、定位损失层组成的定位回归网络R；(7)将特征解耦网络、多模态融合网络和定位回归网络依次连接，并将交叉对比网络与多模态融合网络双向连接，构成文本视频定位网络E；(8)对文本视频定位网络E进行训练：(8a)采用均服从[
‑
1,1]的均匀分布的网络参数对文本视频定位网络E进行初始化；(8b)设文本视频定位网络的损失函数为：其中为权重校准损失函数，为定位回归损失函数，为重建损失函数，为加权对比损失函数；(8c)将视频特征X
i
输入到特征解耦网络D中，分解出动作特征A
i
和背景特征B
i
；将动作特征A
i
和背景特征B
i
与文本特征q
i
输入多模态融合网络F中生成融合文本语义信息的视频全局特征和权重向量m
i
；将视频全局特征S
i
和文本特征q
i
以及权重向量m
i
输入到交叉对比网络对视频全局特征进行优化；将经过优化得到的视频全局特征输入到定位回归网络中，通过最小化损失函数完成对文本视频定位网络的训练；(9)对待定位的视频进行文本定位：(9a)从与训练样本集不相交的测试样本集中提取视频特征和文本特征(9b)将提取的视频特征输入到训练后文本视频定位网络的特征解耦网络中，输出解耦的动作特征和背景特征(9c)将解耦的动作特征和背景特征以及文本特征输入到训练后文本视频定位网络的多模态融合网络中，输出融合了语义信息的全局视频特征向量
(9d)将全局视频特征向量输入到训练后文本视频定位网络的定位回归网络中，得到最终预测的文本查询句在视频中对应的起止时间坐标(t
s
,t
e
)，完成视频时序定位。2.根据权利要求1所述的方法，其中(2a)中对训练样本集中的视频进行特征提取和采样，是采用已预训练过的C3D模型或已预训练过的I3D模型，将训练数据输入C3D或I3D模型中取其最后一个全连接层的输出作为视频特征X
i
，将提取的所有视频特征X
i
进行平均切分，得到T＝128个视频片段特征x
i
。3.根据权利要求1所述的方法，其中(2b)中的对训练样本集中的文本进行特征提取，是将已预训练过的Glove网络输出维度为300的词向量输入到双向长短期记忆网络LSTM中，将该LSTM网络中前向和后向的最后一个隐层的输出进行拼接，得到维度为512的全局文本特征q
i
。4.根据权利要求1所述的方法，其中(3)中的背景编码器、动作编码器和重建解码器结构相同，均由输入维度为1024，输出维度为1024的全连接层、激活函数为非线性ReLU函数、动量参数为0.99的一维批规范化层组成，该重建解码器的输出是通过一个特征解耦损失函数更新特征解耦网络的参数，其数学表达式为：其中，||||1表示L1距离，N是批大小100，T是视频片段的数目128，表示第i个视频特征的第t个视频片段特征，表示重建的第i个视频特征的第t个视频片段特征，表示的相邻片段特征，表示重建的的相邻片段特征。5.根据权利要求1所述的方法，其中(4)中多模态融合网络F的各层结构及功能如下：所述concatenate层，用于对特征解耦模块输出的背景特征向量B
i
和动作特征向量A
i
进行维度上的拼接得到拼接向量；所述线性层，用于将concatenate层输出的拼接向量和文...

【专利技术属性】
技术研发人员：杨延华，王赫男，胥喆，杨木李，张兹琪，邓成，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人