一种跨模态时域视频定位方法及系统技术方案

技术编号：39647825 阅读：16 留言：0更新日期：2023-12-09 11:15

本发明专利技术提供一种跨模态时域视频定位方法及系统，该方法包括：获取公开数据集中视频和查询文本；对视频依次进行稀疏采样和邻接采样，对应得到采样视频和邻接视频；通过卷积神经网络提取采样视频和邻接视频中的视觉特征，并通过

全部详细技术资料下载

【技术实现步骤摘要】
一种跨模态时域视频定位方法及系统

[0001]本专利技术属于视频定位领域，尤其涉及一种跨模态时域视频定位方法及系统
。

技术介绍

[0002]跨模态时域视频定位旨在给定一段未剪辑视频（模态一）中定位与一条查询文本（模态二）的语义相关的视频片段，定位的视频片段由起始帧和终止帧确定
。
为保障精准定位效果，需要对视频和文本特征进行深度融合和语义对齐，准确区分相邻视频帧的语义差别
。
由于其在信息检索
、
人机交互等领域的巨大应用前景，跨模态时域视频定位任务近年来引起了研究界的重点关注
。
[0003]现有的跨模态时域视频定位方法都遵循了一个固定的模式：首先分别提取视频与文本数据的特征，再对二者进行特征融合，最后利用融合特征进行起止时间的预测
。
由于用于训练的视频通常过长，现有的方法都固定使用了视频稀疏下采样的预处理流程，按相同间隔将原视频采样处理成长度固定的较短视频作为实际的训练样本，再进行相应的训练
。
然而，稀疏下采样可能会将原视频中真实的事件开始
/
结束帧过滤掉，而将与查询事件不相关的视频帧认定为事件的开始
/
结束位置，这会为定位模型的训练引入偏差，导致视频定位准确度不高
。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供了一种跨模态时域视频定位方法及系统，用于消除时域视频定位中由视频稀疏下采样引入的偏差，提高视频定位准确度
。/>[0005]在本专利技术实施例的第一方面，提供了一种跨模态时域视频定位方法，包括：获取公开数据集中视频和查询文本；对视频依次进行稀疏采样和邻接采样，对应得到采样视频和邻接视频；通过卷积神经网络提取采样视频和邻接视频中的视觉特征，并通过
GloVe
模型提取查询文本特征；通过基于注意力机制的跨模态交互网络提取所述视觉特征和所述查询文本特征中的跨模态特征；将邻接视频跨模态特征向对应的采样视频跨模态特征按权重进行聚合；基于聚合后的跨模态特征，通过带软标签的预测器，预测视频定位起止帧位置
。
[0006]在本专利技术实施例的第二方面，提供了一种用于跨模态时域视频定位的系统，包括：数据获取模块，用于获取公开数据集中视频和查询文本；采样模块，用于对视频依次进行稀疏采样和邻接采样，对应得到采样视频和邻接视频；特征提取模块，用于通过卷积神经网络提取采样视频和邻接视频中的视觉特征，并通过
GloVe
模型提取查询文本特征；跨模态特征提取模块，用于通过基于注意力机制的跨模态交互网络提取所述视觉
特征和所述查询文本特征中的跨模态特征；聚合模块，用于将邻接视频跨模态特征向对应的采样视频跨模态特征按权重进行聚合；预测模块，用于基于聚合后的跨模态特征，通过带软标签的预测器，预测视频定位起止帧位置
。
[0007]在本专利技术实施例的第三方面，提供了一种电子设备，包括存储器
、
处理器以及存储在所述存储器中并可在所述处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如本专利技术实施例第一方面所述方法的步骤
。
[0008]在本专利技术实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本专利技术实施例第一方面提供的所述方法的步骤
。
[0009]本专利技术实施例中，通过对视频进行稀疏采样和邻接采样，并提取采样视频的视觉特征，结合查询文本特征，提取视觉特征和查询特征中的跨模态特征，将邻接采样跨模态特征按权重聚合后，通过带软标签的预测器来预测起止帧位置，从而能消除传统固定稀疏下采样将原视频中真实的事件起止帧过滤而引入的偏差，基于邻接采样及特征聚合可以提高时域视频定位精度，便于准确获取视频中起止帧位置
。
附图说明
[0010]为了更清楚地说明本专利技术实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，显而易见地，下面描述的附图仅仅是本专利技术的一些实施例，对本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他附图
。
[0011]图1为本专利技术一个实施例提供的一种跨模态时域视频定位方法的流程示意图；图2为本专利技术一个实施例提供的一种用于跨模态时域视频定位的系统的结构示意图；图3为本专利技术的一个实施例提供的一种电子设备的结构示意图
。
具体实施方式
[0012]为使得本专利技术的专利技术目的
、
特征
、
优点能够更加的明显和易懂，下面将结合本专利技术实施例中的附图，对本专利技术实施例中的技术方案进行清楚
、
完整地描述，显然，下面所描述的实施例仅仅是本专利技术一部分实施例，而非全部的实施例
。
基于本专利技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本专利技术保护的范围
。
[0013]应当理解，本专利技术的说明书或权利要求书及上述附图中的术语“包括”以及其他相近意思表述，意指覆盖不排他的包含，如包含一系列步骤或单元的过程
、
方法或系统
、
设备没有限定于已列出的步骤或单元
。
此外，“第一”“第二”用于区分不同对象，并非用于描述特定顺序
。
[0014]请参阅图1，本专利技术实施例提供的一种跨模态时域视频定位方法的流程示意图，包括：
S101、
获取公开数据集中视频和查询文本；从现有跨模态时域视频定位任务的公开数据集中，可以选择
Charades
‑
STA、TACoS
和
ActivityNet Captions
等数据集
。
[0015]Charades
‑
STA
是基于
Charades
数据集构造的，主要为包含室内活动内容的视频，平均时长在
30s
左右，其训练集与测试集各包含
12408
和
3720
个视频
‑
查询对；
TACoS
包含
127
个视频，其主要内容是厨房烹饪的单一场景，平均时长在7分钟左右，将其处理为训练集
、
测试集和验证集，各包含
10146、4083
和
4589
个视频
‑
查询对；
ActivityNet Captions
包含
20000
条未剪辑的
YouTube
视频，以及
100000
条文本描述，视频平均时长在2分钟左右，将其处理为训练集
、
测试集和验证集，各包含
37417、17031
和
17505
个视频...

【技术保护点】

【技术特征摘要】
1.
一种跨模态时域视频定位方法，其特征在于，包括：获取公开数据集中视频和查询文本；对视频依次进行稀疏采样和邻接采样，对应得到采样视频和邻接视频；通过卷积神经网络提取采样视频和邻接视频中的视觉特征，并通过
GloVe
模型提取查询文本特征；通过基于注意力机制的跨模态交互网络提取所述视觉特征和所述查询文本特征中的跨模态特征；将邻接视频跨模态特征向对应的采样视频跨模态特征按权重进行聚合；基于聚合后的跨模态特征，通过带软标签的预测器，预测视频定位起止帧位置
。2.
根据权利要求1所述的方法，其特征在于，所述对视频依次进行稀疏采样和邻接采样，对应得到采样视频和邻接视频包括：将原视频对应的起止时间按采样比例进行缩放，并额外保存软标签：；；式中，表示采样视频起止时间，表示原视频起止时间，
T
表示原视频帧数，
M
表示采样帧数，表示软标签时间，表示四舍五入操作，表示取浮点部分的值
。3.
根据权利要求1所述的方法，其特征在于，所述通过卷积神经网络提取采样视频和邻接视频中的视觉特征，并通过
GloVe
模型提取查询文本特征包括：对采样视频和邻接视频通过预训练的
VGG/I3D/C3D
网络提取初步特征，添加位置编码，并通过
Bi
‑
GRU
网络学习上下文时序信息，得到视觉特征；对查询文本通过
GloVe
模型获取每个单词的多维词向量，拼接得到句子向量，添加位置编码，并通过
Bi
‑
GRU
网络学习上下文时序信息，得到查询文本特征
。4.
根据权利要求1所述的方法，其特征在于，所述通过基于注意力机制的跨模态交互网络提取所述视觉特征和所述查询文本特征中的跨模态特征包括：计算视觉特征与查询文本特征的相似度矩阵；；式中，
S
表示相似度矩阵，
V
表示视觉特征，
Q
表示查询文本特征，
W
s
表示投影矩阵，
T
表示转置矩阵；分别计算视觉特征与查询文本特征的注意力权重；；；式中，
A
表示查询文本特征权重，
B
表示视觉特征权重，
、
表示每行
/
每列经过
Softmax
处理后的相似度矩阵，表示的转置矩阵；通过
Bi
‑
GRU
网络获取基于注意力的跨模态特征；
；式中，
F
表示跨模态特征，表示连接操作，表示哈达玛积
。5.
根据权利要求1所述的方法，其特征在于，所述将邻接视频跨模态特征向对应的采样视频跨模态特征按权重进行聚合前包括：计算采样视频的跨模态特征中每一帧特征与邻接采样视频跨模态特征中对应帧特征的余弦相似...

【专利技术属性】
技术研发人员：周潘，朱佳昊，熊泽雨，徐子川，施嘉雯，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人