【技术实现步骤摘要】
视频片段定位方法、装置、计算机设备及存储介质
本申请涉及视频处理
,特别涉及一种视频片段定位方法、装置、计算机设备及存储介质。
技术介绍
随着视频应用的普及,网络中的视频数量越来越多,在视频观看时,基于一段文本信息快速、准确地定位到一段视频片段的需求也越来越大。目前,在基于一段文本信息进行视频片段定位时,通常是需要将文本信息和视频输入视频识别模型,由视频识别模型提取视频中各个视频帧的帧特征以及文本信息的文本特征,基于帧特征与文本特征,进行视频帧与文本信息的匹配,从而确定出各个视频帧与文本信息的之间匹配度,进而在视频中定位出与文本信息最匹配的视频片段。在上述视频片段定位过程中,仅获取到每个视频帧的特征,基于视频帧维度的特征进行视频片段定位,缺乏对视频片段维度的特征的应用,运算过程中也就无法融合视频片段之间的关联性,导致视频片段的定位结果准确率较低。
技术实现思路
本申请实施例提供了一种视频片段定位方法、装置、计算机设备及存储介质,可以提高视频片段定位结果的准确率。该技术方案如下:一方面,提供了一种视频片段定位方法,该方法包括:对视频中视频片段所包括的至少两个视频单元进行特征提取,得到该至少两个视频单元的单元特征;基于至少两个视频片段所包括的视频单元以及该至少两个视频单元的单元特征,获取该至少两个视频片段的片段特征;将该至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合,得到该至少两个视频片段的融合片段特征;基于该至少两个视频片 ...
【技术保护点】
1.一种视频片段定位方法,其特征在于,所述方法包括:/n对视频中视频片段所包括的至少两个视频单元进行特征提取,得到所述至少两个视频单元的单元特征;/n基于至少两个视频片段所包括的视频单元以及所述至少两个视频单元的单元特征,获取所述至少两个视频片段的片段特征;/n将所述至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合,得到所述至少两个视频片段的融合片段特征;/n基于所述至少两个视频片段的融合片段特征,得到所述至少两个视频片段的第一注意力权重,所述第一注意力权重用于指示视频片段与所述目标文本之间的匹配度;/n从所述至少两个视频片段中,获取与所述目标文本之间的匹配度满足参考条件的视频片段,作为目标视频片段。/n
【技术特征摘要】
1.一种视频片段定位方法,其特征在于,所述方法包括:
对视频中视频片段所包括的至少两个视频单元进行特征提取,得到所述至少两个视频单元的单元特征;
基于至少两个视频片段所包括的视频单元以及所述至少两个视频单元的单元特征,获取所述至少两个视频片段的片段特征;
将所述至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合,得到所述至少两个视频片段的融合片段特征;
基于所述至少两个视频片段的融合片段特征,得到所述至少两个视频片段的第一注意力权重,所述第一注意力权重用于指示视频片段与所述目标文本之间的匹配度;
从所述至少两个视频片段中,获取与所述目标文本之间的匹配度满足参考条件的视频片段,作为目标视频片段。
2.根据权利要求1所述的方法,其特征在于,所述基于至少两个视频片段所包括的视频单元以及所述至少两个视频单元的单元特征,获取所述至少两个视频片段的片段特征,包括:
基于所述至少两个视频片段所包括视频单元的单元特征,确定所述至少两个视频片段的初始片段特征;
对所述至少两个视频片段的初始片段特征进行采样,得到所述至少两个视频片段的片段特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述至少两个视频片段的初始片段特征进行采样,得到所述至少两个视频片段的片段特征,包括:
基于所述视频片段的时长,确定所述视频片段对应的采样时刻,每个视频片段对应的采样时刻的数目相同;
基于所述视频片段对应的采样时刻,对所述视频片段的初始片段特征进行采样,得到所述视频片段的片段特征。
4.根据权利要求3所述的方法,其特征在于,所述基于所述视频片段对应的采样时刻,对所述视频片段的初始片段特征进行采样,得到所述视频片段的片段特征,包括:
基于所述至少两个视频片段对应的采样时刻以及所述至少两个视频片段在所述视频中的位置信息,构造采样矩阵;
将所述采样矩阵与所述至少两个视频片段的初始片段特征相乘,得到采样特征矩阵,所述采样特征矩阵中的一个特征用于表示一个视频片段的采样特征;
对所述至少两个视频片段的采样特征进行降维处理,得到所述至少两个视频片段的片段特征。
5.根据权利要求1所述的方法,其特征在于,所述将所述至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合,得到所述至少两个视频片段的融合片段特征,包括:
获取所述目标文本的文本特征;
基于所述至少两个视频片段的片段特征以及所述至少两个视频片段在所述视频中的位置信息,构造所述视频对应的第一特征矩阵;
基于所述第一特征矩阵的维度,对所述文本特征进行维度扩展,得到扩展矩阵,所述扩展矩阵的维度与所述第一特征矩阵的维度相同;
将所述第一特征矩阵与所述扩展矩阵进行特征融合,得到所述至少两个视频片段的融合片段特征。
6.根据权利要求5所述的方法,其特征在于,所述将所述第一特征矩阵与所述扩展矩阵进行特征融合,得到所述至少两个视频片段的融合片段特征,包括:
将所述第一特征矩阵与所述扩展矩阵中相同位置的元素相乘,得到中间特征矩阵;
对所述中间特征矩阵进行池化处理,得到第二特征矩阵,所述第二特征矩阵中的一个特征用于表示一个视频片段的融合片段特征。
7.根据权利要求6所述的方法,其特征在于,所述基于所述至少两个视频片段的融合片段特征,得到所述至少两个视频片段的第一注意力权重,包括:
对所述第二特征矩阵进行至少一次卷积运算,得到第一注意力矩阵,所述第一注意力矩阵中的一个元素用于表示一个视频片段的所述第一注意力权重。
8.根据权利要求1所述的方法,其特征在于,所述从所述至少两个视频片段中,获取与所述目...
【专利技术属性】
技术研发人员:王景文,宋怡君,马林,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。