视频片段定位方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:26178858 阅读:53 留言:0更新日期:2020-10-31 14:31
本申请公开了一种视频片段定位方法、装置、计算机设备及存储介质,属于视频处理技术领域。本申请通过获取视频单元维度的单元特征,根据单元特征确定视频片段的片段特征,获取到的片段特征中融合了多个视频单元的特征和视频单元之间的时序关联性;再将视频片段的片段特征与目标文本的文本特征进行融合,特征融合过程中充分应用了视频片段维度的特征以及各个视频片段之间的时序关联性,从而基于融合后的特征可以获取到更准确的注意力权重,由注意力权重来表示视频片段和目标文本之间的匹配度,进而在基于注意力权重进行视频片段定位时,可以更准确的定位出与目标文本相匹配的目标视频片段。

【技术实现步骤摘要】
视频片段定位方法、装置、计算机设备及存储介质
本申请涉及视频处理
,特别涉及一种视频片段定位方法、装置、计算机设备及存储介质。
技术介绍
随着视频应用的普及,网络中的视频数量越来越多,在视频观看时,基于一段文本信息快速、准确地定位到一段视频片段的需求也越来越大。目前,在基于一段文本信息进行视频片段定位时,通常是需要将文本信息和视频输入视频识别模型,由视频识别模型提取视频中各个视频帧的帧特征以及文本信息的文本特征,基于帧特征与文本特征,进行视频帧与文本信息的匹配,从而确定出各个视频帧与文本信息的之间匹配度,进而在视频中定位出与文本信息最匹配的视频片段。在上述视频片段定位过程中,仅获取到每个视频帧的特征,基于视频帧维度的特征进行视频片段定位,缺乏对视频片段维度的特征的应用,运算过程中也就无法融合视频片段之间的关联性,导致视频片段的定位结果准确率较低。
技术实现思路
本申请实施例提供了一种视频片段定位方法、装置、计算机设备及存储介质,可以提高视频片段定位结果的准确率。该技术方案如下:一方面,提供了一种视频片段定位方法,该方法包括:对视频中视频片段所包括的至少两个视频单元进行特征提取,得到该至少两个视频单元的单元特征;基于至少两个视频片段所包括的视频单元以及该至少两个视频单元的单元特征,获取该至少两个视频片段的片段特征;将该至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合,得到该至少两个视频片段的融合片段特征;基于该至少两个视频片段的融合片段特征,得到该至少两个视频片段的第一注意力权重,该第一注意力权重用于指示视频片段与该目标文本之间的匹配度;从该至少两个视频片段中,获取与该目标文本之间的匹配度满足参考条件的视频片段,作为目标视频片段。一方面,提供了一种视频片段定位装置,该装置包括:第一获取模块,用于对视频中视频片段所包括的至少两个视频单元进行特征提取,得到该至少两个视频单元的单元特征;第二获取模块,用于基于至少两个视频片段所包括的视频单元以及该至少两个视频单元的单元特征,获取该至少两个视频片段的片段特征;特征融合模块,用于将该至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合,得到该至少两个视频片段的融合片段特征;第三获取模块,用于基于该至少两个视频片段的融合片段特征,得到该至少两个视频片段的第一注意力权重,该第一注意力权重用于指示视频片段与该目标文本之间的匹配度;第四获取模块,用于从该至少两个视频片段中,获取与该目标文本之间的匹配度满足参考条件的视频片段,作为目标视频片段。在一种可能实现方式中,该第二获取模块包括:初始片段特征获取子模块,用于基于该至少两个视频片段所包括视频单元的单元特征,确定该至少两个视频片段的初始片段特征;采样子模块,用于对该至少两个视频片段的初始片段特征进行采样,得到该至少两个视频片段的片段特征。在一种可能实现方式中,该采样子模块包括:采样时刻确定单元,用于基于该视频片段的时长,确定该视频片段对应的采样时刻,每个视频片段对应的采样时刻的数目相同;采样单元,用于基于该视频片段对应的采样时刻,对该视频片段的初始片段特征进行采样,得到该视频片段的片段特征。在一种可能实现方式中,该采样单元用于:基于该至少两个视频片段对应的采样时刻以及该至少两个视频片段在该视频中的位置信息,构造采样矩阵;将该采样矩阵与该至少两个视频片段的初始片段特征相乘,得到采样特征矩阵,该采样特征矩阵中的一个特征用于表示一个视频片段的采样特征;对该至少两个视频片段的采样特征进行降维处理,得到该至少两个视频片段的片段特征。在一种可能实现方式中,该特征融合模块包括:文本特征获取子模块,用于获取该目标文本的文本特征;矩阵构造子模块,用于基于该至少两个视频片段的片段特征以及该至少两个视频片段在该视频中的位置信息,构造该视频对应的第一特征矩阵;扩展子模块,用于基于该第一特征矩阵的维度,对该文本特征进行维度扩展,得到扩展矩阵,该扩展矩阵的维度与该第一特征矩阵的维度相同;特征融合子模块,用于将该第一特征矩阵与该扩展矩阵进行特征融合,得到该至少两个视频片段的融合片段特征。在一种可能实现方式中,该特征融合子模块用于:将该第一特征矩阵与该扩展矩阵中相同位置的元素相乘,得到中间特征矩阵;对该中间特征矩阵进行池化处理,得到第二特征矩阵,该第二特征矩阵中的一个特征用于表示一个视频片段的融合片段特征。在一种可能实现方式中,该第三获取模块用于:对该第二特征矩阵进行至少一次卷积运算,得到第一注意力矩阵,该第一注意力矩阵中的一个元素用于表示一个视频片段的该第一注意力权重。在一种可能实现方式中,该装置还包括:第五获取模块,用于获取该至少两个视频单元的第二注意力权重,该第二注意力权重用于指示视频单元与该目标文本之间的匹配度;调整模块,用于基于该至少两个视频片段所包括的视频单元以及该至少两个视频单元的第二注意力权重,对该至少两个视频片段的第一注意力权重进行调整。在一种可能实现方式中,该第五获取模块用于:将该至少两个视频单元的单元特征分别与该目标文本的文本特征进行融合,得到该至少两个视频单元的融合单元特征;基于该至少两个视频单元的融合单元特征,得到该至少两个视频单元的第二注意力权重。在一种可能实现方式中,该调整模块用于:对于任一视频片段,从该至少两个视频单元中,确定该任一视频片段的中心时刻对应的目标视频单元;基于该目标视频单元的第二注意力权重,对该任一视频片段的第一注意力权重进行调整。在一种可能实现方式中,该装置还包括显示模块,用于执行下述任一项:在该视频的播放界面显示标注信息,该标注信息用于指示该目标视频片段的起始时刻和结束时刻;在该视频的该播放界面显示该目标视频片段的链接,该链接用于提供对该目标视频片段进行播放的功能。在一种可能实现方式中,该装置还包括:第六获取模块,用于基于该至少两个视频片段的第一注意力权重对该至少两个视频片段的片段特征进行加权运算,得到该至少两个视频片段的加权片段特征;第七获取模块,用于通过长短时记忆网络对该至少两个视频片段的加权片段特征进行特征提取,基于提取到的特征确定第一候选文本;第八获取模块,用于获取该第一候选文本与该目标文本之间的第一误差值。一方面,提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器加载并执行以实现该视频片段定位方法所执行的操作。一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行以实现该视频片段定位方法所执行的操作。一方面,本文档来自技高网...

【技术保护点】
1.一种视频片段定位方法,其特征在于,所述方法包括:/n对视频中视频片段所包括的至少两个视频单元进行特征提取,得到所述至少两个视频单元的单元特征;/n基于至少两个视频片段所包括的视频单元以及所述至少两个视频单元的单元特征,获取所述至少两个视频片段的片段特征;/n将所述至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合,得到所述至少两个视频片段的融合片段特征;/n基于所述至少两个视频片段的融合片段特征,得到所述至少两个视频片段的第一注意力权重,所述第一注意力权重用于指示视频片段与所述目标文本之间的匹配度;/n从所述至少两个视频片段中,获取与所述目标文本之间的匹配度满足参考条件的视频片段,作为目标视频片段。/n

【技术特征摘要】
1.一种视频片段定位方法,其特征在于,所述方法包括:
对视频中视频片段所包括的至少两个视频单元进行特征提取,得到所述至少两个视频单元的单元特征;
基于至少两个视频片段所包括的视频单元以及所述至少两个视频单元的单元特征,获取所述至少两个视频片段的片段特征;
将所述至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合,得到所述至少两个视频片段的融合片段特征;
基于所述至少两个视频片段的融合片段特征,得到所述至少两个视频片段的第一注意力权重,所述第一注意力权重用于指示视频片段与所述目标文本之间的匹配度;
从所述至少两个视频片段中,获取与所述目标文本之间的匹配度满足参考条件的视频片段,作为目标视频片段。


2.根据权利要求1所述的方法,其特征在于,所述基于至少两个视频片段所包括的视频单元以及所述至少两个视频单元的单元特征,获取所述至少两个视频片段的片段特征,包括:
基于所述至少两个视频片段所包括视频单元的单元特征,确定所述至少两个视频片段的初始片段特征;
对所述至少两个视频片段的初始片段特征进行采样,得到所述至少两个视频片段的片段特征。


3.根据权利要求2所述的方法,其特征在于,所述对所述至少两个视频片段的初始片段特征进行采样,得到所述至少两个视频片段的片段特征,包括:
基于所述视频片段的时长,确定所述视频片段对应的采样时刻,每个视频片段对应的采样时刻的数目相同;
基于所述视频片段对应的采样时刻,对所述视频片段的初始片段特征进行采样,得到所述视频片段的片段特征。


4.根据权利要求3所述的方法,其特征在于,所述基于所述视频片段对应的采样时刻,对所述视频片段的初始片段特征进行采样,得到所述视频片段的片段特征,包括:
基于所述至少两个视频片段对应的采样时刻以及所述至少两个视频片段在所述视频中的位置信息,构造采样矩阵;
将所述采样矩阵与所述至少两个视频片段的初始片段特征相乘,得到采样特征矩阵,所述采样特征矩阵中的一个特征用于表示一个视频片段的采样特征;
对所述至少两个视频片段的采样特征进行降维处理,得到所述至少两个视频片段的片段特征。


5.根据权利要求1所述的方法,其特征在于,所述将所述至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合,得到所述至少两个视频片段的融合片段特征,包括:
获取所述目标文本的文本特征;
基于所述至少两个视频片段的片段特征以及所述至少两个视频片段在所述视频中的位置信息,构造所述视频对应的第一特征矩阵;
基于所述第一特征矩阵的维度,对所述文本特征进行维度扩展,得到扩展矩阵,所述扩展矩阵的维度与所述第一特征矩阵的维度相同;
将所述第一特征矩阵与所述扩展矩阵进行特征融合,得到所述至少两个视频片段的融合片段特征。


6.根据权利要求5所述的方法,其特征在于,所述将所述第一特征矩阵与所述扩展矩阵进行特征融合,得到所述至少两个视频片段的融合片段特征,包括:
将所述第一特征矩阵与所述扩展矩阵中相同位置的元素相乘,得到中间特征矩阵;
对所述中间特征矩阵进行池化处理,得到第二特征矩阵,所述第二特征矩阵中的一个特征用于表示一个视频片段的融合片段特征。


7.根据权利要求6所述的方法,其特征在于,所述基于所述至少两个视频片段的融合片段特征,得到所述至少两个视频片段的第一注意力权重,包括:
对所述第二特征矩阵进行至少一次卷积运算,得到第一注意力矩阵,所述第一注意力矩阵中的一个元素用于表示一个视频片段的所述第一注意力权重。


8.根据权利要求1所述的方法,其特征在于,所述从所述至少两个视频片段中,获取与所述目...

【专利技术属性】
技术研发人员:王景文宋怡君马林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1