用于检索视频时间段的方法和系统技术方案

技术编号:24949853 阅读:40 留言:0更新日期:2020-07-18 00:03
提供了一种用于检索视频时间段的方法和系统。在该方法中,分析视频以获得视频的帧特征信息;帧特征信息被输入到编码器以输出与视频的时间信息相关的第一数据;将第一数据和用于检索视频的视频时间段的检索描述输入解码器以输出第二数据;根据第一数据和第二数据执行注意力计算训练;根据注意力计算训练确定视频的与检索描述对应的视频时间段。

【技术实现步骤摘要】
【国外来华专利技术】用于检索视频时间段的方法和系统
本公开涉及机器学习,并且特别地,涉及用于检索视频时间段的方法和系统。
技术介绍
利用自然语言对视频中的瞬间或时刻(moment)进行定位是一个具有巨大商业潜力和应用前景的重要研究课题,如视频检索、视频摘要、视频描述和问答等。然而,大多数现有的系统都是用自然语言检索整个视频片段,自然语言决定了视频中发生了什么,而不是何时发生。之前的一些工作试图提出“瞬间”检索系统,但是,由于视频数据集必须包含大量成对的局部视频片段和引用表达式,或者包含唯一标识对应瞬间的文本描述信息,具有稀缺性和不可用性,因此上述“瞬间”检索系统只能达到非常有限的精度。大多数现有系统的目标是通过自然语言搜索来检索特定的视频(而不是视频中的某个瞬间或时刻)。自然语言视频检索方法的目的是用自然语言搜索来检索特定视频。目前的方法采用了类似于传统图像语言嵌入的深视频语言嵌入。对于这种全视频检索,可以参考[1]M.Otani,Y.Nakashima,E.Rahtu,J.Heikkila,andN.Yokoya.“Learningjointrepres本文档来自技高网...

【技术保护点】
1.一种检索视频时间段的方法,包括:/n分析视频以获得所述视频的帧特征信息;/n将所述帧特征信息输入编码器以输出与所述视频的时间信息相关的第一数据;/n将所述第一数据和用于检索所述视频的视频时间段的检索描述输入解码器,以输出第二数据;/n根据所述第一数据和所述第二数据执行注意力计算训练;以及/n根据所述注意力计算训练确定所述视频的与所述检索描述的对应的视频时间段。/n

【技术特征摘要】
【国外来华专利技术】20180322 US 62/646,8341.一种检索视频时间段的方法,包括:
分析视频以获得所述视频的帧特征信息;
将所述帧特征信息输入编码器以输出与所述视频的时间信息相关的第一数据;
将所述第一数据和用于检索所述视频的视频时间段的检索描述输入解码器,以输出第二数据;
根据所述第一数据和所述第二数据执行注意力计算训练;以及
根据所述注意力计算训练确定所述视频的与所述检索描述的对应的视频时间段。


2.根据权利要求1所述的方法,其中,根据所述第一数据和所述第二数据执行注意力计算训练包括:
将所述第一数据和所述第二数据输入注意力层,所述注意力层连接至所述编码器和所述解码器;
对于所述视频的每个视频时间段,基于每个视频时间段与所述检索描述中包含的每个描述项之间的相关性,在所述注意力层获得时间注意力权重数据;
基于所述第一信息和所述时间注意力权重数据,在所述注意力层获得加权平均数据,并将所述加权平均向量信息输出到FC层,所述FC层连接至所述注意力层和所述解码器;以及
基于所述加权平均数据和所述第二数据,在所述FC层获得最终注意力数据,并将所述最终注意力数据输出到解码器。


3.根据权利要求2所述的方法,其中,如下获得所述时间注意力权重数据:
score(ht,hs)=htTWhs



其中,hs表示所述第一数据,ht表示所述第二数据,W表示用于生成非标准化时间分数的权重矩阵,αts表示所述时间注意力权重;ct、hs、ht基于时间步来计算。


4.根据权利要求3所述的方法,其中,如下获得所述加权平均数据:



其中,ct表示所述加权平均数据。


5.根据权利要求4所述的方法,其中,如下获得所述最终注意力数据:
at=tanh(Wc[ct;ht])
其中,at表示最终注意力数据,Wc表示用于生成at的权重矩阵。


6.根据权利要求3所述的方法,其中,所述根据所述注意力计算训练确定所述视频的视频时间段包括:
对于所述视频的每个视频时间段,将与所述检索描述中包含的所有描述项相关的所有时间注意力权重相加;以及
将总时间注意力权重大于阈值的视频时间段确定为检索到的视频时间段。


7.根据权利要求2所述的方法,其中,所述第一数据表示所述编码器的当前状态向量表示,所述第二数据表示所述解码器的当前目标隐藏状态向量表示。


8.根据权利要求1所述的方法,其中,所述分析所述视频以获得所述视频的帧特征信息包括:
将所述视频分成视频时间段;
将所述视频时间段输入包括多个层的卷积神经网络(CNN);以及
从所述CNN提取特征作为所述视频的所述帧特征信息。


9.根据权利要求1所述的方法,其中,所述检索描述是文本输入或能够转换成文本的语音输入。


10.根据权利要求1所述的方法,其中,所述编码器是用堆叠循环神经网络(RNN)实现的,并且所述解码器是用另一堆叠循环RNN实现的。


11.一种用于检索视频时间段的系统,包括:
提取器,用于提取输入到所述提取器的视频的帧特征信息;
编码器,连接至所述提取器并用于根据所述帧特征信息获得所述视频的时间信息;
解码器,连接至所述编码器,用于从所述编码器接收所述时间信息、从外部接收检索描述、并且根据所述时间信息和所述检索描述获得所述解码器的状态信息;
层发生器,连接至所述编码器和所述解码器,用于从所述编码器接收所述时间信息并从所述解码器接收所述状态信息,并根据所述时间信息和所述状态信息进行注意力计算;以及
处理器,连接至所述层发生器,用于根据在所述层发生器进行的所述注意力计算,确定所述...

【专利技术属性】
技术研发人员:萧人豪何朝文
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1