视频描述生成方法、装置、视频播放方法、装置和存储介质制造方法及图纸

技术编号:21738416 阅读:14 留言:0更新日期:2019-07-31 20:15
本发明专利技术揭示了一种视频描述生成、装置、视频播放方法、装置和计算机可读存储介质。所述方法包括:提取视频特征,获得对应于视频流中视频编码时刻的视频特征序列;通过前向和后向递归神经网络编码视频特征序列,获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列;根据前向隐状态序列和后向隐状态序列,定位每个视频编码时刻所对应的事件以及在视频编码时刻上事件对应的区间,进而预测所述事件的视频内容描述。在区分重叠事件的基础上,引入事件所对应的区间来预测生成事件在此视频编码时刻所对应的词,对于在此视频编码时刻上重叠的事件而言,即便发生着重叠,仍然是对应于不同区间的,在此视频编码时刻上对事件所进行的视频内容描述将得以具备非常高的区分度,以此类推,对给定的视频流进行着更有区分度的事件描述。

Video description generation method, device, video playback method, device and storage medium

【技术实现步骤摘要】
视频描述生成方法、装置、视频播放方法、装置和存储介质
本专利技术涉及计算机视觉
,特别涉及一种视频描述生成方法、装置、视频播放方法、装置和计算机可读存储介质。
技术介绍
随着计算机视觉技术在人工智能上的突破性应用,计算机视觉技术中视频描述生成的应用量有了爆炸性的增长,视频描述生成的实现被部署到各种应用中,为应用完成视频内容描述任务。现有的视频描述生成,是通过单向递归网络来检测事件,得到事件表征向量,并输入到另一个解码的递归网络中,以产生对应的事件描述。但是,由于是通过单向递归网络,并且由随之而生成的隐状态向量作为事件表征向量,因此,对于结束时间相近的事件,即在时间上存在重叠的事件,并无法准确定位得到,从而对于时间上存在重叠的事件,其所对应视频内容的准确描述更无从谈起。也就是说,视频描述生成的实现中无法有效区分重叠事件,并对重叠事件进行更有区分度的描述。
技术实现思路
为了解决相关技术的视频描述生成实现中难以区分重叠事件,且无法对重叠事件进行更有区分度的描述的技术问题,本专利技术提供了一种视频描述生成、装置、视频播放方法、装置和计算机可读存储介质。一种视频描述生成方法,所述方法包括:提取视频特征,获得对应于视频流中视频编码时刻的视频特征序列;通过前向和后向递归神经网络编码所述视频特征序列,获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列;根据所述前向隐状态序列和后向隐状态序列,定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间;根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述,生成所述事件在所述视频编码时刻所对应的词;通过所述事件对应于视频编码时刻的所有词,构建所述视频流中事件的自然语言描述。一种视频描述生成装置,所述装置包括:特征提取模块,用于提取视频特征,获得对应于视频流中视频编码时刻的视频特征序列;编码模块,用于通过前向和后向递归神经网络编码所述视频特征序列,获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列;定位模块,用于根据所述前向隐状态序列和后向隐状态序列,定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间;描述预测模块,用于根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述,生成所述事件在所述视频编码时刻所对应的词;描述构建模块,用于通过所述事件对应于视频编码时刻的所有词,构建所述视频流中事件的自然语言描述。一种视频描述生成装置,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的方法。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。一种视频播放方法,适用于计算机设备,所述方法包括:视频边播放边对其进行视频描述生成中对应于各视频编码时刻的视频特征序列,确定对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列;根据所述前向隐状态序列和后向隐状态序列,定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间;根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述,即时获得所述视频流中视频编码时刻上事件的自然语言描述;按照所述视频编码时刻以及所播放视频的进度,为所播放视频内容中发生的事件进行相应自然语言描述的显示。一种视频播放装置,包括处理器以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如下方法步骤:视频边播放边对其进行视频描述生成中对应于各视频编码时刻的视频特征序列,确定对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列;根据所述前向隐状态序列和后向隐状态序列,定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间;根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述,即时获得所述视频流中视频编码时刻上事件的自然语言描述;按照所述视频编码时刻以及所播放视频的进度,为所播放视频内容中发生的事件进行相应自然语言描述的显示。本专利技术的实施例提供的技术方案可以包括以下有益效果:对给定的视频流,首先提取视频特征,获得对应视频流中视频编码时刻的视频特征序列,然后通过前向和后向递归神经网络编码视频特征序列,获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列,进而便根据前向隐状态序列和后向隐状态序列来定位每个视频编码时刻所对应的事件以及在此视频编码时刻上所定位事件对应的区间,以在此视频编码时刻重叠的事件都精准定位出来,有效区分在此视频编码时刻上重叠的事件,最后根据视频编码时刻上事件对应的区间来预测事件的视频内容描述,生成事件在此视频编码时刻所对应的词,至此,即可事件对应于视频编码时刻的所有词,构建得到视频流中所定位得到事件的自然语言描述,在区分重叠事件的基础上,引入事件所对应的区间来预测生成事件在此视频编码时刻所对应的词,对于在此视频编码时刻上重叠的事件而言,即便发生着重叠,仍然是对应于不同区间的,因此,在此视频编码时刻上对事件所进行的视频内容描述将得以具备非常高的区分度,以此类推,对给定的视频流进行着更有区分度的事件描述。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并于说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的本专利技术所涉及的实施环境的示意简图;图2是根据一示例性实施例示出的一种装置的框图;图3是根据一示例性实施例示出的一种视频描述生成方法的流程图;图4是根据图3对应实施例示出的对步骤350的细节进行描述的流程图;图5是根据图3对应实施例示出的对步骤370的细节进行描述的流程图;图6是根据图5对应实施例求出的对步骤371的细节进行描述的流程图;图7是根据图6对应实施例示出的对步骤3713的细节进行描述的流程图;图8是根据图5对应实施例示出的对步骤373的细节进行描述的流程图;图9是根据图8对应实施例示出的对步骤3733的细节进行描述的流程图;图10是根据一示例性实施例示出的视频描述生成的整体框架示意图;图11是根据一示例性实施例示出的上下文门控调节的动态选择性融合流程图;图12是一示例性实施例示出的一种视频描述生成装置的框图;图13是根据图12所对应实施例示出的对定位模块的细节进行描述的框图;图14是根据图12所对应实施例示出的对描述预测模块的细节进行描述的框图;图15是根据图12所对应实施例示出的对特征融合单元的细节进行描述的框图;图16是根据图15所对应实施例示出的对特征整合子单元的细节进行描述的框图;图17是根据图14所示实施例示出的对解码单元的细节进行描述的框图;图18是根据图17对应实施例示出的对空间映射子单元的细节进行的描述的框图。具体实施方式这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。图1是根据一示例性实施例示出的本专利技术所涉及的实本文档来自技高网...

【技术保护点】
1.一种视频描述生成方法,其特征在于,所述方法包括:提取视频特征,获得对应于视频流中视频编码时刻的视频特征序列;通过前向和后向递归神经网络编码所述视频特征序列,获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列;根据所述前向隐状态序列和后向隐状态序列,定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间;根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述,生成所述事件在所述描述解码时刻所对应的词;通过所述事件对应于视频编码时刻的所有词,构建所述视频流中事件的自然语言描述。

【技术特征摘要】
1.一种视频描述生成方法,其特征在于,所述方法包括:提取视频特征,获得对应于视频流中视频编码时刻的视频特征序列;通过前向和后向递归神经网络编码所述视频特征序列,获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列;根据所述前向隐状态序列和后向隐状态序列,定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间;根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述,生成所述事件在所述描述解码时刻所对应的词;通过所述事件对应于视频编码时刻的所有词,构建所述视频流中事件的自然语言描述。2.根据权利要求1所述的方法,其特征在于,所述提取视频特征,获得对应于视频流中视频编码时刻的视频特征序列,包括:按照指定时间间隔提取所述视频流在每一视频编码时刻的视频特征,对应于视频编码时刻的所述视频特征顺序形成视频特征序列。3.根据权利要求1所述的方法,其特征在于,所述根据所述前向隐状态序列和后向隐状态序列,定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间,包括:通过所述前向隐状态序列和后向隐状态序列进行前向预测和后向预测,为每个视频编码时刻获得前向候选区间和所对应的可信度,后向候选区间和所对应的可信度;针对于每个视频编码时刻,根据所对应的可信度进行所述前向候选区间和后向候选区间的合并预测,所述合并预测所得到的合并可信度定位所述视频编码时刻对应的事件,且所述事件所对应预测合并的前向候选区间和后向候选区间形成所述视频编码时刻上事件对应的区间。4.根据权利要求1所述的方法,其特征在于,所述根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述,生成所述事件在所述视频编码时刻所对应的词,包括:在所述视频编码时刻上事件对应的区间,为所述事件进行事件特征的融合检测获得所述视频编码时刻上事件所对应的事件特征;通过所述视频编码时刻上事件所对应的事件特征和所述区间映射的上下文信息,解码所述视频编码时刻,生成所述事件在所述视频编码时刻对应的词。5.根据权利要求4所述的方法,其特征在于,所述在所述视频编码时刻上事件所对应的区间,为所述事件进行事件特征的融合检测获得所述视频编码时刻上事件所对应的事件特征,包括:检测所述视频编码时刻上事件所对应区间中的视觉特征;在注意力机制下根据所述区间映射的上下文信息整合所述视觉特征,获得所述视频编码时刻上事件所对应的事件特征。6.根据权利要求5所述的方法,其特征在于,所述在注意力机制下根据所述区间映射的上下文信息融合所述视觉特征,获得所述视频编码时刻上事件所对应的事件特征,包括:在所述区间映射的上下文信息辅助下,相对于所述事件生成上一视频编码时刻所对应词的状态信息,计算与所述视觉特征之间的相关度;根据所述视觉特征与所述事件在上一视频编码时刻所预测视频内容的相关度,运算所述事件在所对应区间中每一视觉特征的权重;根据所对应权重进行所述事件在所对应区间中视觉特征的整合,生成所述事件在所述视频编码时刻上对应的事件特征。7.根据权利要求4所述的方法,其特征在于,所述通过所述视频编码时刻上事件所对应的事件特征和所述区间映射的上下文信息,解码所述视频编码时刻,生成所述事件在所述视频编码时刻对应的词,包括:将视频编码时刻上事件所对应的事件特征和所对应区间映射的上下文信息映射至同一逻辑空间;对映射于同一逻辑空间的事件特征和上下文信息执行门控操作,自适应构建所述视频编码时刻上所述事件向解码器输入的特征;通过所述视频编码时刻上所述事件经由门控操作而向解码器输入的特征,由所述解码器预测生成所述事件在所述视频编码时刻对应的词。8.根据权利要求7所述的方法,其特征在于,所述对映射于同一逻辑空间的事件特征和上下文信息执行门控操作,自适应构建所述视频编码时刻上所述事件向解码器输入的特征,包括:结合所述事件在上一视频编码时刻所预测视频内容生成的词以及状态信息,对映射于同一逻辑空间的事件特征和上下文信息进行非...

【专利技术属性】
技术研发人员:王景文姜文浩马林刘威
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1