视频描述生成方法、装置、视频播放方法、装置和存储介质制造方法及图纸

技术编号：21738416 阅读：14 留言：0更新日期：2019-07-31 20:15

本发明专利技术揭示了一种视频描述生成、装置、视频播放方法、装置和计算机可读存储介质。所述方法包括：提取视频特征，获得对应于视频流中视频编码时刻的视频特征序列；通过前向和后向递归神经网络编码视频特征序列，获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列；根据前向隐状态序列和后向隐状态序列，定位每个视频编码时刻所对应的事件以及在视频编码时刻上事件对应的区间，进而预测所述事件的视频内容描述。在区分重叠事件的基础上，引入事件所对应的区间来预测生成事件在此视频编码时刻所对应的词，对于在此视频编码时刻上重叠的事件而言，即便发生着重叠，仍然是对应于不同区间的，在此视频编码时刻上对事件所进行的视频内容描述将得以具备非常高的区分度，以此类推，对给定的视频流进行着更有区分度的事件描述。

Video description generation method, device, video playback method, device and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
视频描述生成方法、装置、视频播放方法、装置和存储介质
本专利技术涉及计算机视觉
，特别涉及一种视频描述生成方法、装置、视频播放方法、装置和计算机可读存储介质。
技术介绍
随着计算机视觉技术在人工智能上的突破性应用，计算机视觉技术中视频描述生成的应用量有了爆炸性的增长，视频描述生成的实现被部署到各种应用中，为应用完成视频内容描述任务。现有的视频描述生成，是通过单向递归网络来检测事件，得到事件表征向量，并输入到另一个解码的递归网络中，以产生对应的事件描述。但是，由于是通过单向递归网络，并且由随之而生成的隐状态向量作为事件表征向量，因此，对于结束时间相近的事件，即在时间上存在重叠的事件，并无法准确定位得到，从而对于时间上存在重叠的事件，其所对应视频内容的准确描述更无从谈起。也就是说，视频描述生成的实现中无法有效区分重叠事件，并对重叠事件进行更有区分度的描述。
技术实现思路
为了解决相关技术的视频描述生成实现中难以区分重叠事件，且无法对重叠事件进行更有区分度的描述的技术问题，本专利技术提供了一种视频描述生成、装置、视频播放方法、装置和计算机可读存储介质。一种视频描述生成方法，所述方法包括：提取视频特征，获得对应于视频流中视频编码时刻的视频特征序列；通过前向和后向递归神经网络编码所述视频特征序列，获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列；根据所述前向隐状态序列和后向隐状态序列，定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间；根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述，生成所述事件在所述视频编码时刻所对应...

【技术保护点】
1.一种视频描述生成方法，其特征在于，所述方法包括：提取视频特征，获得对应于视频流中视频编码时刻的视频特征序列；通过前向和后向递归神经网络编码所述视频特征序列，获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列；根据所述前向隐状态序列和后向隐状态序列，定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间；根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述，生成所述事件在所述描述解码时刻所对应的词；通过所述事件对应于视频编码时刻的所有词，构建所述视频流中事件的自然语言描述。

【技术特征摘要】
1.一种视频描述生成方法，其特征在于，所述方法包括：提取视频特征，获得对应于视频流中视频编码时刻的视频特征序列；通过前向和后向递归神经网络编码所述视频特征序列，获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列；根据所述前向隐状态序列和后向隐状态序列，定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间；根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述，生成所述事件在所述描述解码时刻所对应的词；通过所述事件对应于视频编码时刻的所有词，构建所述视频流中事件的自然语言描述。2.根据权利要求1所述的方法，其特征在于，所述提取视频特征，获得对应于视频流中视频编码时刻的视频特征序列，包括：按照指定时间间隔提取所述视频流在每一视频编码时刻的视频特征，对应于视频编码时刻的所述视频特征顺序形成视频特征序列。3.根据权利要求1所述的方法，其特征在于，所述根据所述前向隐状态序列和后向隐状态序列，定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间，包括：通过所述前向隐状态序列和后向隐状态序列进行前向预测和后向预测，为每个视频编码时刻获得前向候选区间和所对应的可信度，后向候选区间和所对应的可信度；针对于每个视频编码时刻，根据所对应的可信度进行所述前向候选区间和后向候选区间的合并预测，所述合并预测所得到的合并可信度定位所述视频编码时刻对应的事件，且所述事件所对应预测合并的前向候选区间和后向候选区间形成所述视频编码时刻上事件对应的区间。4.根据权利要求1所述的方法，其特征在于，所述根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述，生成所述事件在所述视频编码时刻所对应的词，包括：在所述视频编码时刻上事件对应的区间，为所述事件进行事件特征的融合检测获得所述视频编码时刻上事件所对应的事件特征；通过所述视频编码时刻上事件所对应的事件特征和所述区间映射的上下文信息，解码所述视频编码时刻，生成所述事件在所述视频编码时刻对应的词。5.根据权利要求4所述的方法，其特征在于，所述在所述视频编码时刻上事件所对应的区间，为所述事件进行事件特征的融合检测获得所述视频编码时刻上事件所对应的事件特征，包括：检测所述视频编码时刻上事件所对应区间中的视觉特征；在注意力机制下根据所述区间映射的上下文信息整合所述视觉特征，获得所述视频编码时刻上事件所对应的事件特征。6.根据权利要求5所述的方法，其特征在于，所述在注意力机制下根据所述区间映射的上下文信息融合所述视觉特征，获得所述视频编码时刻上事件所对应的事件特征，包括：在所述区间映射的上下文信息辅助下，相对于所述事件生成上一视频编码时刻所对应词的状态信息，计算与所述视觉特征之间的相关度；根据所述视觉特征与所述事件在上一视频编码时刻所预测视频内容的相关度，运算所述事件在所对应区间中每一视觉特征的权重；根据所对应权重进行所述事件在所对应区间中视觉特征的整合，生成所述事件在所述视频编码时刻上对应的事件特征。7.根据权利要求4所述的方法，其特征在于，所述通过所述视频编码时刻上事件所对应的事件特征和所述区间映射的上下文信息，解码所述视频编码时刻，生成所述事件在所述视频编码时刻对应的词，包括：将视频编码时刻上事件所对应的事件特征和所对应区间映射的上下文信息映射至同一逻辑空间；对映射于同一逻辑空间的事件特征和上下文信息执行门控操作，自适应构建所述视频编码时刻上所述事件向解码器输入的特征；通过所述视频编码时刻上所述事件经由门控操作而向解码器输入的特征，由所述解码器预测生成所述事件在所述视频编码时刻对应的词。8.根据权利要求7所述的方法，其特征在于，所述对映射于同一逻辑空间的事件特征和上下文信息执行门控操作，自适应构建所述视频编码时刻上所述事件向解码器输入的特征，包括：结合所述事件在上一视频编码时刻所预测视频内容生成的词以及状态信息，对映射于同一逻辑空间的事件特征和上下文信息进行非...

【专利技术属性】
技术研发人员：王景文，姜文浩，马林，刘威，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人