基于神经网络的视频描述生成方法、存储介质及终端设备技术

技术编号:20389750 阅读:28 留言:0更新日期:2019-02-20 02:48
本发明专利技术属于计算机技术领域,尤其涉及一种基于神经网络的视频描述生成方法、计算机可读存储介质及终端设备。所述方法首先按照预设的帧间隔提取视频的图像帧,并将提取出的各个图像帧构造为所述视频的帧序列,然后分别计算所述帧序列中各个图像帧的特征向量,将所述帧序列中各个图像帧的特征向量依次输入到预设的神经网络编码器中进行处理,输出所述帧序列的语义向量,再将所述帧序列的语义向量输入到预设的神经网络解码器中进行处理,生成所述帧序列的词向量序列,最后使用归一化指数函数对所述词向量序列进行处理,生成所述视频的描述词语序列。通过本发明专利技术,使用神经网络取代人工进行视频描述,无需人力介入,工作效率得到了极大提升。

【技术实现步骤摘要】
基于神经网络的视频描述生成方法、存储介质及终端设备
本专利技术属于计算机
,尤其涉及一种基于神经网络的视频描述生成方法、计算机可读存储介质及终端设备。
技术介绍
当前,随着互联网、数字化设备以及多媒体技术的发展,由于视频相比文字和图片更为生动,因此视频受到了多媒体用户更多的关注。目前微信、快手等短视频应用及各种网络直播平台的快速发展,使得视频在人们的生活中扮演着愈来愈重要的角色。为了便于人们更好的了解视频图像内容,对视频图像进行描述和标注,从而得到视频图像的语义信息格外重要。视频描述,就是根据一个视频的具体内容,使用自然语言描述视频内容的特征,使用应用拍摄短视频然后自动生成相应的描述是视频描述的一个重要应用。视频描述在人机接口、视频检索、为盲人描述电影等领域中发挥的作用也愈发显著。对视频进行标注、描述的最直接传统的方法是人工的方式,但人工进行视频描述需要耗费大量的时间,效率十分低下,面对目前网络时代的海量视频,此种方式无疑是难以满足实际需要的。
技术实现思路
有鉴于此,本专利技术实施例提供了一种基于神经网络的视频描述生成方法、计算机可读存储介质及终端设备,以解决人工进行视频描述需要耗费大量的时间,效率十分低下的问题。本专利技术实施例的第一方面提供了一种基于神经网络的视频描述生成方法,可以包括:按照预设的帧间隔提取视频的图像帧,并将提取出的各个图像帧构造为所述视频的帧序列;分别计算所述帧序列中各个图像帧的特征向量;将所述帧序列中各个图像帧的特征向量依次输入到预设的神经网络编码器中进行处理,输出所述帧序列的语义向量;将所述帧序列的语义向量输入到预设的神经网络解码器中进行处理,生成所述帧序列的词向量序列;使用归一化指数函数对所述词向量序列进行处理,生成所述视频的描述词语序列。本专利技术实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:按照预设的帧间隔提取视频的图像帧,并将提取出的各个图像帧构造为所述视频的帧序列;分别计算所述帧序列中各个图像帧的特征向量;将所述帧序列中各个图像帧的特征向量依次输入到预设的神经网络编码器中进行处理,输出所述帧序列的语义向量;将所述帧序列的语义向量输入到预设的神经网络解码器中进行处理,生成所述帧序列的词向量序列;使用归一化指数函数对所述词向量序列进行处理,生成所述视频的描述词语序列。本专利技术实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:按照预设的帧间隔提取视频的图像帧,并将提取出的各个图像帧构造为所述视频的帧序列;分别计算所述帧序列中各个图像帧的特征向量;将所述帧序列中各个图像帧的特征向量依次输入到预设的神经网络编码器中进行处理,输出所述帧序列的语义向量;将所述帧序列的语义向量输入到预设的神经网络解码器中进行处理,生成所述帧序列的词向量序列;使用归一化指数函数对所述词向量序列进行处理,生成所述视频的描述词语序列。本专利技术实施例与现有技术相比存在的有益效果是:本专利技术实施例首先按照预设的帧间隔提取视频的图像帧,并将提取出的各个图像帧构造为所述视频的帧序列,然后分别计算所述帧序列中各个图像帧的特征向量,将所述帧序列中各个图像帧的特征向量依次输入到预设的神经网络编码器中进行处理,输出所述帧序列的语义向量,再将所述帧序列的语义向量输入到预设的神经网络解码器中进行处理,生成所述帧序列的词向量序列,最后使用归一化指数函数对所述词向量序列进行处理,生成所述视频的描述词语序列。通过本专利技术实施例,使用神经网络取代人工进行视频描述,无需人力介入,即可在极短的时间内完成海量的视频描述工作,工作效率得到了极大提升。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例中一种视频描述生成方法的一个实施例流程图;图2为长短期记忆网络中的各个神经网络单元进行数据处理的示意图;图3为本专利技术实施例中一种视频描述生成装置的一个实施例结构图;图4为本专利技术实施例中一种终端设备的示意框图。具体实施方式为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术实施例中一种基于神经网络的视频描述生成方法的一个实施例可以包括:步骤S101、按照预设的帧间隔提取视频的图像帧,并将提取出的各个图像帧构造为所述视频的帧序列。所述帧间隔可以根据实际情况进行设置,例如,可以将其设置为3帧、5帧、10帧或者其它取值,即每隔3帧、5帧、10帧或者其它取值从所述视频中提取一个图像帧。需要注意的是,帧间隔设置的越小,则生成的视频描述结果越准确,但是计算量也越大,会造成较多的系统资源消耗,特别地,当将所述帧间隔设置为0,即提取所述视频中的所有图像帧,此时生成的视频描述结果最准确,但是计算量也最大,会造成最多的系统资源消耗,反之,帧间隔设置的越大,则生成的视频描述结果越粗略,但是计算量也越小,会造成较少的系统资源消耗,在实际使用中,需要综合考虑系统资源情况以及结果精度要求进行权衡。在进行完图像帧的提取后,可以根据下式构造所述视频的帧序列:V={v1,v2,…,vn,…,vN}其中,V为所述视频的帧序列,n为从所述视频中提取的图像帧的序号,1≤n≤N,N为从所述视频中提取的图像帧的总数,vn为从所述视频中提取的第n个图像帧。步骤S102、分别计算所述帧序列中各个图像帧的特征向量。在本实施例中,特征向量的计算在本质上是一种基于局部特征提取的图像表示与相似度度量的方法,局部特征的提取分为两步:提取目标关键点和对关键点进行描述,关键点的定位是目标识别的基础,一般是图像灰度变化的局部极值点,含有显著的结构性信息,甚至这些点也可以没有实际的直观视觉意义,但却在某种角度、某个尺度上含有丰富的易于匹配的信息。特征点描述即建立特征向量,特征空间的选择决定了图像的哪些特性参与匹配。特征点的特征描述应是对各种变化的不变量,以确保最低限度受位置、视角、尺度和光照等因素的影响。选择合理的特征空间可以降低各类图像变化因素对匹配算法速度、稳健性的影响。首先,进行基于图像多尺度表示的关键点检测。为了保证提取的特征对于尺度变换保持稳定性能,本实施例在尺度空间内进行图像关键点的检测,尺度空间理论最早出现于计算机视觉领域,其目的是模拟图像数据的多尺度特征。尺度空间理论的主要思想是利用高斯核对原始图像进行尺度变换,以获得多尺度下的图像表示。关键点检测主要由图像尺度空间生成,高斯差分金字塔建立,候选关键点获取,关键点精定位及其筛选和关键点主方向确定几个部分组成。图像尺度空间生成主要是对给定的二维图像生成在不本文档来自技高网...

【技术保护点】
1.一种基于神经网络的视频描述生成方法,其特征在于,包括:按照预设的帧间隔提取视频的图像帧,并将提取出的各个图像帧构造为所述视频的帧序列;分别计算所述帧序列中各个图像帧的特征向量;将所述帧序列中各个图像帧的特征向量依次输入到预设的神经网络编码器中进行处理,输出所述帧序列的语义向量;将所述帧序列的语义向量输入到预设的神经网络解码器中进行处理,生成所述帧序列的词向量序列;使用归一化指数函数对所述词向量序列进行处理,生成所述视频的描述词语序列。

【技术特征摘要】
1.一种基于神经网络的视频描述生成方法,其特征在于,包括:按照预设的帧间隔提取视频的图像帧,并将提取出的各个图像帧构造为所述视频的帧序列;分别计算所述帧序列中各个图像帧的特征向量;将所述帧序列中各个图像帧的特征向量依次输入到预设的神经网络编码器中进行处理,输出所述帧序列的语义向量;将所述帧序列的语义向量输入到预设的神经网络解码器中进行处理,生成所述帧序列的词向量序列;使用归一化指数函数对所述词向量序列进行处理,生成所述视频的描述词语序列。2.根据权利要求1所述的视频描述生成方法,其特征在于,所述神经网络编码器根据下式进行状态更新:其中,LSTM(1)为预设的第一长短期记忆网络,xt为所述第一长短期记忆网络在时刻t的输入,ht(1)为所述第一长短期记忆网络在时刻t的隐藏层状态向量,ht-1(1)为所述第一长短期记忆网络在时刻t-1的隐藏层状态向量;所述神经网络解码器根据下式进行状态更新:其中,LSTM(2)为预设的第二长短期记忆网络,wt-1为所述第二长短期记忆网络在时刻t-1生成的词向量,为由所述第二长短期记忆网络在时刻t-1生成的词向量与所述第一长短期记忆网络在时刻t的隐藏层状态向量组合成的向量,ct为所述第二长短期记忆网络在时刻t使用的注意力向量,ht(2)为所述第二长短期记忆网络在时刻t的隐藏层状态向量,ht-1(2)为所述第二长短期记忆网络在时刻t-1的隐藏层状态向量。3.根据权利要求2所述的视频描述生成方法,其特征在于,所述注意力向量的设置过程包括:根据下式计算所述注意力向量:其中,为预设的权重系数,且为预设的对齐函数。4.根据权利要求3所述的视频描述生成方法,其特征在于,所述对齐函数的设置过程包括:从以下函数集合中选取一个函数作为所述对齐函数:其中,Wa和Wb均为预设的系数。5.根据权利要求2至4中任一项所述的视频描述生成方法,其特征在于,所述第一长短期记忆网络和所述第二长短期记忆网络中的各个神经网络单元根据下式进行数据处理:其中,it为输入门在时刻t的输出,ft为遗忘门在时刻t的输出,ot为输出门在时刻t的输出,Wxi,Whi,Wxf,Whf,Wxo,Who,Wxg,Whg,bi,bf,bo,bg均为预设的参数,sigmoid为S型生长函数,且tanh为双曲正切函数,且6.一种计算机可读存储介质,所述计算机可读存储...

【专利技术属性】
技术研发人员:赵峰杜展王健宗肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1