基于神经网络的视频描述生成方法、存储介质及终端设备技术

技术编号：20389750 阅读：28 留言：0更新日期：2019-02-20 02:48

本发明专利技术属于计算机技术领域，尤其涉及一种基于神经网络的视频描述生成方法、计算机可读存储介质及终端设备。所述方法首先按照预设的帧间隔提取视频的图像帧，并将提取出的各个图像帧构造为所述视频的帧序列，然后分别计算所述帧序列中各个图像帧的特征向量，将所述帧序列中各个图像帧的特征向量依次输入到预设的神经网络编码器中进行处理，输出所述帧序列的语义向量，再将所述帧序列的语义向量输入到预设的神经网络解码器中进行处理，生成所述帧序列的词向量序列，最后使用归一化指数函数对所述词向量序列进行处理，生成所述视频的描述词语序列。通过本发明专利技术，使用神经网络取代人工进行视频描述，无需人力介入，工作效率得到了极大提升。

全部详细技术资料下载

【技术实现步骤摘要】
基于神经网络的视频描述生成方法、存储介质及终端设备
本专利技术属于计算机
，尤其涉及一种基于神经网络的视频描述生成方法、计算机可读存储介质及终端设备。
技术介绍
当前，随着互联网、数字化设备以及多媒体技术的发展，由于视频相比文字和图片更为生动，因此视频受到了多媒体用户更多的关注。目前微信、快手等短视频应用及各种网络直播平台的快速发展，使得视频在人们的生活中扮演着愈来愈重要的角色。为了便于人们更好的了解视频图像内容，对视频图像进行描述和标注，从而得到视频图像的语义信息格外重要。视频描述，就是根据一个视频的具体内容，使用自然语言描述视频内容的特征，使用应用拍摄短视频然后自动生成相应的描述是视频描述的一个重要应用。视频描述在人机接口、视频检索、为盲人描述电影等领域中发挥的作用也愈发显著。对视频进行标注、描述的最直接传统的方法是人工的方式，但人工进行视频描述需要耗费大量的时间，效率十分低下，面对目前网络时代的海量视频，此种方式无疑是难以满足实际需要的。
技术实现思路
有鉴于此，本专利技术实施例提供了一种基于神经网络的视频描述生成方法、计算机可读存储介质及终端设备，以解决人工进行视频描述需要耗费大量的时间，效率十分低下的问题。本专利技术实施例的第一方面提供了一种基于神经网络的视频描述生成方法，可以包括：按照预设的帧间隔提取视频的图像帧，并将提取出的各个图像帧构造为所述视频的帧序列；分别计算所述帧序列中各个图像帧的特征向量；将所述帧序列中各个图像帧的特征向量依次输入到预设的神经网络编码器中进行处理，输出所述帧序列的语义向量；将所述帧序列的语义向量输入到预设的神经网络...

【技术保护点】
1.一种基于神经网络的视频描述生成方法，其特征在于，包括：按照预设的帧间隔提取视频的图像帧，并将提取出的各个图像帧构造为所述视频的帧序列；分别计算所述帧序列中各个图像帧的特征向量；将所述帧序列中各个图像帧的特征向量依次输入到预设的神经网络编码器中进行处理，输出所述帧序列的语义向量；将所述帧序列的语义向量输入到预设的神经网络解码器中进行处理，生成所述帧序列的词向量序列；使用归一化指数函数对所述词向量序列进行处理，生成所述视频的描述词语序列。

【技术特征摘要】
1.一种基于神经网络的视频描述生成方法，其特征在于，包括：按照预设的帧间隔提取视频的图像帧，并将提取出的各个图像帧构造为所述视频的帧序列；分别计算所述帧序列中各个图像帧的特征向量；将所述帧序列中各个图像帧的特征向量依次输入到预设的神经网络编码器中进行处理，输出所述帧序列的语义向量；将所述帧序列的语义向量输入到预设的神经网络解码器中进行处理，生成所述帧序列的词向量序列；使用归一化指数函数对所述词向量序列进行处理，生成所述视频的描述词语序列。2.根据权利要求1所述的视频描述生成方法，其特征在于，所述神经网络编码器根据下式进行状态更新：其中，LSTM(1)为预设的第一长短期记忆网络，xt为所述第一长短期记忆网络在时刻t的输入，ht(1)为所述第一长短期记忆网络在时刻t的隐藏层状态向量，ht-1(1)为所述第一长短期记忆网络在时刻t-1的隐藏层状态向量；所述神经网络解码器根据下式进行状态更新：其中，LSTM(2)为预设的第二长短期记忆网络，wt-1为所述第二长短期记忆网络在时刻t-1生成的词向量，为由所述第二长短期记忆网络在时刻t-1生成的词向量与所述第一长短期记忆网络在时刻t的隐藏层状态向量组合成的向量，ct为所述第二长短期记忆网络在时刻t使用的注意力向量，ht(2)为所述第二长短期记忆网络在时刻t的隐藏层状态向量，ht-1(2)为所述第二长短期记忆网络在时刻t-1的隐藏层状态向量。3.根据权利要求2所述的视频描述生成方法，其特征在于，所述注意力向量的设置过程包括：根据下式计算所述注意力向量：其中，为预设的权重系数，且为预设的对齐函数。4.根据权利要求3所述的视频描述生成方法，其特征在于，所述对齐函数的设置过程包括：从以下函数集合中选取一个函数作为所述对齐函数：其中，Wa和Wb均为预设的系数。5.根据权利要求2至4中任一项所述的视频描述生成方法，其特征在于，所述第一长短期记忆网络和所述第二长短期记忆网络中的各个神经网络单元根据下式进行数据处理：其中，it为输入门在时刻t的输出，ft为遗忘门在时刻t的输出，ot为输出门在时刻t的输出，Wxi，Whi，Wxf，Whf，Wxo，Who，Wxg，Whg，bi，bf，bo，bg均为预设的参数，sigmoid为S型生长函数，且tanh为双曲正切函数，且6.一种计算机可读存储介质，所述计算机可读存储...

【专利技术属性】
技术研发人员：赵峰，杜展，王健宗，肖京，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人