【技术实现步骤摘要】
一种基于双向循环神经网络和深度输出的视频描述生成方法
本专利技术属于视频描述生成领域,尤其涉及一种基于双向循环神经网络和深度输出的视频描述生成方法。
技术介绍
随着互联网的发展,视频数据呈现爆炸式增长。凭借人力难以充分提取如此庞大的视频数据中蕴含的信息,因此我们希望计算机能够自动对视频内容进行分析。视频描述生成是视频智能分析领域具有代表性的技术,视频描述生成问题能否解决,标志着人工智能能否理解视频内容。视频描述生成任务的目标是使机器自动描述视频内容,具体来说,就是使机器对一段视频自动生成一段相应的文字,准确描述该视频的内容。视频描述生成领域早先的解决方法将问题分为两个阶段,第一个阶段是从视频中提取出语义内容,如主语、动词、宾语等,然后再根据概率模型和某种固定的模式生成完整的句子。这种方法中语句的生成是按照某种固定的模式,无法满足人类语言的丰富性,只能生成一些结构简单的句子。近年来,深度学习技术的应用提高了视频描述生成模型的效果,但现有模型的编码器很多采用单向循环神经网络,无法提取到后向的序列特征,且现有模型一般采用单层循环神经网络作为解码器,解码能力有待提高。专利 ...
【技术保护点】
1.一种基于双向循环神经网络和深度输出的视频描述生成方法,其特征在于,所述方法包括以下步骤:步骤1:对视频进行等间隔抽帧;步骤2:使用卷积神经网络提取每个视频帧的图像特征;步骤3:将图像特征输入基于双向循环神经网络和长短期记忆单元的编码器;步骤4:将编码器的输出通过注意力机制输入基于深度输出的解码器;步骤5:解码器在每个时间步生成描述语句中的一个单词直到生成结束符;步骤6:将解码器在每个时间步生成的单词组合成完整的视频描述语句。
【技术特征摘要】
1.一种基于双向循环神经网络和深度输出的视频描述生成方法,其特征在于,所述方法包括以下步骤:步骤1:对视频进行等间隔抽帧;步骤2:使用卷积神经网络提取每个视频帧的图像特征;步骤3:将图像特征输入基于双向循环神经网络和长短期记忆单元的编码器;步骤4:将编码器的输出通过注意力机制输入基于深度输出的解码器;步骤5:解码器在每个时间步生成描述语句中的一个单词直到生成结束符;步骤6:将解码器在每个时间步生成的单词组合成完整的视频描述语句。2.根据权利要求1所述的一种基于双向循环神经网络和深度输出的视频描述生成方法,其特征在于:所述步骤1中,对视频进行等间隔抽帧的方法为:假设视频总共有N帧,需要提取的视频帧数是M帧,若N=M,将视频的前N帧全部抽取;若N>M,采用等间隔采样的方法,采样间隔应该取此时抽取的视频帧序列应为:因为视频的帧数为整数,对视频帧序列进行四舍五入,得到:式中round(·)表示四舍五入。3.根据权利要求1所述的一种基于双向循环神经网络和深度输出的视频描述生成方法,其特征在于:所述步骤2中,卷积神经网络采用预训练于ImageNet数据集的InceptionV3,具体结构采用了InceptionV3网络模型的最后一个池化层之前的网络结构,对于抽取的每一帧视频图像,卷积神经网络提取到的图像特征都是2048维的向量,之后采用嵌入处理将图像特征与嵌入矩阵相乘得到512维的特征向量。4.根据权利要求1所述的一种基于双向循环神经网络和深度输出的视频描述生成方法,其特征在于:所述步骤3中,编码器采用单层双向循环神经网络,正向的循环神经网络初始时输入的视频帧特征来自视频的第一帧,反向的循环神经网络初始时输入的视频帧特征来自视频帧序列的最后一个视频帧,当这两个方向相反的循环神经网络都完成了M次循环后,对应步骤2中抽取的M个视频帧,将两个网络对应时间步的输出特征根据下式组成新的序列特征:式中z<t>表示双向循环神经网络在第t个时间步的输出,表示正向循环神经网络在第t个时间步的输出,表示反向循环神经网络在第t个时间步的输出,和是参数矩阵,by是偏置矩阵,g(·)为激活函数,通常选择tanh或ReLU函数,本发明采用tanh函数,即同时编码器使用了长短期记忆单元,其核心是记忆单元(MemoryCell),用c<t>来表示,记忆单元c<t>用来保存长期依赖信息,融合了当前时间步获取的信息和之前的历史信息;表示当前时间步用来替换c<t-1>的候选(Candidate)值,c<t>的值要么保留自前一时间步的c<t-1>,要么来自新产生的候选值更新门Γu(UpdateGate)用来控制是否将记忆单元c<t>的值更新为候选值的值;遗忘门Γf(ForgetGate)用来控制是否遗弃前一个时间步记忆单元c<t-1>的信息;输出门Γo(OutputGate)用来控制记忆单元c<t>的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。