一种生成用于视频预测的神经网络模型的方法技术

技术编号:20050190 阅读:44 留言:0更新日期:2019-01-09 05:56
本发明专利技术提供一种训练用于视频预测的生成器模型G的方法,使得使用该模型可以以较少的计算量获得更好的、长时间的视频预测效果。所述生成器模型G中包括采用神经网络模型结构的编码器与解码器,所述编码器与所述解码器之间采用跳变连接,用于生成预测的帧间差ΔX,所述预测的帧间差ΔX与训练样本求和的结果为预测帧

【技术实现步骤摘要】
一种生成用于视频预测的神经网络模型的方法
本专利技术涉及视频图像处理,尤其涉及通过训练神经网络模型以对视频帧进行无监督预测。
技术介绍
随着信息技术的发展,各种应用产生的视频数据量急剧地增长,这使得传统的视频分析技术难以满足上述应用对图像处理的需求。一方面,传统的视频分析技术通常基于人工来选择图像特征,然而随着数据集的增大,这种方式会消耗相当高的时间和人力成本。另一方面,传统视频分析所使用的图像特征往往是技术人员基于其假设而对数据集在某一层面上进行表征,并且对数据样本的选择也通常是依靠技术人员的经验,这使得难以保证获得具有稳定质量的图像处理结果。还有一些视频分析技术采用了诸如支持向量机、和逻辑回归的浅层机器学习模型,尽管浅层模型可以在一定规模的数据集下发挥较强的表达能力,然而由于其拟合规则受限,因而对于海量数据的处理并不理想。随着人工智能技术(深度学习或预测学习或无监督学习)的发展,针对视频图像处理领域的无监督视频预测应运而生。无监督视频预测是一种采用深度学习模型根据已观测到的视频帧序列对未来的视频帧序列进行预测的技术。相较于浅层模型,深度学习模型具有更复杂的层次结构,能够表征更抽象的特征,其正好符合视频拍摄中自然场景的复杂性和多变性,并且这些特征通过自主学习而产生,无需人工挑选。这使得无监督视频预测相较于传统视频分析技术而言具有非常明显的优势。最早期的无监督视频预测技术,试图利用高层语义信息(例如人体动作、或者事件集合)进行预测。然而,这类技术所获的预测结果依赖于预定的语义,只能提供对未来的部分描述,因而只能适用于某些特定的场景中。并且,在深度学习模型的训练初期,需要人工标注训练集中图像的语义信息,非常耗费人力,极大地限制了这类技术的应用。近期一些研究提出利用像素级的技术直接预测视频帧,而不借助于外部语义信息。像素级的预测技术利用神经网络来建模像素值随时间的演化规律,直接输出要预测的视频帧,这类技术无需要人工标注信息。但是,由于视频所拍摄的场景往往复杂多变,这类技术所生成的视频画面通常相对模糊,从而影响了视频预测的效果,尤其是难以实现对运动物体以及微小物体的预测。并且,其对于长时间的预测效果也不理想。还有一些研究针对上述利用像素级的技术进行了改进。例如,Sudheendra等人在2017年发表于arxiv上的文章《SfM-Net:LearningofStructureandMotionfromVideo》,提出结合光流信息利用单分支神经网络或者双分支神经网络显式建模像素级运动,然而由于光流对于遮挡、快速移动、光照或者非线性结构的变化比较敏感,因而该技术的预测效果并不理想。又例如,Liu等人在2017年发表于ICCV上的文章《VideoFrameSynthesisusingDeepVoxelFlow》所提出的利用全卷积编解码器进行视频插帧和扩展,以及Lotter等人于2017年在ICLR上发表的文章《DeepPredictiveCodingNetworksforVideoPredictionandUnsupervisedLearning》中所提出的PredNet网络结构,以及Villegas等人于2017年在ICLR上发表的文章《DecomposingMotionandContentforNaturalVideoSequencePrediction》中所提出的将视频输入分解成运动部分和内容部分分别进行编码的方法,尽管这些方法在一定程度上提升了预测效果,但是仍然存在预测模糊,预测时间有限的问题。
技术实现思路
因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种训练用于视频预测的生成器模型G的方法,其中,所述生成器模型G中包括采用神经网络模型结构的编码器与解码器,所述编码器与所述解码器之间采用跳变连接,用于生成预测的帧间差ΔX,所述预测的帧间差ΔX与训练样本求和的结果为预测帧所述方法,包括:1)选择连续的视频帧作为训练样本,并提取训练样本的帧间差;2)将所述帧间差作为生成器模型G中编码器的输入,基于第一损失函数训练获得所述编码器与所述解码器的神经网络权值:其中,ΔXi-1为与第i个帧间差相关的值,Xi为训练样本中的第i帧,为第i个预测帧,Xi和与所述编码器与所述解码器的神经网络权值相关。优选地,根据所述方法,其中步骤2)包括:求解使得所述第一损失函数值最小时的并根据所述Xi和求解所述编码器与所述解码器的神经网络权值。优选地,根据所述方法,其中采用神经网络模型结构的判别器模型D以所述预测帧和所述训练样本为输入,用于判别其输入为真实视频帧的真值;并且,所述步骤2)包括:2-1)随机生成相应的数值,以用作所述编码器的神经网络权值、以及所述解码器的神经网络权值;2-2)将所述帧间差作为生成器模型G中编码器的输入,基于第二损失函数训练获得所述判别器模型D的神经网络权值:其中,函数D为所述判别器模型D对所述训练样本的判别结果,为所述判别器模型D对所述预测帧的判别结果;2-3)在所述判别器模型D采用通过步骤2-2)获得的神经网络权值的情况下,基于所述第一损失函数以及第三损失函数训练获得所述第一损失函数值与所述第三损失函数值之和最小时的并根据所述Xi和所述求解所述编码器与所述解码器的神经网络权值;所述第三损失函数为:优选地,根据所述方法,其中ΔXi-1为第i个帧间差。优选地,根据所述方法,其中ΔXi-1为针对第i个帧间差相较于当前训练样本的全部帧间差的归一化值。优选地,根据所述方法,其中所述编码器的神经网络模型结构包括:卷积层、池化层、长短时记忆层。优选地,根据所述方法,其中所述解码器的神经网络模型结构包括:上采样层、反卷积层、tanh函数层。优选地,根据所述方法,其中所述判别器模型D的神经网络模型结构包括:卷积层、ReLu函数层、归一化层、线性化层、sigmoid函数层。以及,一种基于上述任意一项方法训练获得的生成器模型G进行视频预测的方法,包括:将需要进行视频预测的视频序列输入到所述生成器模型G中,将所述生成器模型G输出的预测帧作为视频预测的结果。以及,一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序在被执行时用于实现上述任意一项所述的方法。与现有技术相比,本专利技术的优点在于:提供了一种训练用于无监督视频预测的生成器模型的方法,通过构建生成网络编码提取输入视频序列的帧间差信息并解码生成预测的视频序列,在训练该模型时以加权的方式统计损失的总和。并且,进一步地在训练时加入判别网络进行对抗训练以提升所获得的生成器模型的预测效果,并且使得训练更加高效。在采用该生成器模型进行视频预测时,生成器模型通过对输入的视频序列提取帧间差信息进行视频预测,其相比传统的视频预测方法具有更少的计算量以及更好的效果。实验证明,本专利技术可以充分地利用能够反映像素变化的帧间差来进行视频预测,能够促进网络模型更好的提取视频中物体的运动规律,同时本专利技术中利用帧间差对损失的重加权能够赋予变化大的像素位置较大的权重损失,而变化较小的像素位置被赋予较低的权重损失,这样使得网络更好的关注到运动变化明显的像素位置,有指导地更新网络,得到更好的长时预测效果。附图说明以下参照附图对本专利技术实施例作进一步说明,其中:图1a是根据本专利技术的一个实施例的生成本文档来自技高网
...

【技术保护点】
1.一种训练用于视频预测的生成器模型G的方法,其中,所述生成器模型G中包括采用神经网络模型结构的编码器与解码器,所述编码器与所述解码器之间采用跳变连接,用于生成预测的帧间差ΔX,所述预测的帧间差ΔX与训练样本求和的结果为预测帧

【技术特征摘要】
1.一种训练用于视频预测的生成器模型G的方法,其中,所述生成器模型G中包括采用神经网络模型结构的编码器与解码器,所述编码器与所述解码器之间采用跳变连接,用于生成预测的帧间差ΔX,所述预测的帧间差ΔX与训练样本求和的结果为预测帧所述方法,包括:1)选择连续的视频帧作为训练样本,并提取训练样本的帧间差;2)将所述帧间差作为生成器模型G中编码器的输入,基于第一损失函数训练获得所述编码器与所述解码器的神经网络权值:其中,ΔXi-1为与第i个帧间差相关的值,Xi为训练样本中的第i帧,为第i个预测帧,Xi和与所述编码器与所述解码器的神经网络权值相关。2.根据权利要求1所述的方法,其中步骤2)包括:求解使得所述第一损失函数值最小时的并根据所述Xi和求解所述编码器与所述解码器的神经网络权值。3.根据权利要求1所述的方法,其中采用神经网络模型结构的判别器模型D以所述预测帧和所述训练样本为输入,用于判别其输入为真实视频帧的真值;并且,所述步骤2)包括:2-1)随机生成相应的数值,以用作所述编码器的神经网络权值、以及所述解码器的神经网络权值;2-2)将所述帧间差作为生成器模型G中编码器的输入,基于第二损失函数训练获得所述判别器模型D的神经网络权值:其中,函数D为所述判别器模型D对所述训练样本的判别结果,为所述判别器模型D对所述预测...

【专利技术属性】
技术研发人员:金贝贝胡瑜曾一鸣唐乾坤刘世策叶靖
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1