一种生成用于视频预测的神经网络模型的方法技术

技术编号：20050190 阅读：44 留言：0更新日期：2019-01-09 05:56

本发明专利技术提供一种训练用于视频预测的生成器模型G的方法，使得使用该模型可以以较少的计算量获得更好的、长时间的视频预测效果。所述生成器模型G中包括采用神经网络模型结构的编码器与解码器，所述编码器与所述解码器之间采用跳变连接，用于生成预测的帧间差ΔX，所述预测的帧间差ΔX与训练样本求和的结果为预测帧

全部详细技术资料下载

【技术实现步骤摘要】
一种生成用于视频预测的神经网络模型的方法
本专利技术涉及视频图像处理，尤其涉及通过训练神经网络模型以对视频帧进行无监督预测。
技术介绍
随着信息技术的发展，各种应用产生的视频数据量急剧地增长，这使得传统的视频分析技术难以满足上述应用对图像处理的需求。一方面，传统的视频分析技术通常基于人工来选择图像特征，然而随着数据集的增大，这种方式会消耗相当高的时间和人力成本。另一方面，传统视频分析所使用的图像特征往往是技术人员基于其假设而对数据集在某一层面上进行表征，并且对数据样本的选择也通常是依靠技术人员的经验，这使得难以保证获得具有稳定质量的图像处理结果。还有一些视频分析技术采用了诸如支持向量机、和逻辑回归的浅层机器学习模型，尽管浅层模型可以在一定规模的数据集下发挥较强的表达能力，然而由于其拟合规则受限，因而对于海量数据的处理并不理想。随着人工智能技术(深度学习或预测学习或无监督学习)的发展，针对视频图像处理领域的无监督视频预测应运而生。无监督视频预测是一种采用深度学习模型根据已观测到的视频帧序列对未来的视频帧序列进行预测的技术。相较于浅层模型，深度学习模型具有更复杂的层次结构，能够表征更抽象的特征，其正好符合视频拍摄中自然场景的复杂性和多变性，并且这些特征通过自主学习而产生，无需人工挑选。这使得无监督视频预测相较于传统视频分析技术而言具有非常明显的优势。最早期的无监督视频预测技术，试图利用高层语义信息(例如人体动作、或者事件集合)进行预测。然而，这类技术所获的预测结果依赖于预定的语义，只能提供对未来的部分描述，因而只能适用于某些特定的场景中。并且，在深度学习模型的...

【技术保护点】
1.一种训练用于视频预测的生成器模型G的方法，其中，所述生成器模型G中包括采用神经网络模型结构的编码器与解码器，所述编码器与所述解码器之间采用跳变连接，用于生成预测的帧间差ΔX，所述预测的帧间差ΔX与训练样本求和的结果为预测帧

【技术特征摘要】
1.一种训练用于视频预测的生成器模型G的方法，其中，所述生成器模型G中包括采用神经网络模型结构的编码器与解码器，所述编码器与所述解码器之间采用跳变连接，用于生成预测的帧间差ΔX，所述预测的帧间差ΔX与训练样本求和的结果为预测帧所述方法，包括：1)选择连续的视频帧作为训练样本，并提取训练样本的帧间差；2)将所述帧间差作为生成器模型G中编码器的输入，基于第一损失函数训练获得所述编码器与所述解码器的神经网络权值：其中，ΔXi-1为与第i个帧间差相关的值，Xi为训练样本中的第i帧，为第i个预测帧，Xi和与所述编码器与所述解码器的神经网络权值相关。2.根据权利要求1所述的方法，其中步骤2)包括：求解使得所述第一损失函数值最小时的并根据所述Xi和求解所述编码器与所述解码器的神经网络权值。3.根据权利要求1所述的方法，其中采用神经网络模型结构的判别器模型D以所述预测帧和所述训练样本为输入，用于判别其输入为真实视频帧的真值；并且，所述步骤2)包括：2-1)随机生成相应的数值，以用作所述编码器的神经网络权值、以及所述解码器的神经网络权值；2-2)将所述帧间差作为生成器模型G中编码器的输入，基于第二损失函数训练获得所述判别器模型D的神经网络权值：其中，函数D为所述判别器模型D对所述训练样本的判别结果，为所述判别器模型D对所述预测...

【专利技术属性】
技术研发人员：金贝贝，胡瑜，曾一鸣，唐乾坤，刘世策，叶靖，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人