一种变分自编码器与生成对抗网络结合的视频生成方法技术

技术编号：22820469 阅读：87 留言：0更新日期：2019-12-14 14:22

本发明专利技术公开了一种变分自编码器与生成对抗网络结合的视频生成方法，属于视频生成技术领域，该方法包括：生成对抗网络的生成器不直接生成视频，而是生成系列相关联的隐变量，将这些隐变量经过已训练好的变分自编码器的解码器生成系列相关图像，生成对抗网络的判别器不对视频直接判别，而是将视频通过变分自编码器的编码器得到系列低维的隐变量，并对隐变量进行判别。该方法能够根据输入描述文本生成视频，克服生成视频中帧间连续性差的问题，同时提高了视频生成的帧间连续性，将训练步骤分为训练变分自编码器和以训练好的变分自编码器为基础训练生成对抗网络两个部分，使训练更容易以及更稳定。

A video generation method based on the combination of variational self encoder and generation countermeasure network

全部详细技术资料下载

【技术实现步骤摘要】
一种变分自编码器与生成对抗网络结合的视频生成方法
本专利技术属于视频生成
，尤其涉及一种变分自编码器与生成对抗网络结合的视频生成方法。
技术介绍
近年来，随着人工智能技术在各行业的广泛应用，各行各业的生产力得到了很大提升，如在电视节目制作中，视频生成技术可以极大程度的减轻人力工作。业内，NVIDIA等公司提出了基于生成对抗网络的视频生成技术，以应对多种情形下的视频生成需求。然而，现有的视频生成方法在输入信息不足时往往出现生成的视频中帧与帧之间的时间连续性不足，图像变形等问题，从而降低了视频生成的质量。DiederikPKingma等于2013年提出变分自编码器，通过将样本映射到一个特定的正态分布，再从该正态分布中采样一个点以恢复样本的方法构建了一个隐空间连续性好的生成学习模型。IanGoodfellow等于2014年提出生成对抗网络，以生成器生成样本，以判别器区分生成器生成的样本与真样本，二者以对抗的方式进行学习，构成动态的博弈，当最终达到纳什均衡时，判别器不能区分生成样本与真样本，此时生成样本也就被认为与真样本无差别了。
技术实现思路
本专利技术的目的:提供一种变分自编码器与生成对抗网络结合的视频生成方法，利用变分自编码器对数据集中视频的每一帧进行学习，构建具有良好连续性的隐空间，隐空间中的每一点对应视频中的一帧。然后将噪声与文本输入生成对抗网络的生成器，生成器则生成潜变量空间中的多个相关联的点，然后将这些点通过变分自编码器的解码器生成多帧相关联连续图像，这些图像组成所要生成的视频...

【技术保护点】
1.一种变分自编码器与生成对抗网络结合的视频生成方法，其特征在于：包括如下步骤：/n(1)收集各种类的视频，并按照类别对每个视频做好文本描述；/n(2)对步骤1收集的视频及文本描述做归一化处理，得到生成对抗网络训练过程中使用的“视频-文本”数据集；/n(3)对步骤2归一化处理后的“视频-文本”数据集中的视频按帧分割，对分割得到的每一帧图像匹配其原所属视频的文本描述，得到变分自编码器训练过程中使用的“图像-文本”数据集；/n(4)将步骤3得到的数据集中随机取出N个“图像-文本”样本输入变分自编码器进行训练。变分自编码器中编码器输出的隐空间维度为D，变分自编码器包括编码器Encoder和解码器Decoder，其中编码器Encoder通过对输入的每一帧图像x计算均值mean

【技术特征摘要】
1.一种变分自编码器与生成对抗网络结合的视频生成方法，其特征在于：包括如下步骤：
(1)收集各种类的视频，并按照类别对每个视频做好文本描述；
(2)对步骤1收集的视频及文本描述做归一化处理，得到生成对抗网络训练过程中使用的“视频-文本”数据集；
(3)对步骤2归一化处理后的“视频-文本”数据集中的视频按帧分割，对分割得到的每一帧图像匹配其原所属视频的文本描述，得到变分自编码器训练过程中使用的“图像-文本”数据集；
(4)将步骤3得到的数据集中随机取出N个“图像-文本”样本输入变分自编码器进行训练。变分自编码器中编码器输出的隐空间维度为D，变分自编码器包括编码器Encoder和解码器Decoder，其中编码器Encoder通过对输入的每一帧图像x计算均值meanx和方差variancex，将图像映射到专属于该图像的正态分布N(meanx,variancex)，再从该分布随机中采样一个D维的隐变量，将该隐变量输入解码器Decoder，Decoder输出解码图像。同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值meani附近，所述均值通过神经网络计算得到。
变分自编码器的损失函数LVAE为：

其中，meanx、variancex分别是图像x经过编码器Encoder得到的正态分布的均值和方差，meani为所述图像所属类别均值，x为变分自编码器输出的重建图像，训练过程以最小化损失函数LVAE为目标，Decoder输出的解码图像进行人工检查，重复操作直到解码图像的质量达到要求，得到训练好的变分自编码器模型。
(5)从步骤2处理后的数据集中取出M个样本对，作为生成对抗网络训练中使用的真实样本对，取出所述M个样本对中的的描述文本，对这M个描述文本重新配上与描述不匹配的视频，得到M个不匹配样本对。再以这M个真实样本对中的描述文本作为输入描述文本，以步骤4训练好的变分自编码器模型与生成对抗网络结合，使用M个真实样本对，M个不匹配样本对及M个输入描述文本，输入生成对抗网络进行训练。
生成对抗网络包括生成器G和判别器D，生成的视频为L帧，其中生成器生成的是L个D维的变量delta...

【专利技术属性】
技术研发人员：吴萌，李荣鹏，赵志峰，张宏纲，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人