当前位置: 首页 > 专利查询>浙江大学专利>正文

一种变分自编码器与生成对抗网络结合的视频生成方法技术

技术编号:22820469 阅读:87 留言:0更新日期:2019-12-14 14:22
本发明专利技术公开了一种变分自编码器与生成对抗网络结合的视频生成方法,属于视频生成技术领域,该方法包括:生成对抗网络的生成器不直接生成视频,而是生成系列相关联的隐变量,将这些隐变量经过已训练好的变分自编码器的解码器生成系列相关图像,生成对抗网络的判别器不对视频直接判别,而是将视频通过变分自编码器的编码器得到系列低维的隐变量,并对隐变量进行判别。该方法能够根据输入描述文本生成视频,克服生成视频中帧间连续性差的问题,同时提高了视频生成的帧间连续性,将训练步骤分为训练变分自编码器和以训练好的变分自编码器为基础训练生成对抗网络两个部分,使训练更容易以及更稳定。

A video generation method based on the combination of variational self encoder and generation countermeasure network

【技术实现步骤摘要】
一种变分自编码器与生成对抗网络结合的视频生成方法
本专利技术属于视频生成
,尤其涉及一种变分自编码器与生成对抗网络结合的视频生成方法。
技术介绍
近年来,随着人工智能技术在各行业的广泛应用,各行各业的生产力得到了很大提升,如在电视节目制作中,视频生成技术可以极大程度的减轻人力工作。业内,NVIDIA等公司提出了基于生成对抗网络的视频生成技术,以应对多种情形下的视频生成需求。然而,现有的视频生成方法在输入信息不足时往往出现生成的视频中帧与帧之间的时间连续性不足,图像变形等问题,从而降低了视频生成的质量。DiederikPKingma等于2013年提出变分自编码器,通过将样本映射到一个特定的正态分布,再从该正态分布中采样一个点以恢复样本的方法构建了一个隐空间连续性好的生成学习模型。IanGoodfellow等于2014年提出生成对抗网络,以生成器生成样本,以判别器区分生成器生成的样本与真样本,二者以对抗的方式进行学习,构成动态的博弈,当最终达到纳什均衡时,判别器不能区分生成样本与真样本,此时生成样本也就被认为与真样本无差别了。
技术实现思路
本专利技术的目的:提供一种变分自编码器与生成对抗网络结合的视频生成方法,利用变分自编码器对数据集中视频的每一帧进行学习,构建具有良好连续性的隐空间,隐空间中的每一点对应视频中的一帧。然后将噪声与文本输入生成对抗网络的生成器,生成器则生成潜变量空间中的多个相关联的点,然后将这些点通过变分自编码器的解码器生成多帧相关联连续图像,这些图像组成所要生成的视频。为了实现上述目的,本专利技术的技术方案是:一种变分自编码器与生成对抗网络结合的视频生成方法,包括如下步骤:(1)收集各种类的视频,并按照类别对每个视频做好文本描述;(2)对步骤1收集的视频及文本描述做归一化处理,得到生成对抗网络训练过程中使用的“视频-文本”数据集;(3)对步骤2归一化处理后的“视频-文本”数据集中的视频按帧分割,对分割得到的每一帧图像匹配其原所属视频的文本描述,得到变分自编码器训练过程中使用的“图像-文本”数据集;(4)将步骤3得到的数据集中随机取出N个“图像-文本”样本输入变分自编码器进行训练。变分自编码器中编码器输出的隐空间维度为D,变分自编码器包括编码器Encoder和解码器Decoder,其中编码器Encoder通过对输入的每一帧图像x计算均值meanx和方差variancex,将图像映射到专属于该图像的正态分布N(meanx,variancex),再从该分布随机中采样一个D维的隐变量,将该隐变量输入解码器Decoder,Decoder输出解码图像。同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值meani附近,这个均值通过神经网络计算得到。变分自编码器的损失函数:其中,meanx、variancex分别是图像x经过编码器Encoder得到的正态分布的均值和方差,meani是该图像所属类别均值,x为变分自编码器输出的重建图像。训练过程以最小化损失函数LVAE为目标,设置每经过一定次数的迭代对Decoder输出的解码图像进行人工检查,重复这一操作直到解码图像的质量达到要求,得到训练好的变分自编码器模型。(5)从步骤2处理后的数据集中取出M个样本对,作为生成对抗网络训练中使用的真实样本对,取出所述M个样本对中的的描述文本,对这M个描述文本重新配上与描述不匹配的视频,得到M个不匹配样本对。再以这M个真实样本对中的描述文本作为输入描述文本,以步骤4训练好的变分自编码器模型与生成对抗网络结合,使用M个真实样本对,M个不匹配样本对及M个输入描述文本,输入生成对抗网络进行训练。生成对抗网络包括生成器G和判别器D,生成的视频为L帧,其中生成器生成的是L个D维的变量delta1,delta2,...deltaL,根据需要生成的视频类别加上对应类别的均值meani:zk=meani+deltak,(k=1,2,...,L)得到L个D维的变分自编码器的隐变量zk:z1,z2,...zL,将z1,z2,...zL输入到步骤4中已经训练好的变分自编码器的解码器Decoder中得到长度为L帧的视频;所述的生成器G的损失函数:LG=-log(D(xgen,sgen))其中,xreal是采样于真实视频数据分布的视频样本,sreal是对xreal的描述文本,(xreal,sreal)为所述真实样本对,(xmis,smis)为所述的真实样本对,sgen为输入生成器G的输入描述文本,xgen为生成器G生成的视频样本。所述的判别器D的损失函数:LD=-log(D(zreal,sreal))-log(1-D(zmis,smis)-log(1-D(zfake,sgen))zreal,zmis,zfake分别是xreal,xmis,xgen经过变分自编码器的编码器Encoder后得到的正态分布中随机采样出的隐变量。生成对抗网络的训练过程分为生成器G的训练和判别器D的训练,生成器G的训练以最小化LG为目标,判别器D的训练以最小化LD为目标。训练过程中先训练判别器D,再训练生成器G,重复训练过程,对生成器生成的视频样本质量进行人工检查,直到生成的视频样本质量达到要求。(6)将步骤5训练得到的网络中输入描述文本,生成视频。进一步地,所述变分自编码器的编码器Encoder由多层卷积神经网络构成,解码器Decoder由多层反卷积神经网络构成。进一步地,所述生成器G为生成变分自编码器隐变量的隐变量生成器。进一步地,所述生成器G为循环神经网络:LSTM(longshort-termmemory)。进一步地,所述判别器D对变分自编码器隐变量进行判别。本专利技术的有益效果在于:该专利技术的视频生成方法能够根据输入描述文本生成视频,克服生成视频中帧间连续性差的问题,相比于单独使用生成对抗网络,变分自编码器与生成对抗网络结合的视频生成方法提高了视频生成的帧间连续性,将训练步骤分为训练变分自编码器和以训练好的变分自编码器为基础训练生成对抗网络两个部分,使训练更容易以及更稳定。附图说明图1是所述变分自编码器结构示意图;图2是本专利技术所述一种变分自编码器与生成对抗网络结合的视频生成方法结构示意图。具体实施方式以下结合附图1和附图2进一步说明本专利技术的实施例。一种变分自编码器与生成对抗网络结合的视频生成方法,包括如下步骤:(1)收集各种类的视频,并按照类别对每个视频做好文本描述;(2)对步骤1收集的视频及文本描述做归一化处理,得到生成对抗网络训练过程中使用的“视频-文本”数据集;(3)对步骤2预处理后的“视频-文本”数据集中的视频按帧分割,对分割得到的每一帧图像匹配其原所属视频的文本描述,得到变分自编码器训练过程中使用的“图像-文本”数据集;(4)将步骤3得到的数据集中随机取出N个“图像-文本本文档来自技高网...

【技术保护点】
1.一种变分自编码器与生成对抗网络结合的视频生成方法,其特征在于:包括如下步骤:/n(1)收集各种类的视频,并按照类别对每个视频做好文本描述;/n(2)对步骤1收集的视频及文本描述做归一化处理,得到生成对抗网络训练过程中使用的“视频-文本”数据集;/n(3)对步骤2归一化处理后的“视频-文本”数据集中的视频按帧分割,对分割得到的每一帧图像匹配其原所属视频的文本描述,得到变分自编码器训练过程中使用的“图像-文本”数据集;/n(4)将步骤3得到的数据集中随机取出N个“图像-文本”样本输入变分自编码器进行训练。变分自编码器中编码器输出的隐空间维度为D,变分自编码器包括编码器Encoder和解码器Decoder,其中编码器Encoder通过对输入的每一帧图像x计算均值mean

【技术特征摘要】
1.一种变分自编码器与生成对抗网络结合的视频生成方法,其特征在于:包括如下步骤:
(1)收集各种类的视频,并按照类别对每个视频做好文本描述;
(2)对步骤1收集的视频及文本描述做归一化处理,得到生成对抗网络训练过程中使用的“视频-文本”数据集;
(3)对步骤2归一化处理后的“视频-文本”数据集中的视频按帧分割,对分割得到的每一帧图像匹配其原所属视频的文本描述,得到变分自编码器训练过程中使用的“图像-文本”数据集;
(4)将步骤3得到的数据集中随机取出N个“图像-文本”样本输入变分自编码器进行训练。变分自编码器中编码器输出的隐空间维度为D,变分自编码器包括编码器Encoder和解码器Decoder,其中编码器Encoder通过对输入的每一帧图像x计算均值meanx和方差variancex,将图像映射到专属于该图像的正态分布N(meanx,variancex),再从该分布随机中采样一个D维的隐变量,将该隐变量输入解码器Decoder,Decoder输出解码图像。同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值meani附近,所述均值通过神经网络计算得到。
变分自编码器的损失函数LVAE为:



其中,meanx、variancex分别是图像x经过编码器Encoder得到的正态分布的均值和方差,meani为所述图像所属类别均值,x为变分自编码器输出的重建图像,训练过程以最小化损失函数LVAE为目标,Decoder输出的解码图像进行人工检查,重复操作直到解码图像的质量达到要求,得到训练好的变分自编码器模型。
(5)从步骤2处理后的数据集中取出M个样本对,作为生成对抗网络训练中使用的真实样本对,取出所述M个样本对中的的描述文本,对这M个描述文本重新配上与描述不匹配的视频,得到M个不匹配样本对。再以这M个真实样本对中的描述文本作为输入描述文本,以步骤4训练好的变分自编码器模型与生成对抗网络结合,使用M个真实样本对,M个不匹配样本对及M个输入描述文本,输入生成对抗网络进行训练。
生成对抗网络包括生成器G和判别器D,生成的视频为L帧,其中生成器生成的是L个D维的变量delta...

【专利技术属性】
技术研发人员:吴萌李荣鹏赵志峰张宏纲
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1