基于时域一致性约束的视频风格迁移方法技术

技术编号:21972633 阅读:43 留言:0更新日期:2019-08-28 01:43
本发明专利技术公开了一种基于时域一致性约束的视频风格迁移方法,主要解决现有技术在视频风格迁移中出现的闪烁、前后不连贯的问题。其实现方案为:1)获取视频数据集、风格图像,并离线计算光流信息;2)构建基于时域一致性约束的视频风格转换网络;3)利用视频数据集、风格图像以及光流信息训练风格转换网络模型,更新其各层的权值和偏置;4)将测试视频输入到训练好的风格转换网络模型中,输出结果即为风格化视频。本发明专利技术通过训练风格转换网络模型拟合输入视频与风格化视频之间的非线性映射关系,并以这种关系为指导对真实视频进行不同风格的渲染,提高了风格化视频的时域一致性和视觉效果,可用于视频渲染、风格转换的视频处理场景。

A Video Style Migration Method Based on Time Domain Consistency Constraints

【技术实现步骤摘要】
基于时域一致性约束的视频风格迁移方法
本专利技术属于视频图像处理
,具体涉及一种视频风格迁移方法,可用于视频渲染、风格转换的视频处理场合。
技术介绍
十九世纪以来,不仅艺术家在探索如何创造出更优吸引力的艺术作品,图像处理领域的相关人员也在思考这个问题。随着深度学习的发展,2015年LeonA.Gatys等人在“ANeuralAlgorithmofArtisticStyle[J].ComputerScience,2015.”中,提出用深度神经网络模型提取图像的风格特征并将其赋予另一幅图像的算法,该算法被称为“图像风格迁移算法”。艺术作品的风格特征具体包括纹理特征、色彩特征、笔触特征、对比度特征及明暗光线的变化,是一个更为抽象的概念。近几年,关于图像及视频风格迁移的研究层出不穷。在过去,人们如果需要将一幅真实图像重画为具有艺术风格的合成图像,不仅需要一批训练有素的画家,还需要大量的时间和精力;如果要重画一段视频序列,所耗费的人力物力更是难以想象,因此,使用算法实现图像或视频的风格迁移具有重要的意义。目前,针对视频风格迁移问题,研究者们已经提出一些优秀的算法。根据算法的基本原理,可以将这些算法分为基于迭代优化的描述性方法和基于深度学习的生成式方法。基于迭代优化的描述性方法的基本思想是:首先建模并分别提取风格图像的风格信息和内容图像的内容信息,然后在目标图像中将两种信息结合,通过不断迭代优化生成的风格化图像,产生视觉效果良好的结果。目前此类方法最主要的局限性有两点,一是迭代优化过程中计算量十分巨大,非常耗时;二是随机初始化和损失函数的局部极小容易使输出的结果质量较差。基于迭代优化的视频的风格迁移方法最大的问题在于效率低下,而基于深度学习的生成式方法正好解决了速度和计算量的问题,最初的基于深度学习的生成式神经方法由JustinJohnson等人在“PerceptualLossesforReal-TimeStyleTransferandSuper-Resolution[J].2016.”提出,他们通过预训练指定风格的深度神经网络模型,在测试阶段只需前向传播一次就可以产生对应的风格化结果。JustinJohnson等人的风格迁移网络结构设计主要借鉴了AlecRadford等人在“UnsupervisedRepresentationLearningwithDeepConvolutionalGenerativeAdversarialNetworks[J].ComputerScience,2015.”论文中提出的残差模块和步长卷积。可是如果直接将图像风格迁移算法应用于视频风格迁移问题,前后两帧之间微弱的明亮变化、噪声以及运动,都会在风格转换的过程中产生巨大的差异,从而导致风格化视频的闪烁和不连续性。因此,HuangHaozhi等人在“Real-TimeNeuralStyleTransferforVideos[C]//IEEEConferenceonComputerVision&PatternRecognition.2017.”中提出将时域损失函数加入基于卷积神经网络的风格迁移算法中,通过相邻两帧图像的运动矢量估计约束输出结果时域上的一致性。该方法虽说提高了视频的风格转换速度,但又由于没有考虑间隔更远的帧图像之间的时域相关性,导致风格化视频缺少长时一致性,使得风格化视频的连贯效果较差。
技术实现思路
本专利技术的目的在于针对上述现有技术的不足,提出了一种基于时域一致性约束的视频风格迁移方法,以增加风格化视频的时域一致性,提高风格化视频的连贯效果。本专利技术的技术方案是:将多组视频帧序列、离线计算的光流信息和风格图像作为视频风格转换网络模型的输入,通过每组帧图像之间的光流信息约束输出结果之间的时域相关性;对视频风格转换网络模型进行训练,拟合输入的真实视频与输出的风格化视频之间的非线性映射关系,并以这种关系为指导对真实视频进行不同风格的渲染,提高风格化视频的时域一致性和视觉效果,同时提高对视频进行风格转换的速度,其实现步骤包括如下:(1)根据视频训练集V和风格图像a,离线计算光流信息:(1a)获取视频训练集V和风格图像a,其中V中包含N组视频序列,每组视频序列Ιn包括四幅图像,分别为一段视频的第1帧I1,第4帧I4,第6帧I6和第7帧I7,其中n={1,2,...,N};(1b)通过变分光流法计算不同帧图像之间的光流信息和光流置信度信息Cn={c(1,7),c(4,7),c(6,7)},其中表示第i帧到第7帧的光流信息,c(i,7)表示第i帧与第7帧之间的光流置信度矩阵,其中,i∈{1,4,6};(2)构建基于时域一致性约束的视频风格迁移网络:(2a)设计风格转换网络,该网络包括依次连接的三个底层卷积层、五个残差模块、两个反卷积层和一个高层卷积层;将底层第一个卷积层的输出输入到第二个反卷积层中,将底层第二个卷积层的输出输入到第一个反卷积层中,形成两个跳跃连接;(2b)设置训练参数,随机初始化风格转换网络的权值σ0和偏置值β0;(3)训练基于时域一致性约束的视频风格转换网络模型:(3a)每次从视频训练集V中选择一组视频In,以及它对应的光流信息Wn、光流置信度信息Cn,作为训练样本,其中n={1,2,...,N};(3b)将训练样本输入到风格转换网络生成风格化结果Pn,Pn={P1,P4,P6,P7};(3c)计算风格化结果的总损失值LT:LT=λsLs+λcLc+λvLv+λtLt,其中,Ls表示风格损失值、Lc表示内容损失值、Lv表示全变分损失值、Lt表示时域损失值,λs表示风格损失权重,λc表示内容损失权重,λv表示全变分损失权重,λt表示时域损失权重;(3d)使用总损失值LT训练风格转换网络模型,更新风格转换网络模型的权值σ和偏置值β;(3e)循环进行(3a)-(3d)对风格转换网络模型进行迭代优化训练,直到取完视频训练集V中所有的视频序列组,得到训练好的风格转换网络模型;(4)利用训练好的视频风格转换模型对测试视频进行风格迁移,即将一段测试视频输入到训练好的风格转换网络模型中,风格转换网络模型的输出即为具有时域一致性的风格化视频。本专利技术与现有技术相比,具有以下优点:1.本专利技术由于采用对输入视频与风格化视频的非线性映射关系预先进行学习,再对非线性关系的视频风格转换网络模型进行训练,可得到能将测试视频转换为风格化视频的视频风格转换网络模型,不仅实现了利用离线视频风格转换模型对测试视频的风格转换,而且所生成的风格化视频具有时域一致性,且能满足实时性的要求;2.本专利技术使用视频训练集的光流信息训练风格转换网络,使得该网络生成的风格化视频同时具有短时一致性和长时一致性,提高了风格化结果的视觉效果;3.本专利技术在视频风格转换网络结构中加入跳跃连接,将底层卷积层中的局部图像特征直接传递到高层网络的反卷积层中,与高级语义图像特征相结合,提高了网络模型的训练速度。附图说明图1为本专利技术的实现流程图;图2为采用本专利技术的方法和基于前向网络的视频风格迁移方法对视频进行风格迁移的效果对比图。具体实施方式以下结合附图对本专利技术的实施例和效果做进一步描述。参照图1,本专利技术的实现步骤如下:步骤1,根据视频训练集V和风格图像a,离线计算光流信息。(本文档来自技高网
...

【技术保护点】
1.一种基于时域一致性约束的视频风格迁移方法,其特征在于,包括如下步骤:(1)根据视频训练集V和风格图像a,离线计算光流信息:(1a)获取视频训练集V和风格图像a,其中V中包含N组视频序列,每组视频序列Ι

【技术特征摘要】
1.一种基于时域一致性约束的视频风格迁移方法,其特征在于,包括如下步骤:(1)根据视频训练集V和风格图像a,离线计算光流信息:(1a)获取视频训练集V和风格图像a,其中V中包含N组视频序列,每组视频序列Ιn包括四幅图像,分别为一段视频的第1帧I1,第4帧I4,第6帧I6和第7帧I7,其中n={1,2,...,N};(1b)通过变分光流法计算不同帧图像之间的光流信息和光流置信度信息Cn={c(1,7),c(4,7),c(6,7)},其中表示第i帧到第7帧的光流信息,c(i,7)表示第i帧与第7帧之间的光流置信度矩阵,其中,i∈{1,4,6};(2)构建基于时域一致性约束的视频风格迁移网络:(2a)设计风格转换网络,该网络包括依次连接的三个底层卷积层、五个残差模块、两个反卷积层和一个高层卷积层;将底层第一个卷积层的输出输入到第二个反卷积层中,将底层第二个卷积层的输出输入到第一个反卷积层中,形成两个跳跃连接;(2b)设置训练参数,随机初始化风格转换网络的权值σ0和偏置值β0;(3)训练基于时域一致性约束的视频风格转换网络模型:(3a)每次从视频训练集V中选择一组视频In,以及它对应的光流信息Wn、光流置信度信息Cn,作为训练样本,其中n={1,2,...,N};(3b)将训练样本输入到风格转换网络生成风格化结果Pn,Pn={P1,P4,P6,P7};(3c)计算风格化结果的总损失值LT:LT=λsLs+λcLc+λvLv+λtLt,其中,Ls表示风格损失值、Lc表示内容损失值、Lv表示全变分损失值、Lt表示时域损失值,λs表示风格损失权重,λc表示内容损失权重,λv表示全变分损失权重,λt表示时域损失权重;(3d)使用总损失值LT训练风格转换网络模型,更新风格转换网络模型的权值σ和偏置值β;(3e)循环进行(3a)-(3d)对风格转换网络模型进行迭代优化训练,直到取完视频训练集V中所有的视频序列组,得到训练好的风格转换网络模型;(4)利用训练好的视频风格转换模型对测试视频进行风格迁移,即将一段测试视频输入到训练好的风格转换网络模型中,风格转换网络模型的输出即为具有时域一致性的风格化视频。2.根据权利要求1所述的方法,其特征在于,(2a)中的风格转换网络,其结构参数如下:第一底层卷积层的卷积核大小为9×9,卷积核数量为32,步长为1;第二底层卷积层的卷积核大小为3×3,卷积核数量为64,步长为2;第三底层卷积层的卷积核大小为3×3,卷积核数量为128,步长为2;第一残...

【专利技术属性】
技术研发人员:董伟生张珍谢雪梅石光明孙璐
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1