基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:28674990 阅读:15 留言:0更新日期:2021-06-02 02:51
本申请涉及一种基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质。所述方法包括:获取第一图像,以及需依据第一图像转化的视频数据,视频数据中包括以时间顺序排列的多帧第二图像;将第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有第一图像风格特征以及视频数据内容特征的迁移视频数据;其中,训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。采用本方法能够提高整体图像的迁移效果,并且达到视频风格迁移防抖动的目标。

【技术实现步骤摘要】
基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质
本申请涉及视频风格迁移
,特别是涉及一种基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质。
技术介绍
传统的图像和视频风格化方法使用手工制作的算法过滤器来将输入图像或视频转换为特定风格。这些可以基于给定艺术媒介的物理模拟、编程技术或合成预定义的笔或笔触。虽然这些方法在各自的设计领域都取得了不错的结果,但它们总是局限于单一的风格或一小组风格,并且受到不直观的控制,难以表达艺术意图。对这个问题的一个更现代的观点是基于生成性对抗网络的方法,这些方法可以被训练来执行图像到图像以及视频到视频的翻译,包括风格化。在现有技术中,还引入了基于神经网络的方法,专门针对艺术风格化,针对每个风格训练对应的网络。这些方法无法重现未经训练的风格,并且对于它们支持的风格,结果通常无法精确地再现精细的纹理细节。Sanakoyeu等人尝试通过引入风格感知的内容丢失来提高风格化质量,但结果仍然存在一些不一致的情况。研究人员还引入了风格化技术,即使用单一网络将任意视觉风格转换为内容图像,但对目标风格的保持度有限。一般来说,神经方法需要耗时且晦涩的训练过程,并且提供有限的用户控制,基于实例的方法自然支持使用任意风格的图像进行风格化,而不需要训练。最广泛的方法提出了图像类比的概念,即在样式样本和目标照片上添加引导通道,以指导基于图像包的合成算法,该算法决定如何将样式的不同特征转移到目标的各个区域。剩下的问题是找到合适的引导通道,在某些情况下或针对特定内容(例如,人脸)可以通过算法生成。手动创建引导通道是可能的,但是对于视频来说,这是不直观的和非常费力的。为了规避这一问题,制定了不需要具体指导的通用方法。最新的基于神经网络的技术是通过使用训练在对象分类上的VGG网络的响应来指导合成来实现的。后一种方法在结构上类似于ImageNet中的图像时会产生令人印象深刻的结果,即具有单一可识别前景对象或场景的自然照片,但当将其推广到不同类型的图像(如复杂的自然场景或抽象风格)。视频的样式化提供了处理时间一致性的额外挑战。这本身就是先前研究的一个主题,其中一致性被定义为基于微观结构的合成的附加约束,以及对可见时间闪烁量的控制。类似地,对于不需要特定类型引导的通用样式转移,显式时间一致性被纳入基于神经和基于图像包的技术中。赖等人介绍一种盲时间相干方法,以每帧样式化的视频为输入,输出时间一致的视频作为后处理。现有的视频风格方法尽管取得了显著的成果,但是仍然存在以下问题:视频前后帧之间或者连读多帧之间相同的内容被风格化为不同的颜色,这样会导致视频播放的抖动,也就是同一个内容上面不同的颜色在播放的时候来换切换导致的频闪。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够防止抖动的基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质。一种基于神经网络的视频风格迁移方法,所述方法包括:获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。可选的,所述将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征的迁移视频数据包括:将所述第一图像输入风格编码器,得到与所述第一图像风格特征相关的第一语义特征;依次将连续两帧所述第二图像输入内容编码器,得到与所述视频数据内容特征相关的多个第二语义特征;将所述第一语义特征以及各所述第二语义特征输入语义依赖关系学习网络,得到相应的多个依赖关系语义特征;将各所述依赖关系语义特征输入解码器,得到所述迁移视频数据。可选的,将所述连续两帧所述第二图像输入内容编码器,得到与所述视频数据内容特征相关的第二语义特征包括:将前一帧的所述第二图像作为参考图像,根据所述参考图像的内容特征对后一帧的第二图像进行语义特征的提取。可选的,所述语义依赖关系学习网络包括:微观结构依赖学习模块以及风格依赖关系学习模块。可选的,训练所述视频风格迁移神经网络的方法包括:获取引导图像以及训练视频数据,所述训练视频数据包括以时间顺序排列的多帧训练图像;将所述引导图像以及连续两帧所述训练图像输入所述视频风格迁移神经网络,得到训练迁移视频数据,其中所述训练迁移视频数据包括与各帧所述训练图像相应的迁移视频图像;根据所述迁移视频图像以及引导图像进行计算,得到风格损失函数以及内容损失函数;根据所述风格损失函数以及内容损失函数计算得到总损失函数,若所述总损失函数符合预设标准,则得到训练后的视频风格迁移神经网络;若所述总损失函数不符合预设标准,则调节所述视频风格迁移神经网络的各参数,重新将所述引导图像以及连续两帧所述训练图像输入所述视频风格迁移神经网络,直至所述总损失函数符合预设标准。可选的,计算所述内容损失函数包括:根据所述训练迁移视频数据进行计算,提取与各帧所述迁移视频图像相关的微观结构,以及匹配微观结构;根据所述微观结构以及匹配微观结构进行计算,得到内容损失函数。本申请还提供了一种基于神经网络的视频风格迁移装置,包括:第一模块,用于获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;第二模块,用于将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。上述基于神经网络的视频风格迁移方法本文档来自技高网
...

【技术保护点】
1.基于神经网络的视频风格迁移方法,其特征在于,包括:/n获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;/n将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;/n其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。/n

【技术特征摘要】
1.基于神经网络的视频风格迁移方法,其特征在于,包括:
获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;
将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;
其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。


2.根据权利要求1所述的视频风格迁移方法,其特征在于,所述将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征的迁移视频数据包括:
将所述第一图像输入风格编码器,得到与所述第一图像风格特征相关的第一语义特征;
依次将连续两帧所述第二图像输入内容编码器,得到与所述视频数据内容特征相关的多个第二语义特征;
将所述第一语义特征以及各所述第二语义特征输入语义依赖关系学习网络,得到相应的多个依赖关系语义特征;
将各所述依赖关系语义特征输入解码器,得到所述迁移视频数据。


3.根据权利要求2所述的视频风格迁移方法,其特征在于,将所述连续两帧所述第二图像输入内容编码器,得到与所述视频数据内容特征相关的第二语义特征包括:
将前一帧的所述第二图像作为参考图像,根据所述参考图像的内容特征对后一帧的第二图像进行语义特征的提取。


4.根据权利要求1所述的视频风格迁移方法,其特征在于,所述语义依赖关系学习网络包括:微观结构依赖学习模块以及风格依赖关系学习模块。


5.根据权利要求1所述的视频风格迁移方法,其特征在于,训练所述视频风格迁移神经网络的方法包括:
获取引导图像以及训练视频数据,所述训练视频数据包括以时间顺序排列的多帧训练图像;
将所述引导图像以及连续两帧所述训练图像...

【专利技术属性】
技术研发人员:施劲松张根源马金雅刘思佳高建春王含泽
申请(专利权)人:杭州广电云网络科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1