【技术实现步骤摘要】
【国外来华专利技术】用于风格化视频的方法和设备以及存储介质
[0001]本公开涉及图像处理
,尤其涉及用于风格化视频的方法和设备以及非暂时性存储介质。
技术介绍
[0002]风格迁移旨在将参考图像/视频的风格迁移到输入图像/视频。风格迁移与颜色迁移的不同之处在于,其不仅迁移颜色,还迁移参考的笔触和纹理。一些现有技术耗时且低效,而一些技术给计算设备带来了沉重的计算负担。
技术实现思路
[0003]本公开实施例涉及用于风格化视频的方法和设备以及非暂时性存储介质。
[0004]根据第一方面,提供了一种用于训练用于风格化视频的卷积神经网络(convolutional neural network,CNN)的方法。该方法包括:通过使用用于风格化的第一CNN,将视频的多个原始帧中的每个原始帧变换为风格化帧;根据多个原始帧中的第一原始帧和第二原始帧以及变换的结果,确定至少一个第一损失,第二原始帧与第一原始帧相邻;根据至少一个第一损失训练第一CNN。
[0005]根据第二方面,提供了一种用于训练风格化视频的卷积神经网络(C ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于训练用于风格化视频的卷积神经网络(CNN)的方法,包括:通过使用用于风格化的第一CNN,将所述视频的多个原始帧中的每个原始帧变换为风格化帧;根据所述多个原始帧中的第一原始帧和第二原始帧以及所述变换的结果,确定至少一个第一损失,所述第二原始帧与所述第一原始帧相邻;以及根据所述至少一个第一损失训练所述第一CNN。2.根据权利要求1所述的方法,其中,所述至少一个第一损失包括语义级别时间损失,并且确定至少一个第一损失包括:在所述第一CNN应用于所述第一原始帧时,提取所述第一CNN中的隐藏层的第一输出,并且在所述第一CNN应用于所述第二原始帧时,提取所述第一CNN中的所述隐藏层的第二输出;以及根据所述第一输出和所述第二输出之间的第一差值确定语义级别时间损失。3.根据权利要求1或2所述的方法,其中,所述至少一个第一损失包括对比损失,并且确定至少一个第一损失包括:根据以下二者之间的第二差值确定对比损失:(a)所述第一原始帧和与所述第一原始帧对应的风格化第一帧之间的差值,以及(b)所述第二原始帧和与所述第二原始帧对应的风格化第二帧之间的差值。4.根据权利要求1
‑
3中任一项所述的方法,还包括:通过使用第二CNN变换所述视频的所述多个原始帧中的每个原始帧,所述第二CNN已通过ImageNet数据集进行训练;通过使用所述第二CNN变换多个风格化帧中的每个风格化帧;根据所述多个原始帧中的每个原始帧在所述第二CNN的第一层的输出特征向量以及所述多个风格化帧中的每个风格化帧在所述第二CNN的所述第一层的输出特征向量,确定至少一个第二损失,其中,根据所述至少一个第一损失训练所述第一CNN包括:根据所述至少一个第一损失和所述至少一个第二损失训练所述第一CNN。5.根据权利要求4所述的方法,其中,所述至少一个第二损失包括内容损失,并且所述方法还包括:在所述第二CNN应用于所述多个原始帧中的每个原始帧时,提取所述第二CNN的卷积层的激活的第一特征图;在所述第二CNN应用于与所述原始帧对应的风格化帧时,提取所述第二CNN的卷积层的激活的第二特征图;以及根据所述第一特征图和所述第二特征图之间的欧拉距离,确定所述内容损失。6.根据权利要求4或5所述的方法,其中,所述至少一个第二损失包括风格损失,并且所述方法还包括:在所述第二CNN应用于所述多个原始帧中的每个原始帧时,根据所述第二CNN的卷积层的激活的第一特征图确定第一格拉姆矩阵;在所述第二CNN应用于与所述原始帧对应的风格化帧时,根据所述第二CNN的卷积层的激活的第二特征图确定第二格拉姆矩阵;以及
根据所述第一格拉姆矩阵和所述第二格拉姆矩阵之间的差值确定所述风格损失。7.根据权利要求6所述的方法,其中,根据所述第一格拉姆矩阵和所述第二格拉姆矩阵之间的所述差值确定所述风格损失包括:根据所述第一格拉姆矩阵和所述第二格拉姆矩阵之间的所述差值的平方弗罗贝尼乌斯范数确定所述风格损失。8.根据权利要求6所述的方法,其中,根据所述至少一个第一损失和所述至少一个第二损失训练所述第一CNN包括:训练所述第一CNN,使得所述至少一个第一损失和所述至少一个第二损失的加权和最小化。9.根据权利要求8所述的方法,其中,训练所述第一CNN,使得所述至少一个第一损失和所述至少一个第二损失的加权和最小化包括:基于使用梯度来更新所述第一CNN的网络参数的方法训练所述第一CNN,使得所述至少一个第一损失和所述至少一个第二损失的加权和最小化。10.根据权利要求4
‑
9中任一项所述的方法,其中,从包括VGG网络、InceptionNet、以及ResNet的组中选择所述第二CNN。11.一种用于训练用于风格化视频的卷积神经网络(CNN)的设备,包括:存储器,用于存储指令;以及处理器,用于执行所述指令以执行以下操作:通过使用用于风格化的第一CNN,将所述视频的多个原始帧中的每个原始帧变换为风格化帧;根据所述多个原始帧中的第一原始帧和第二原始帧以及所述变换的结果,确定至少一个第一损失,所述第二原始帧与所述第一原始帧相邻;以及根据所述至少一个第一损失训练所述第一CNN。12.根据权利要求11所述的设备,其中,所述至少一个第一损失包括语义级别时间损失,并且所述处理器还用于执行所述指令以执行以下操作:在所述第一CNN应用于所述第一原始帧时,提取所述第一CNN中的隐藏层的第一输出,并且在所述第一CNN应用于所述第二原始帧时,提取所述第一CNN中的所述隐藏层的第二输出;以及根据所述第一输出和所述第二输出之间的第一差值确定语义级别时间损失。13.根据权利要求11或12所述的设备,其中,所述至少一个第一损失包括对比损失,并且所述处理器还用于执行所述指令以执行以下操作:根据以下二者之间的第二差值确定对比损失:(a)所述第一原始帧和与所述第一原始帧对应的风格化第一帧之间的差值,以及(b)所述第二原始帧和与所述第二原始帧对应的风格化第二帧之间的差值。14.根据权利要求11
‑
13中任一项所述的设备,其中,所述处理器还用于执行所述指令以执行以下操作:通过使用第二CNN变换所述视频的所述多个原始帧中的每个原始帧,所述第二CNN已通过ImageNet数据集进行训练;通过使用所述第二CNN变换多个所述风格化帧中的每个风格化帧;
根据所述多个原始帧中的每个原始帧在所述第二CNN的第一层的输出特征向量以及在所述多个风格化帧中的每个风格化帧所述第二CNN的第一层的输出特征向量,确定至少一个第二损失,其中,根据所述至少一个第一损失训练所述第一CNN包括:根据所述至少一个第一损失和所述至少一个第二损失训练所述第一CNN。15.根据权利要求14所述的设备,其中,所述至少一个第二损失包括内容损失,并且所述处理器还用于执行所述指令以执行以下操作:在所述第二CNN应用于所述多个原始帧中的每个原始帧时,提取所述第二CNN的卷积层的激活的第一特征图;在所述第二CNN应用于与所述原始帧对应的风格化帧时,提取所述第二CNN的卷积层的激活的第二特征图;以及根据所述第一特征图和所述第二特征图之间的欧拉距离,确定所述内容损失。16.根据权利要求14或15所述的设备,其中,所述至少一个第二损失包括风格损失,并且所述处理器还用于执行所述指令以执行以下操作:在所述第二CNN应用于所述多个原始帧中的每个原始帧时,根据所述第二CNN的卷积层的激活的第一特征图确定第一格拉姆矩阵;在所述第二CNN应用于与所述原始帧对应的风格化帧时,根据所述第二CNN的卷积层的激活的第二特征图确定第二格拉姆矩阵;以及根据所述第一格拉姆矩阵和所述第二格拉姆矩阵之间的差值确定所述风格损失。17.根据权利要求16所述的设备,其中,所述处理器还用于执行所述指令以执行以下操作:根据所述第一格拉姆矩阵和所述第二格拉姆矩阵之间的所述差值的平方弗罗贝尼乌斯范数确定所述风格损失。18.根据权利要求16所述的设备,其中,所述处理器还用于执行所述指令以执行以下操作:训练所述第一CNN,使得所述至少一个第一损失和所述至少一个第二损失的加权和最小化。19.根据权利要求18所述的设备,其中,所述处理器还用于执行所述指令以执行以下操作:基于使用梯度来更新所述第一CNN的网络参数的方法训练所述第一CNN,使得所述至少一个第一损失和所述至少一个第二损失的加权和最小化。20.一种非暂时性存储介质,存储有计算机可执行指令,当由处理器执行时,所述计算机可执行指令使所述处理器执行用于风格化视频的方法,所述方法包括:通过使用用于风格化的第一卷积神经网络(CNN),将所述视频的多个原始帧中的每个原始帧变换为风格化帧;根据所述多个原始帧中的第一原始帧和第二原始帧,确定至少一个第一损失,所述第二原始帧与所述第一原始帧相邻;根据所述至少一个第一损失训练所述第一CNN;以及通过使用训练后的所述第一CNN风格化所述视频。
21.一种用于风格化视频的方法,包括:通过使用第一卷积神经网络(CNN)风格化视频,其中,所述第一CNN已根据至少一个第一损失进行训练,所述至少一个...
【专利技术属性】
技术研发人员:萧人豪,
申请(专利权)人:OPPO广东移动通信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。