【技术实现步骤摘要】
基于草图的深度人脸视频编辑方法及系统
[0001]本专利技术涉及计算机图形学和计算机视觉
,尤其涉及对人脸面部视频合成和草图编辑的方法和系统。
技术介绍
[0002]视频编辑是极具挑战性的科研问题,随着深度学习的发展,视频编辑和修改的工作也越来越多。现有的视频编辑方法,大多修改视频的全局属性,将黑白视频转换成彩色视频,或对视频进行风格化处理,生成艺术化的视频编辑结果。针对人脸视频,现有技术主要完成换脸等编辑任务,同样只修改身份这一全局属性。一些方法可以编辑视频的细节区域,但需要使用PS、PR等专业软件,需要较高的时间和精力成本。草图是一种高效精确的交互工具,具有很高的用户友好性,广泛地被用于图像的生成和编辑问题。但是,现有技术无法将草图编辑从图像扩展至视频,难以处理编辑操作的传播和合成问题。视频编辑有广泛的应用前景,在电影制作、新媒体传播等文化领域有较高价值,然而,现有的技术无法简单快捷地完成视频细节编辑任务。
[0003]针对视频编辑问题,现有技术能实现对视频自动上色,但其功能较为单一,仅能改变视频的颜色信息 ...
【技术保护点】
【技术特征摘要】
1.一种基于草图的深度人脸视频编辑方法,其特征在于,包括:步骤1、对齐并裁剪原视频中人脸,并将人脸编码至隐空间,得到人脸视频中所有帧的隐码;步骤2、添加草图生成分支至StyleGAN生成网络,反向优化图像隐码,生成编辑向量δ
edit
;步骤3、将编辑向量δ
edit
叠加到所有帧的隐码,完成时序无关编辑的传播;步骤4、使用分段线性函数的权重叠加编辑向量δ
edit
,完成动作或表情的编辑传播;步骤5、根据当前帧与编辑帧的表情参数的相似度,计算权重叠加编辑向量δ
edit
,使编辑与特定表情相对应,完成表情驱动编辑传播;步骤6、使用区域感知融合方法,融合不同帧添加的不同类型的编辑,并将人脸融合至原视频,得到基于草图的人脸视频编辑结果。2.如权利要求1所述的基于草图的深度人脸视频编辑方法,其特征在于,该步骤1包括:检测人脸视频的人脸关键点,并使用时间窗口平滑后,对人脸进行对齐和裁剪,生成视频帧序列f1,f2,
…
,f
N
,其中,N是该人脸视频的帧数;将帧序列投影至隐空间W
+
,生成隐码序列w1,w2,
…
,w
N
。3.如权利要求2所述的基于草图的深度人脸视频编辑方法,其特征在于,该步骤2包括:获取StyleGAN原始生成网络G,并构建用于建模真实人脸图像及草图的联合概率分布的生成网络生成网络包括和两个分支,为G的原始生成网络,用于生成拟真人脸图像,用于生成对应的草图图像;给定图像的隐码w,生成特征图F1,F2,
…
,F
14
,其中,F1用作分支的初始的特征图;分支的特征图经上采样,与特征图F
i
卷积后的残差图相加,生成隐码w对应的草图图像;使用图像与草图匹配的数据集,训练草图生成网络S,其以人脸图像为输入,生成对应的草图,用于训练训练草图生成分支随机采样隐码w,将其输入生成高真实感人脸图像和对应草图构建损失函数训练草图生成分支训练草图生成分支L
VGG
是感知损失函数,使用VGG19模型衡量视觉相似度,L
L2
是像素L2损失,α1和α2均为预设权重;在对真实图像和草图的分布建模后,根据输入的人脸图像x,绘制的草图s
edit
和选中区域m
edit
;将人脸图像x投影至W
+
空间,得到隐码w
edit
,生成的草图在编辑区域和输入草图相同,生成的图像在非编辑区域与原始图像相同,其中通过下述损失函数得到w
edit
:L
editing
(w
edit
)=β1L
sketch
+β2L
rgb
,L
sketch
约束编辑区域与草图结果结构相同,L
rgb
约束非编辑区域保持不变,β1与β2为超参数,通过固定生成网络的权重,得到w
edit
;
最终的编辑向量δ
edit
=w
edit
‑
w,δ
edit
表示了草图的编辑,并传播到整个人脸视频;对每一帧f
i
,生成对应的编辑向量:δ
i
=δ
edit
,i=1,2,
…
,N该步骤3包括将每一帧f
i
对应的δ
edit
传播至整个人脸视频,生成编辑后的帧序列。4.如权利要求3所述的基于草图的深度人脸视频编辑方法,其特征在于,该步骤4包括:在该人脸视频中的特定时间添加眨眼或微笑的动作,在特定的帧f
t
添加编辑向量δ
edit
,输入持续时间h和变化时间l,对于每一帧f
i
,本发明使用分段线性函数生成光滑的传播编辑向量δ
i
,得到新编辑向量δ
i
:δ
i
=γ
·
δ
edit
,i=1,2,
…
,Mt1=t
‑
h/2
‑
l,t2=t
‑
h/2,t3=t+h/2,t4=t+h/2+l,t是编辑帧f
t
对应的时间;这些新的编辑向量δ
i
用于合成拟真人脸图像;该步骤5包括:给定该人脸视频中多个关键帧使用3D重建的方式提取人脸的表情参数及对应的编辑向量M是关键帧的数量,使用下述方式传播表情引导编辑:e
i
是输入帧f
i
的表情参数,C是归一化项且编辑向量针对相同的区域;该步骤6包括:给定一系列帧序列f1,f2,
…
,f
N
,用户选取M个关键帧k1,k2,
…
,k
M
编辑不同的区域,对应M个绘制的标记区域m1,m2,
…
,m
M
;对每一帧f
i
,生成M个编辑向量对每一个待预测帧f
i
生成变形场,对输入标记区域变形生成M个新的标记区域生成变形场,对输入标记区域变形生成M个新的标记区域为m
j
经过动作和表情变形后的区域;将原始帧的特征图的局部区域替换为新的特征图:其中,初始的特征图是G是StyleGAN的生成网络;
下采样使其与和有相同的分辨率;特征图对M个编辑操作,都进行更新,一共更新M次;更新StyleGAN的中间5个特征图,分辨率从32
×
32到128
×
128,高分辨率则由原本的隐码w
i
基于StyleGAN的算法进行调整;将上述的融合操作应用至所有帧f
i
,i=1,2,..,N,生成编辑融合后的对齐人脸视频;使用人脸分割方法,生成输入帧和编辑帧的人脸标记区域并将其合并,为合并的标记区域生成光滑的边缘,进一步用作融合的权重,融合编辑前后的人脸并将融合后的人脸图像反对齐至原视频,合成该人脸视频编辑结果。5.一种基于草图的深度人脸视频编辑系统,其特征在于,包括:模块1,用于对齐并裁...
【专利技术属性】
技术研发人员:高林,陈姝宇,刘锋林,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。