当前位置: 首页 > 专利查询>西北大学专利>正文

一种基于GAN网络将戏剧人物图片生成演唱视频的方法技术

技术编号:37128818 阅读:20 留言:0更新日期:2023-04-06 21:27
本发明专利技术公开了一种基于GAN网络将戏剧人物图片生成演唱视频的方法,包括步骤:1、收集秦腔戏曲演唱视频合成新数据集;2、定位新数据集中人脸的位置,以人脸为中心裁剪视频,并导入深度感知生成对抗网络;3、面部深度网络从训练集的戏曲视频里选取两个连续帧,从面部视频中恢复密集的3D面部几何形状;4、面部深度网络将戏剧妆容的RGB图像和戏曲视频的RGB图像帧分别生成各自的深度图,将深度图和对应的RGB图像连接形成RGB

【技术实现步骤摘要】
一种基于GAN网络将戏剧人物图片生成演唱视频的方法


[0001]本专利技术涉及视频生成技术,具体是一种基于GAN网络将戏剧人物图片生成演唱视频的方法。

技术介绍

[0002]戏曲艺术作为中华非物质文化遗产,是中华文明传承的重要载体。传播、传承、推广戏曲艺术,对传承我国优秀文化,丰富人们精神世界,增强民族自信的意义深远。在戏曲的各种表现手段中,音乐,特别是歌唱始终是主导的因素,唱念做打,唱居于首位。由于有唱,念白就不能保持生活语言的自然音调,它需要吟咏,要强调语言音调的韵律和节奏的回环跌宕,形成音乐美。散白、韵白、韵律性朗诵(如引子和诗、对)和节奏性吟诵(如“干牌子”和数板)等各种念白形式,就是语言同音乐的不同程度的结合;汉字音调的高低强弱、抑扬顿挫之美,则是戏曲念白音乐美的基础。采用戏剧妆容人物图片生成演唱视频,不仅可以帮助听力受损的用户使用唇读技术识别戏曲内容,而且在电影、摄影和娱乐等一些感兴趣的领域也具有很大的应用潜力。
[0003]现有说话人视频生成技术都是直接处理正常情况下的人脸图像数据,但戏曲演员面部妆容比较浓重,尤其戏曲角色中的花脸画着脸谱,视频生成效果很差。所以,采用戏剧妆容人物图片生成演唱视频是一个技术难题。深度学习在说话人视频生成方面的贡献很大,近年来生成式对抗网络不断推陈出新,例如Vid2Vid、DAVS和StyleHEAT等。说话人视频生成方法大致分为三种:

音频驱动的说话人视频生成方法

图像驱动的说话人视频生成方法,

地标驱动的说话人视频生成方法。但是,以上这些方法无法用于将戏剧妆容人物图片生成演唱视频。

技术实现思路

[0004]本专利技术的目的在于提供一种基于GAN网络将戏剧人物图片生成演唱视频的方法,可以将戏剧妆容人物的图片生成表情自然、且连贯的演唱视频。
[0005]为了实现上述目的,本专利技术采用以下技术方案予以实现:
[0006]一种基于GAN网络将戏剧人物图片生成演唱视频的方法,包括如下步骤:
[0007]步骤1、收集秦腔戏曲演唱视频,并将其添加到开源数据集VoxCeleb中,合成新的数据集;
[0008]步骤2、先利用人脸识别定位新数据集中人脸的位置,再以人脸为中心使用ffmpeg裁剪视频从而生成预处理后的数据集,然后将预处理后的数据集分为训练集、验证集和测试集,并分批导入深度感知生成对抗网络;
[0009]步骤3、面部深度网络以自监督的方式从训练集的戏曲驱动视频帧里选取两个连续帧用于学习逐像素面部深度图,最终从面部视频中恢复密集的3D面部几何形状;
[0010]步骤4、面部深度网络将戏剧妆容的RGB图像和戏曲视频的RGB图像帧分别生成各自的深度图,并将生成的深度图和对应的RGB图像连接从而形成RGB

D,再通过面部关键点
检测网络学习RGB

D面部关键点的几何和外观特征,并输出K个面部关键点;
[0011]步骤5、人脸合成网络中的特征扭曲模块接受步骤4生成的面部关键点并生成用于扭曲源图像特征图的运动场,将面部运动与外观信息融合,生成扭曲特征;
[0012]步骤6、深度编码器将输入的戏曲视频的RGB图像帧的面部深度图生成编码结果,并将编码结果和扭曲特征进行线性投影,通过三个1
×
1卷积层将其转换为三个潜在特征图F
q
,F
k
,F
v
,将F
q
与F
k
融合从而生成用于人脸生成的密集引导,获得用于生成图像的细化扭曲特征;
[0013]步骤7、对细化扭曲特征进行解码,生成一张图像,重复执行步骤4~步骤7,生成多张图像;
[0014]步骤8、使用imageio的mimsave函数,将生成的多张图像变为视频,同时使用ffmpeg为视频添加声音,,最终生成有声音的演唱视频。
[0015]进一步地,所述步骤2裁剪后的视频大小为256*256。
[0016]进一步地,所述步骤3中的面部深度网络由编码器和解码器组成,编码器是没有最后一个全连接层和池化层的ResNet18网络。
[0017]进一步地,所述步骤4中的关键点检测网络将大小为1
×
256
×
256的深度图和对应的大小为3
×
256
×
256的RGB图像连接,从而形成大小为4
×
256
×
256的RGB

D。
[0018]进一步地,所述步骤4还包括使用等方差损失L
E
和关键点距离损失L
D
评估面部关键点检测网络,当对图像应用2D变换时,等方差损失L
E
使关键点检测网络预测的关键点根据所应用的2D变换进行改变从而确保图像特定关键点的一致性,当两个对应关键点的距离低于预定义阈值时,关键点距离损失L
D
惩罚模型。
[0019]进一步地,所述步骤5中的特征扭曲模块的工作过程为:
[0020]步骤5.1)、利用密集的2D运动场扭曲下采样图像,从而生成初始扭曲特征图;
[0021]步骤5.2)、遮挡估计器,将初始扭曲特征图输入特征编码器用于预测运动流掩膜和和遮挡图,其中:运动流掩码为估计的密集2D运动场分配不同的置信值,从而让运动场被掩蔽;遮挡图是通过掩蔽特征图区域修正头部的旋转幅度;
[0022]步骤5.3)、用被掩蔽的运动场扭曲特征编码器从源图像提取的外观特征图;
[0023]步骤5.4)、把外观特征图与与遮挡图融合产生扭曲特征。
[0024]进一步地,所述步骤6中的三个潜在特征图F
q
,F
k
,F
v
分别表示自注意力机制中的查询、键和值。
[0025]进一步地,所述步骤7还包括将戏曲驱动视频帧和生成的图像降采样到4种不同的分辨率,使用训练好的VGG网络从下采样的戏曲驱动视频帧和生成的图像中提取特征,计算戏曲驱动视频帧和生成的图像间的L1距离,将感知损失L
P
作为总损失的一部分,使用Gan损失函数确保生成的图像与其对应的戏曲驱动视频帧相似。
[0026]进一步地,所述总损失的组合损失函数L表示为:
[0027][0028]式中:I
g
表示生成图像,I
d
表示驱动图像,λ
P

G

E

D
均表示超参数,和
表示人脸中的一组稀疏关键点,K是检测到的面部关键点的数目,下标s表示源图像,下标d表示驱动图像,L
P
表示感知损失,L
G
表示Gan损失,L
E
表示等方差损失,L
D
表示关键点距离损失。
[0029]本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于GAN网络将戏剧人物图片生成演唱视频的方法,其特征在于,包括如下步骤:步骤1、收集秦腔戏曲演唱视频,并将其添加到开源数据集VoxCeleb中,合成新的数据集;步骤2、先利用人脸识别定位新数据集中人脸的位置,再以人脸为中心使用ffmpeg裁剪视频从而生成预处理后的数据集,然后将预处理后的数据集分为训练集、验证集和测试集,并分批导入深度感知生成对抗网络;步骤3、面部深度网络以自监督的方式从训练集的戏曲驱动视频帧里选取两个连续帧用于学习逐像素面部深度图,最终从面部视频中恢复密集的3D面部几何形状;步骤4、面部深度网络将戏剧妆容的RGB图像和戏曲视频的RGB图像帧分别生成各自的深度图,并将生成的深度图和对应的RGB图像连接从而形成RGB

D,再通过面部关键点检测网络学习RGB

D面部关键点的几何和外观特征,并输出K个面部关键点;步骤5、人脸合成网络中的特征扭曲模块接受步骤4生成的面部关键点并生成用于扭曲源图像特征图的运动场,将面部运动与外观信息融合,生成扭曲特征;步骤6、深度编码器将输入的戏曲视频的RGB图像帧的面部深度图生成编码结果,并将编码结果和扭曲特征进行线性投影,通过三个1
×
1卷积层将其转换为三个潜在特征图F
q
,F
k
,F
v
,将F
q
与F
k
融合从而生成用于人脸生成的密集引导,获得用于生成图像的细化扭曲特征;步骤7、对细化扭曲特征进行解码,生成一张图像,重复执行步骤4~步骤7,生成多张图像;步骤8、使用imageio的mimsave函数,将生成的多张图像变为视频,同时使用ffmpeg为视频添加声音,最终生成有声音的演唱视频。2.根据权利要求1所述的基于GAN网络将戏剧人物图片生成演唱视频的方法,其特征在于,所述步骤2裁剪后的视频大小为256*256。3.根据权利要求1所述的基于GAN网络将戏剧人物图片生成演唱视频的方法,其特征在于,所述步骤3中的面部深度网络由编码器和解码器组成,编码器是没有最后一个全连接层和池化层的ResNet18网络。4.根据权利要求1所述的基于GAN网络将戏剧人物图片生成演唱视频的方法,其特征在于,所述步骤4中的关键点检测网络将大小为1
×
256
×
256的深度图和对应的大小为3
×
256
×
256的RGB图像连接,从而形成大小为4
×
256
×
256的RGB

...

【专利技术属性】
技术研发人员:王小凤贺思凯李治权马静吴思冬乔相茹
申请(专利权)人:西北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1