【技术实现步骤摘要】
一种基于GAN网络将戏剧人物图片生成演唱视频的方法
[0001]本专利技术涉及视频生成技术,具体是一种基于GAN网络将戏剧人物图片生成演唱视频的方法。
技术介绍
[0002]戏曲艺术作为中华非物质文化遗产,是中华文明传承的重要载体。传播、传承、推广戏曲艺术,对传承我国优秀文化,丰富人们精神世界,增强民族自信的意义深远。在戏曲的各种表现手段中,音乐,特别是歌唱始终是主导的因素,唱念做打,唱居于首位。由于有唱,念白就不能保持生活语言的自然音调,它需要吟咏,要强调语言音调的韵律和节奏的回环跌宕,形成音乐美。散白、韵白、韵律性朗诵(如引子和诗、对)和节奏性吟诵(如“干牌子”和数板)等各种念白形式,就是语言同音乐的不同程度的结合;汉字音调的高低强弱、抑扬顿挫之美,则是戏曲念白音乐美的基础。采用戏剧妆容人物图片生成演唱视频,不仅可以帮助听力受损的用户使用唇读技术识别戏曲内容,而且在电影、摄影和娱乐等一些感兴趣的领域也具有很大的应用潜力。
[0003]现有说话人视频生成技术都是直接处理正常情况下的人脸图像数据,但戏曲演员面部妆容比较浓重,尤其戏曲角色中的花脸画着脸谱,视频生成效果很差。所以,采用戏剧妆容人物图片生成演唱视频是一个技术难题。深度学习在说话人视频生成方面的贡献很大,近年来生成式对抗网络不断推陈出新,例如Vid2Vid、DAVS和StyleHEAT等。说话人视频生成方法大致分为三种:
①
音频驱动的说话人视频生成方法
②
图像驱动的说话人视频生成方法,
③
地标驱动 ...
【技术保护点】
【技术特征摘要】
1.一种基于GAN网络将戏剧人物图片生成演唱视频的方法,其特征在于,包括如下步骤:步骤1、收集秦腔戏曲演唱视频,并将其添加到开源数据集VoxCeleb中,合成新的数据集;步骤2、先利用人脸识别定位新数据集中人脸的位置,再以人脸为中心使用ffmpeg裁剪视频从而生成预处理后的数据集,然后将预处理后的数据集分为训练集、验证集和测试集,并分批导入深度感知生成对抗网络;步骤3、面部深度网络以自监督的方式从训练集的戏曲驱动视频帧里选取两个连续帧用于学习逐像素面部深度图,最终从面部视频中恢复密集的3D面部几何形状;步骤4、面部深度网络将戏剧妆容的RGB图像和戏曲视频的RGB图像帧分别生成各自的深度图,并将生成的深度图和对应的RGB图像连接从而形成RGB
‑
D,再通过面部关键点检测网络学习RGB
‑
D面部关键点的几何和外观特征,并输出K个面部关键点;步骤5、人脸合成网络中的特征扭曲模块接受步骤4生成的面部关键点并生成用于扭曲源图像特征图的运动场,将面部运动与外观信息融合,生成扭曲特征;步骤6、深度编码器将输入的戏曲视频的RGB图像帧的面部深度图生成编码结果,并将编码结果和扭曲特征进行线性投影,通过三个1
×
1卷积层将其转换为三个潜在特征图F
q
,F
k
,F
v
,将F
q
与F
k
融合从而生成用于人脸生成的密集引导,获得用于生成图像的细化扭曲特征;步骤7、对细化扭曲特征进行解码,生成一张图像,重复执行步骤4~步骤7,生成多张图像;步骤8、使用imageio的mimsave函数,将生成的多张图像变为视频,同时使用ffmpeg为视频添加声音,最终生成有声音的演唱视频。2.根据权利要求1所述的基于GAN网络将戏剧人物图片生成演唱视频的方法,其特征在于,所述步骤2裁剪后的视频大小为256*256。3.根据权利要求1所述的基于GAN网络将戏剧人物图片生成演唱视频的方法,其特征在于,所述步骤3中的面部深度网络由编码器和解码器组成,编码器是没有最后一个全连接层和池化层的ResNet18网络。4.根据权利要求1所述的基于GAN网络将戏剧人物图片生成演唱视频的方法,其特征在于,所述步骤4中的关键点检测网络将大小为1
×
256
×
256的深度图和对应的大小为3
×
256
×
256的RGB图像连接,从而形成大小为4
×
256
×
256的RGB
‑
...
【专利技术属性】
技术研发人员:王小凤,贺思凯,李治权,马静,吴思冬,乔相茹,
申请(专利权)人:西北大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。