一种基于深度生成对抗网络的文本生成视频系统技术方案

技术编号:39742705 阅读:29 留言:0更新日期:2023-12-17 23:42
本发明专利技术公开了一种基于深度生成对抗网络的文本生成视频系统,能够生成目标人物的清晰语音,解决音画不同步问题,提高合成视频的画质

【技术实现步骤摘要】
一种基于深度生成对抗网络的文本生成视频系统


[0001]本专利技术涉及人工智能
,具体涉及一种基于深度生成对抗网络的文本生成视频系统


技术介绍

[0002]随着数字人概念的火爆

生成技术的不断发展,让照片里的人物跟随音频的输入动起来也不再是难题

受该技术启发,如果将该技术用于舆论领域,利用任意一段文本,通过提取特定“人物目标”的声纹特征与深度视觉特征,生成特定人物的演讲视频,达到对敌以假乱真

煽动人心的效果,在正面战场和敌后战场都有极强的军事意义

[0003]目前关于深度生成对抗网络
(GAN)
的语音生成视频技术很少,下面介绍与
技术实现思路
关系密切且文献发布最新的解决方法

[0004]目前已有的方法是基于多条件生成对抗网络的文本生成视频方法
(2022.10
,周瑞,计算机辅助设计与图形学报
)。
此文本生成视频方法包括三个模块,分别是文本处理模块

位姿建模与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于深度生成对抗网络的文本生成视频系统,其特征在于,包括语音生成模块和视频生成模块;所述语音生成模块以生成对象的参考语音信号以及文字部分作为输入,所述语音生成模块包括三个独立训练的神经网络,分别为:扬声器编码器,从所述生成对象的参考语音信号中计算固定维度的嵌入向量;序列合成器,以生成对象的所述嵌入向量为条件,根据字素或者音素输入序列为条件来预测梅尔谱图;自回归
WaveNet
声码器,用于将所述梅尔谱图转换为时域波形,最终生成语音特征,输入至所述视频生成模块;所述视频生成模块以生成对象的图片以及所述语音特征作为输入,所述视频生成模块包括
3D
人脸识别单元

表达单元

头部姿态单元以及
3D
面部渲染单元;所述
3D
人脸识别单元用于根据生成对象的图片进行
3D
人脸识别,确定初始参考表达系数以及初始参考头部姿态系数;所述表达单元对所述生成对象的面部的运动系数进行计算,生成关联语音的表达系数;所述头部姿态单元对头部整体的运动系数进行计算,得到头部姿态系数;所述
3D
面部渲染单元利用关联语音的表达系数

头部姿态系数对面部关键点进行映射,生成最终的视频
。2.
如权利要求1所述的一种基于深度生成对抗网络的文本生成视频系统,其特征在于,所述扬声器编码器,扬声器编码器网络由神经网络训练而成,该网络从任意长度的参考语音信号中计算出
Log

Mel
的谱图序列,并将其映射到固定维度的嵌入向量中;所述扬声器编码器在训练过程中,训练样本包括分割成
1.6s
的语音视频实例和说话者身份标签;训练网络为
Log

Mel
谱图通过多个传输通道到达由多个单元组成的长短期记忆递归神经网络
LSTM
,最终对输出进行归一化
。3.
如权利要求1所述的一种基于深度生成对抗网络的文本生成视频系统,其特征在于,所述序列合成器包含编码器

合成器和解码器;所述序列合成器的输入在对文本转录目标音频上进行训练,在输入端,首先将文本映射成一系列音素,所述因素为最小语音单位;所述一系列音素与参考语音经过预训练扬声器编码器的输出的编码向量进行合成,最后将合成的语音编码输入到解码器进行解码,最终生成与参考语音相同的合成
Mel
声谱图
。4.
如权利要求1所述的一种基于深度生成对抗网络的文本生成视频系统,其特征在于,所述表达单元包括音频编码器

映射网络
、Wav2Lip
模型以及
3DMM
系数估计器;所述音频编码器为残差神经网络
ResNet
,所述音频编码器的输入为音频,输出为音频编码结果;所述映射网络为一个线性层,用来解码表达系数,所述映射网络的输入包括三个:第一个是音频经过音频编码器后输出的音频编码结果,第二个是来自参考图像的参考表达系数
β0,第三个是眨眼控制信号
z
blink
∈[0,1]
和相应的眼标损失;所述映射网络的输出为
t
帧的表达系数;所述
Wav2Lip
模型的输入为音频,音频通过
Wav2Lip
网络后得到初步的唇...

【专利技术属性】
技术研发人员:李雪健陈永强王育欣高泽夫马宏斌焦义文马宏吴涛刘杨李超腾飞卢志伟陈雨迪宋雨珂
申请(专利权)人:中国人民解放军战略支援部队航天工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1