【技术实现步骤摘要】
一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统
[0001]本专利技术涉及人脸视频合成
,具体为一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统。
技术介绍
[0002]人脸视频合成是计算机视觉中一个新兴的、具有挑战性的问题,基于该技术的虚拟视频机器人正在获得越来越多的关注。虚拟视频客服机器人包括唇形生成、表情生成、语音合成等模块,被期待能真实模仿出人说话时的唇动、声音和面部表情。
[0003]受深度学习在计算机视觉领域成功应用的启发,基于深度学习的人脸视频合成取得了优异的性能和良好的视觉效果。目前,人脸视频合成领域提出了一些具有重要意义的基准数据集,如GRID [1] , TIMIT [2] 和LRW [3]等。这些数据集提供了大量的音频视频数据对,大力推动了人脸视频合成领域的发展。基于上述数据集,涌现出大量的优秀算法,如ObamaNet [4]、LipGAN [5]、ExprGAN [6]、Wav2Lip [7]等。以LipGAN为例,其通过生成对抗网络中生成器的编码解码结构提取音频视频特征, ...
【技术保护点】
【技术特征摘要】
1.一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统,其特征在于:所述一种基于生成对抗网络的虚拟视频客服机器人合成系统,包括唇形生成器模块、表情生成器模块、文本情感分析模块、文本语音合成模块。2.根据权利要求1所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统,其特征在于:所述一种基于生成对抗网络的虚拟视频客服机器人合成方法包括以下步骤:步骤一:收集1000段时长在15秒的中央电视台新闻联播视频作为相应的中文语料
‑
视频数据集,在该数据集上训练Wav2Lip、First Order Motion Model模型,使其更加符合汉语发音的特征,作为唇形生成器;步骤二:在Oulu
‑
CASIA NIR&VIS面部表情数据集上训练ExprGAN模型作为表情生成器,训练双向LSTM模型作为文本情感分析模块,调用百度TTS接口合成带有感情的语音;步骤三:将上述四个模块集成,基于Web端开发,利用VUE框架搭建前端,利用Python的flask、django包封装接口、搭建后端,利用nginx进行反向代理,集成出具有两种方案的虚拟视频客服机器人合成网站和平台;步骤四:用户根据自身的需求选择对应的两种合成方案;步骤五:登录网站,提交上述原始材料,即可合成出虚拟客服的面部视频。3.根据权利要求2步骤一所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统,其特征在于:步骤一所述方案为迁移合成,更加适用于对唇形对齐要求高的场景,能够清晰真实的人脸视频。4.根据权利要求2步骤二所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统,其特征在于:步骤二所述方案为文本合成,更加适用于大规模的商业级应用场景,能够根据文字直接合成出真实的唇形、表情、声音,合成视频具有良好的时序稳定性,合成迅速,效果逼真。5.根据权利要求2步骤一所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统,其特征在于:若用户选择步骤一所述方案,需要向平台服务器提供一段预先朗读过相应文字的源视频和视频客服的形象图片。6...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。