当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统技术方案

技术编号:34284597 阅读:30 留言:0更新日期:2022-07-27 08:08
本发明专利技术涉及人脸视频合成技术领域,且公开了一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统,所述一种基于生成对抗网络的虚拟视频客服机器人合成系统,包括唇形生成器模块、表情生成器模块、文本情感分析模块、文本语音合成模块。该一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统,其创新性在于提出了两种合成虚拟视频客服机器人的方案,可供用户根据需求自主选择;合成方案可以让用户实现各种语言的合成,客服形象的任意选择,多种场景的应用,并且将说话者的情感融入到视频合成的过程中,具有良好的真实性;集成了一套基于Web端的系统,支持用户直接登陆网站,上传音视频材料,在线合成,批量快速生产。批量快速生产。批量快速生产。

【技术实现步骤摘要】
一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统


[0001]本专利技术涉及人脸视频合成
,具体为一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统。

技术介绍

[0002]人脸视频合成是计算机视觉中一个新兴的、具有挑战性的问题,基于该技术的虚拟视频机器人正在获得越来越多的关注。虚拟视频客服机器人包括唇形生成、表情生成、语音合成等模块,被期待能真实模仿出人说话时的唇动、声音和面部表情。
[0003]受深度学习在计算机视觉领域成功应用的启发,基于深度学习的人脸视频合成取得了优异的性能和良好的视觉效果。目前,人脸视频合成领域提出了一些具有重要意义的基准数据集,如GRID [1] , TIMIT [2] 和LRW [3]等。这些数据集提供了大量的音频视频数据对,大力推动了人脸视频合成领域的发展。基于上述数据集,涌现出大量的优秀算法,如ObamaNet [4]、LipGAN [5]、ExprGAN [6]、Wav2Lip [7]等。以LipGAN为例,其通过生成对抗网络中生成器的编码解码结构提取音频视频特征,并用鉴别器将生成的视本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统,其特征在于:所述一种基于生成对抗网络的虚拟视频客服机器人合成系统,包括唇形生成器模块、表情生成器模块、文本情感分析模块、文本语音合成模块。2.根据权利要求1所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统,其特征在于:所述一种基于生成对抗网络的虚拟视频客服机器人合成方法包括以下步骤:步骤一:收集1000段时长在15秒的中央电视台新闻联播视频作为相应的中文语料

视频数据集,在该数据集上训练Wav2Lip、First Order Motion Model模型,使其更加符合汉语发音的特征,作为唇形生成器;步骤二:在Oulu

CASIA NIR&VIS面部表情数据集上训练ExprGAN模型作为表情生成器,训练双向LSTM模型作为文本情感分析模块,调用百度TTS接口合成带有感情的语音;步骤三:将上述四个模块集成,基于Web端开发,利用VUE框架搭建前端,利用Python的flask、django包封装接口、搭建后端,利用nginx进行反向代理,集成出具有两种方案的虚拟视频客服机器人合成网站和平台;步骤四:用户根据自身的需求选择对应的两种合成方案;步骤五:登录网站,提交上述原始材料,即可合成出虚拟客服的面部视频。3.根据权利要求2步骤一所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统,其特征在于:步骤一所述方案为迁移合成,更加适用于对唇形对齐要求高的场景,能够清晰真实的人脸视频。4.根据权利要求2步骤二所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统,其特征在于:步骤二所述方案为文本合成,更加适用于大规模的商业级应用场景,能够根据文字直接合成出真实的唇形、表情、声音,合成视频具有良好的时序稳定性,合成迅速,效果逼真。5.根据权利要求2步骤一所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统,其特征在于:若用户选择步骤一所述方案,需要向平台服务器提供一段预先朗读过相应文字的源视频和视频客服的形象图片。6...

【专利技术属性】
技术研发人员:张轩宇王逸超刘昱麟朱鹏飞
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1