虚拟人物视频生成的唇语同步优化方法和系统技术方案

技术编号:36810036 阅读:21 留言:0更新日期:2023-03-09 00:38
本发明专利技术提供了一种虚拟人物视频生成的唇语同步优化方法和系统,包括:获取针对用户请求的回答内容的语音数据;根据所述回答内容的语音数据,生成不包含唇语同步部分的低分辨率肖像视频;根据所述回答内容的语音数据、所述低分辨率肖像视频,生成高分辨率唇语同步部分视频;将所述低分辨率肖像视频的分辨率调整为与所述高分辨率唇语同步部分视频一致,然后与所述高分辨率唇语同步部分视频进行拼接,形成虚拟人形象视频。本发明专利技术能够实现优化虚拟人物视频唇部动作,达到视频、音频协调一致,并利用自适应裁剪方法与3D人脸的重建渲染方法对视频中的唇语部分单独处理,使得虚拟人视频生成的时间得以大大缩减的同时又保证了整体虚拟人视频的质量。人视频的质量。人视频的质量。

【技术实现步骤摘要】
虚拟人物视频生成的唇语同步优化方法和系统


[0001]本专利技术涉及,具体地,涉及虚拟人物视频生成的唇语同步优化方法。
[0002]本专利技术涉及深度神经网络、意图识别、多模态、视频生成、流程机器人等领域,更具体的说是一种虚拟人物视频生成的唇语同步优化方法。

技术介绍

[0003]随着信息技术、计算机技术以及人工智能技术的不断发展,元宇宙逐渐被人熟知。然而现有元宇宙虚拟人物没有考虑到视频的细节特征,比如唇语同步,导致其形象存在着脸谱化、机械化的问题。唇语的视频细节与声音不同步会降低视频质量,还会削弱人类对虚拟人的信任程度。当前业界主流的办法包括两类:第一类是语音驱动的3D虚拟人模型(AudioDVP),第一类模型存在录制成本高、可拓展性低的问题。第二类是2D的语音

口型联合生成模型(Wav2lip)。第二类模型存在视频清晰度低、生成的视频质量差的问题。这些现有技术需要投入大量人力和时间才能达到逼真、拟人的效果。

技术实现思路

[0004]针对现有技术中的缺陷,本专利技术的目的是提供一种虚拟人物视频生成的唇语同步优化方法和系统。
[0005]根据本专利技术提供的一种虚拟人物视频生成的唇语同步优化方法,包括:
[0006]语音数据获取步骤:获取针对用户请求的回答内容的语音数据;
[0007]低分辨率视频生成步骤:根据所述回答内容的语音数据,生成不包含唇语同步部分的低分辨率肖像视频;
[0008]高分辨率视频生成步骤:根据所述回答内容的语音数据、所述低分辨率肖像视频,生成高分辨率唇语同步部分视频;
[0009]视频拼接步骤:将所述低分辨率肖像视频的分辨率调整为与所述高分辨率唇语同步部分视频一致,然后与所述高分辨率唇语同步部分视频进行拼接,形成虚拟人形象视频。
[0010]优选地,还包括:
[0011]审核步骤:对低分辨率肖像视频、高分辨率唇语同步部分视频进行内容审核,若满足审核条件,则触发视频拼接步骤进行视频的拼接。
[0012]优选地,还包括:
[0013]虚拟人展示步骤:将虚拟人形象视频,以及与虚拟人形象视频匹配的文本、语音作为三种模态展示给观看者,其中,文本数据与语音数据保持相同的语意信息,虚拟人形象视频中的唇语动作和语音数据保持动态协调。
[0014]优选地,所述回答内容为对用户请求的语音数据进行意图识别得到的问题所预先存储的匹配的内容;对唇语同步部分单独进行自适应裁剪与3D重建渲染。
[0015]根据本专利技术提供的一种虚拟人物视频生成的唇语同步优化系统,包括:
[0016]语音数据获取模块:获取针对用户请求的回答内容的语音数据;
[0017]低分辨率视频生成模块:根据所述回答内容的语音数据,生成不包含唇语同步部分的低分辨率肖像视频;
[0018]高分辨率视频生成模块:根据所述回答内容的语音数据、所述低分辨率肖像视频,生成高分辨率唇语同步部分视频;
[0019]视频拼接模块:将所述低分辨率肖像视频的分辨率调整为与所述高分辨率唇语同步部分视频一致,然后与所述高分辨率唇语同步部分视频进行拼接,形成虚拟人形象视频。
[0020]优选地,还包括:
[0021]审核模块:对低分辨率肖像视频、高分辨率唇语同步部分视频进行内容审核,若满足审核条件,则触发视频拼接模块进行视频的拼接。
[0022]优选地,还包括:
[0023]虚拟人展示模块:将虚拟人形象视频,以及与虚拟人形象视频匹配的文本、语音作为三种模态展示给观看者,其中,文本数据与语音数据保持相同的语意信息,虚拟人形象视频中的唇语动作和语音数据保持动态协调。
[0024]优选地,所述回答内容为对用户请求的语音数据进行意图识别得到的问题所预先存储的匹配的内容;对唇语同步部分单独进行自适应裁剪与3D重建渲染。
[0025]根据本专利技术提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现所述的虚拟人物视频生成的唇语同步方法的步骤。
[0026]根据本专利技术提供的一种电子设备,包括存储器、处理器以及存储在存储器上可在处理器上运行的计算机程序,所述计算机程序被处理器执行时实现所述的虚拟人物视频生成的唇语同步方法的步骤。
[0027]与现有技术相比,本专利技术具有如下的有益效果:
[0028]1、本专利技术能够实现优化虚拟人物视频唇部动作,达到视频、音频协调一致,保证了视频质量。
[0029]2、本专利技术利用自适应裁剪方法与3D人脸的重建渲染方法对视频中的唇语部分单独处理,使得虚拟人视频生成的时间得以大大缩减的同时又保证了整体虚拟人视频的质量。
[0030]3、本专利技术利用智能流程机器人的特性,实现全流程不间断的自动化操作,节约人力成本且通用性高,又能避免人为操作失误。
[0031]4、本专利技术考虑到生成视频是否包含敏感信息或令人不适的画面所导致的对生成画面控制,在尤其要求安全可靠的高风险行业,如银行柜台应用的时候会造成不可靠不可控的负面影响,因此对视频进行风控检验,从而使得虚拟人视频在银行业界等实际应用的时候达到了安全可靠、风险可控的要求。
附图说明
[0032]通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:
[0033]图1为本专利技术虚拟人物视频生成的唇语同步优化方法的流程步骤示意图的第一局部图。
[0034]图2为本专利技术虚拟人物视频生成的唇语同步优化方法的流程步骤示意图的第二局
部图。
[0035]图3为本专利技术虚拟人物视频生成的唇语同步优化方法的流程步骤示意图的第三局部图。
具体实施方式
[0036]下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。
[0037]本专利技术实例的目的在于克服现有技术的不足,提供一种虚拟人物视频生成的唇语同步优化方法,该方法可以实现优化虚拟人物视频唇部动作,达到视频、音频协调一致;同时使用自适应裁剪的方法,对优化部分单独处理,大幅减少视频生成时间,同时保证视频质量;利用智能流程机器人的特性,实现全流程不间断的自动化操作,节约人力成本且通用性高,又能避免人为操作失误。
[0038]如图1、图2、图3所述,根据本专利技术提供的一种虚拟人物视频生成的唇语同步优化方法,包括:
[0039]步骤S1:启动流程机器人主程序,初始化参数;
[0040]步骤S2:在步骤S1的基础之上,流程机器人获取用户交互数据,从用户交互数据中获取用户请求的语音数据。
[0041]步骤S3:流程机器人调用步骤S2中收集到的用户请求的语音数据作为输入,对语音数据进行意图识别,该意图识别算法基于深度神经网络(Deep Neural Netw本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟人物视频生成的唇语同步优化方法,其特征在于,包括:语音数据获取步骤:获取针对用户请求的回答内容的语音数据;低分辨率视频生成步骤:根据所述回答内容的语音数据,生成不包含唇语同步部分的低分辨率肖像视频;高分辨率视频生成步骤:根据所述回答内容的语音数据、所述低分辨率肖像视频,生成高分辨率唇语同步部分视频;视频拼接步骤:将所述低分辨率肖像视频的分辨率调整为与所述高分辨率唇语同步部分视频一致,然后与所述高分辨率唇语同步部分视频进行拼接,形成虚拟人形象视频。2.根据权利要求1所述的虚拟人物视频生成的唇语同步优化方法,其特征在于,还包括:审核步骤:对低分辨率肖像视频、高分辨率唇语同步部分视频进行内容审核,若满足审核条件,则触发视频拼接步骤进行视频的拼接。3.根据权利要求1所述的虚拟人物视频生成的唇语同步优化方法,其特征在于,还包括:虚拟人展示步骤:将虚拟人形象视频,以及与虚拟人形象视频匹配的文本、语音作为三种模态展示给观看者,其中,文本数据与语音数据保持相同的语意信息,虚拟人形象视频中的唇语动作和语音数据保持动态协调。4.根据权利要求1所述的虚拟人物视频生成的唇语同步优化方法,其特征在于,所述回答内容为对用户请求的语音数据进行意图识别得到的问题所预先存储的匹配的内容;对唇语同步部分单独进行自适应裁剪与3D重建渲染。5.一种虚拟人物视频生成的唇语同步优化系统,其特征在于,包括:语音数据获取模块:获取针对用户请求的回答内容的语音数据;低分辨率视频生成模块:根据所述回答内容的语音数据,生成不包含唇语同步部分...

【专利技术属性】
技术研发人员:舒毓倩
申请(专利权)人:兴业数字金融服务上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1