数字人视频生成方法、装置、设备及存储介质制造方法及图纸

技术编号:36552033 阅读:31 留言:0更新日期:2023-02-04 17:05
本公开提供了一种数字人视频生成方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:电子设备在接收到用户输入的目标语音时,可以从本地的目标数据库中检索到目标语音对应的应答内容。进而生成应答内容对应的PCM数据,并从目标数据库中检索PCM数据对应的多个唇形图片帧。以针对多个唇形图片帧中的每个唇形图片帧,将每个唇形图片帧分别与预先录制得到的底板视频进行融合,从而得到每个唇形图片帧对应的数字人视频帧。最终,显示每个唇形图片帧对应的数字人视频帧。示每个唇形图片帧对应的数字人视频帧。示每个唇形图片帧对应的数字人视频帧。

【技术实现步骤摘要】
数字人视频生成方法、装置、设备及存储介质


[0001]本公开涉及人工智能
,尤其涉及深度学习、图像处理、计算机视觉
,具体涉及一种数字人视频生成方法、装置、设备及存储介质。

技术介绍

[0002]当前,虚拟数字人产品被广泛应用于新闻播报类行业、银行服务类行业。在生成虚拟数字人时,需要预先对模特(所需的数字人形象)进行拍摄得到一段底板视频,然后基于得到的底板视频生成预设的虚拟数字人。在用户使用虚拟数字人产品时,可以通过人工智能物联网(Artificial Intelligence&Internet of Things,AIOT)设备采集用户语音,并由AIOT设备将采集到的用户语音发送到数字人服务器,从而数字人服务器对用户语音进行解析得到语音数据。进一步的,数字人服务器可基于语音数据生成用户语音对应的应答内容,再基于应答内容和预设的虚拟数字人生成多帧图像,并将多帧图像编码得到数字人视频流推送到流媒体服务器,以便AIOT设备拉取对应的数字人视频流进行播放,实现了通过虚拟数字人为用户进行服务。

技术实现思路

[0003]本公开提供了一种数字人视频生成方法、装置、设备及存储介质。
[0004]根据本公开的第一方面,提供了一种数字人视频生成方法,包括:
[0005]电子设备在接收到用户输入的目标语音时,可以从本地的目标数据库中检索到目标语音对应的应答内容。进而生成应答内容对应的PCM数据,并从目标数据库中检索PCM数据对应的多个唇形图片帧。以针对多个唇形图片帧中的每个唇形图片帧,将每个唇形图片帧分别与预先录制得到的底板视频进行融合,从而得到每个唇形图片帧对应的数字人视频帧。最终,显示每个唇形图片帧对应的数字人视频帧。
[0006]根据本公开的第二方面,提供了一种数字人视频生成装置,包括:检索单元,用于从目标数据库中检索目标语音对应的应答内容,目标语音为用户在电子设备中输入的语音,目标数据库为电子设备的本地数据库;处理单元,用于生成应答内容对应的脉冲编码调制PCM数据;检索单元,还用于从目标数据库中检索PCM数据对应的多个唇形图片帧;处理单元,还用于针对多个唇形图片帧中的每个唇形图片帧,将每个唇形图片帧分别与预先录制得到的底板视频进行融合,得到每个唇形图片帧对应的数字人视频帧;显示单元,用于显示每个唇形图片帧对应的所述数字人视频帧。
[0007]根据本公开的第三方面,提供了一种电子设备,包括:
[0008]至少一个处理器;以及
[0009]与至少一个处理器通信连接的存储器;其中,
[0010]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面中的任一项方法。
[0011]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储
介质,包括:
[0012]计算机指令用于使计算机执行第一方面中的任一项方法。
[0013]根据本公开的第五方面,提供了一种计算机程序产品,包括:
[0014]计算机程序,计算机程序在被处理器执行第一方面中的任一项方法。
[0015]根据本公开的技术解决了电子设备与服务器之间进行数据交互时,严重依赖网络,并且人机交互的等待时延较长的问题。进一步的,本公开的技术方案还可以降低更新数字人形象时的周期及成本。
[0016]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0017]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0018]图1是本公开实施例提供的一种数字人视频生成方法的流程示意图;
[0019]图2是本公开实施例提供的另一种数字人视频生成方法的流程示意图;
[0020]图3是本公开实施例提供的又一种数字人视频生成方法的流程示意图;
[0021]图4是本公开实施例提供的又一种数字人视频生成方法的流程示意图;
[0022]图5是本公开实施例提供的一种唇形关键点的实例图;
[0023]图6是本公开实施例提供的又一种数字人视频生成方法的流程示意图;
[0024]图7是本公开实施例提供的一种数字人视频生成装置的结构示意图;
[0025]图8是本公开实施例提供的一种数字人视频生成方法的电子设备的框图。
具体实施方式
[0026]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0027]本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0028]在对本公开实施例的数字人视频生成方法进行详细介绍之前,先对本公开实施例的应用场景进行介绍。
[0029]首先,对本公开实施例的应用场景进行介绍。
[0030]近年来,虚拟数字人产品被广泛应用于新闻播报类行业、银行服务类行业。在相关技术中,制作虚拟数字人时,首先提前录制底板视频,基于底板视频可生成预设的虚拟数字人。之后,在用户使用虚拟数字人产品时,AIOT设备可通过与数字人服务器配合实现与用户间的问答交互流程。
[0031]但是,在相关技术中,需要通过AIOT设备和数字人服务器交互配合,才能生成用户输入的语音所对应的应答内容的数字人视频流,以在AIOT设备上播放,实现人机交互流程。在这种情况下,AIOT设备与数字人服务器的数据交互严重依赖网络,并且人机交互的等待时延较长,即用户输入语音后,需较长时间才能得到AIOT设备的反馈。
[0032]另外,底板视频是预先拍摄的,当需要更换数字人形象时,需要重新对新的模特(新的数字人形象)进行拍摄得到新的底板视频之后,才能基于新得到的底板视频,再通过AIOT设备与数字人服务器之间的数据交互,生成新的数字人形象对应的数字人视频流,从而更新数字人形象时的周期长,成本高。
[0033]为了解决上述问题,本公开实施例提供一种数字人视频生成方法,应用于生成数字人视频的应用场景中。在该方法中,电子设备在接收到用户输入的目标语音时,可以从本地的目标数据库中检索到目标语音对应的应答内容。进而生成应答内容对应的PCM数据,并从目标数据库中检索PCM数据对应的多个唇形图片帧。以针对多个唇形图片帧中的每个唇形图片帧,将每个唇形图片帧分别与预先录制得到的底板视频进行融合,从而得到每个唇形图片帧对应的数字人视频帧。最终,显示每个唇形图片帧对应的数字人视频帧。
[0034]可以理解的是,在电子设备本地的目标数据库中可以存储有多种语音内容对应的应答内容,当电子设备接收到用户输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字人视频生成方法,包括:从目标数据库中检索目标语音对应的应答内容,所述目标语音为用户在电子设备中输入的语音,所述目标数据库为所述电子设备的本地数据库;生成所述应答内容对应的脉冲编码调制PCM数据,并从所述目标数据库中检索所述PCM数据对应的多个唇形图片帧;针对所述多个唇形图片帧中的每个唇形图片帧,将每个唇形图片帧分别与预先录制得到的底板视频进行融合,得到每个唇形图片帧对应的数字人视频帧;显示每个唇形图片帧对应的所述数字人视频帧。2.根据权利要求1所述的方法,其中,所述从目标数据库中检索目标语音对应的应答内容,包括:通过自动语音识别技术ASR,将所述目标语音转化为文本数据;从所述目标数据库中检索所述文本数据对应的所述应答内容。3.根据权利要求1或2所述的方法,其中,所述生成所述应答内容对应的脉冲编码调制PCM数据,包括:通过语音合成技术TTS生成所述应答内容对应的PCM数据。4.根据权利要求1至3中任一项所述的方法,其中,所述从所述目标数据库中检索所述PCM数据对应的多个唇形图片帧,包括:将所述PCM数据输入至预设的深度学习网络模型中,得到所述PCM数据对应的多个语素数据,所述多个语素数据用于指示唇形参数;从所述目标数据库中检索所述多个语素数据对应的所述多个唇形图片帧,一个语素数据对应一个唇形图片帧。5.根据权利要求1至4中任一项所述的方法,其中,所述将每个唇形图片帧分别与预先录制得到的底板视频进行融合,得到每个唇形图片帧对应的数字人视频帧,包括:将每个唇形图片帧、所述预先录制得到的底板视频和目标人物图像三者进行融合,得到每个唇形图片帧对应的数字人视频帧。6.一种数字人视频生成装置,包括:检索单元,用于从目标数据库中检索目标语音对应的应答内容,所述目标语音为用户在电子设备中输入的语音,所述目标数据库为所述电子设备的本地数据库;处理单元,用于生成所述应答内容对应的脉冲编码调制PCM数据;所述检索单元,还用于从所述目标数据库中检索所述PCM数据对应...

【专利技术属性】
技术研发人员:张演龙李彤辉杨尊程
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1