数字人驱动方法、系统、设备和存储介质技术方案

技术编号:35825554 阅读:17 留言:0更新日期:2022-12-03 13:52
本发明专利技术实施例提供一种数字人驱动方法、系统、设备和存储介质,该方法包括:驱动引擎响应于数字人的驱动请求,先获取数字人的待播报音频并发送此音频至渲染引擎。同时还可以确定此驱动请求对应的目标驱动数据,以由生成引擎根据待播报音频和目标驱动数据生成描述所述数字人姿态的图像序列,以由渲染引擎对待播报音频和所述图像序列进行合成并播放,以成功驱动数字人。上述过程中,使用驱动引擎能够实现待播放音频和图像序列的实时生成,进一步地,渲染引擎也可以进行音视频的实时合成和实时播放。根据上述描述可知,数字人的实时驱动实际就是音视频边生成边播放的过程,这种边生成边播放的方式显然能够缩短数字人驱动所需的时间。间。间。

【技术实现步骤摘要】
数字人驱动方法、系统、设备和存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种数字人驱动方法、系统、设备和存储介质。

技术介绍

[0002]数字人在狭义上可以定义为信息科学与生命科学融合的产物,其可利用信息科学的方法对人体在不同情况下的姿态进行虚拟仿真。数字人可以应用到多种不同场景,例如直播场景、客服场景、新闻播报场景等以内容播报为主,同时还可以掺杂有人机交互的场景中。
[0003]为了提高数字人的真实性,在这些场景中,往往还需要使数字人具有动态效果。因此就需要对数字人驱动,即驱动渲染得到的静态数字人。并且数字人的驱动结果会以视频流的形式展示给用户,以使用户在视频流中观看到数字人可以像真实人类一样动起来。
[0004]但在实际中,驱动数字人往往需要一定的时间,导致用户观看到视频流所需的等待时长较长,因此,如何缩短驱动数字人所需的时长就成为一个亟待解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种数字人驱动方法、系统、设备和存储介质,用以缩短驱动数字人所需的时长。
[0006]第一方面,本专利技术实施例提供一种数字人驱动方法,应用于驱动引擎,包括:
[0007]响应于对数字人的驱动请求,获取所述数字人对应的待播报音频;
[0008]确定所述驱动请求对应的目标驱动数据,以由生成引擎根据所述待播报音频和所述目标驱动数据生成描述所述数字人姿态的图像序列;
[0009]发送所述待播报音频至渲染引擎,以由所述渲染引擎合成所述图像序列和所述待播报音频,使得所述数字人处于语音播报状态。
[0010]第二方面,本专利技术实施例提供一种数字人驱动方法,应用于渲染引擎,包括:
[0011]接收驱动引擎生成的待播报音频;
[0012]接收生成引擎生成的描述数字人姿态的图像序列,所述图像序列和所述待播报音频对应于所述数字人的驱动请求;
[0013]合成所述图像序列和所述待播报音频,使得所述数字人处于语音播报状态。
[0014]第三方面,本专利技术实施例提供一种数字人驱动系统,包括:驱动引擎、渲染引擎和生成引擎;
[0015]所述驱动引擎,用于响应于数字人的驱动请求,获取所述数字人对应的待播报音频;确定所述驱动请求对应的目标驱动数据;发送所述待播报音频和所述目标驱动数据至所述生成引擎;
[0016]所述生成引擎,用于根据所述待播报音频和所述目标驱动数据生成描述所述数字人姿态的图像序列;
[0017]所述渲染引擎,用于合成所述图像序列和所述待播报音频,使得所述数字人处于语音播报状态。
[0018]第四方面,本专利技术实施例提供一种电子设备,包括处理器和存储器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面或第二方面中任一方面提供的数字人驱动方法。该电子设备还可以包括通信接口,用于与其他设备或通信网络通信。
[0019]第五方面,本专利技术实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面或第二方面中任一方面所述的数字人驱动方法。
[0020]本专利技术实施例提供的数字人驱动方法,驱动引擎响应于数字人的驱动请求,获取数字人的待播报音频并发送此音频至渲染引擎。同时驱动引擎还可以确定此驱动请求对应的目标驱动数据,以由生成引擎根据待播报音频和目标驱动数据生成描述数字人姿态的图像序列,再由渲染引擎将待播报音频和图像序列合成成视频流并播放。此时,数字人驱动成功也即是数字人处于语音播报状态。
[0021]可见,上述方法中,使用驱动引擎能够实现待播放音频和图像序列的实时生成,进一步地,渲染引擎也可以实现音视频的实时合成和视频流的实时播放,从而实现对数字人的实时驱动。根据上述描述可知,数字人的实时驱动实际上就是视频流边生成边播放的过程,相比于生成和播放的异步进行,能够大大缩短数字人驱动所需的时间。
附图说明
[0022]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1为本专利技术实施例提供的一种数字人驱动系统的结构示意图;
[0024]图2为本专利技术实施例提供的另一种数字人驱动系统的结构示意图;
[0025]图3a为本专利技术实施例提供的一种处于语音播报状态的数字人的示意图;
[0026]图3b为本专利技术实施例提供的另一种处于语音播报状态的数字人的示意图;
[0027]图4为本专利技术实施例提供的又一种数字人驱动系统的结构示意图;
[0028]图5为本专利技术实施例提供的一种数字人播报系统的结构示意图;
[0029]图6为本专利技术实施例提供的一种数字人驱动方法的流程图;
[0030]图7为本专利技术实施例提供的另一种数字人驱动方法的流程图;
[0031]图8为本专利技术实施例提供的又一种数字人驱动方法的流程图;
[0032]图9为本专利技术实施例提供的又一种数字人驱动方法的流程图;
[0033]图10为本专利技术实施例提供的又一种数字人驱动方法的流程图;
[0034]图11为本专利技术实施例提供的数字人驱动流程对应的信令图;
[0035]图12为与图1~图11所示实施例提供的数字人驱动方法和系统应用在客服场景中的一种示意图;
[0036]图13为与图1~图11所示实施例提供的数字人驱动方法和系统应用在直播场景中
的一种示意图;
[0037]图14为本专利技术实施例提供的一种数字人驱动方法对应的电子设备的结构示意图;
[0038]图15为本专利技术实施例提供的另一种数字人驱动方法对应的电子设备的结构示意图。
具体实施方式
[0039]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0040]在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
[0041]应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字人驱动方法,其特征在于,应用于驱动引擎,包括:响应于对数字人的驱动请求,获取所述数字人对应的待播报音频;确定所述驱动请求对应的目标驱动数据,以由生成引擎根据所述待播报音频和所述目标驱动数据生成描述所述数字人姿态的图像序列;发送所述待播报音频至渲染引擎,以由所述渲染引擎合成所述图像序列和所述待播报音频,使得所述数字人处于语音播报状态。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应于应答语句的获取,生成所述驱动请求,其中,所述应答语句与用户对所述数字人产生的交互操作对应;所述响应于对数字人的驱动请求,获取所述数字人对应的待播报音频,包括:若所述应答语句为文本,则将所述文本转换为所述待播报音频;若所述应答语句为音频,则将所述音频确定为所述待播报音频。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应于所述数字人的启动,发送与所述数字人对应的默认驱动数据至所述渲染引擎,以由所述渲染引擎根据所述默认驱动数据渲染得到默认视频,使得所述数字人处于静默状态,其中,所述默认视频中显示有所述数字人的虚拟形象以及所述虚拟形象所处的播报环境。4.根据权利要求3所述的方法,其特征在于,所述目标驱动数据包括所述默认视频中的目标图像帧以及所述数字人处于语音播报状态时播报内容的显示方式。5.根据权利要求4所述的方法,其特征在于,所述确定所述驱动请求对应的目标驱动数据,包括:获取在所述驱动请求产生的第一时刻,所述默认视频正在播放的当前图像帧的帧序号;确定所述当前图像帧之后的所述目标图像帧,所述目标图像帧与所述当前图像帧之间间隔预设帧数;将所述目标图像帧、所述默认视频、所述待播报音频对应的文本以及播报内容的显示方式确定为所述目标驱动数据。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:根据所述预设帧数和每秒传帧数据,确定播放所述目标图像帧的第二时刻;发送所述第二时刻至所述渲染引擎,以使所述渲染引擎在所述第二时刻合成所述图像序列和所述待播报音频。7.根据权利要求4所述的方法,其特征在于,所述确定所述驱动请求对应的目标驱动数据,包括:确定在产生所述驱动请求的第一时刻时,所述数字人的骨骼结构对应的姿态数据;将所述姿态数据、所述默认视频、所述待播报音频对应的文本以及播报内容的显示方式确定为所述目标驱动数据。8.根据权利要求3或7所述的方法,其特征在于,所述默认驱动数据和所述目标驱动数据符合基于数字人标准标记协议。9.一种数字人驱动方法,其特征在于,应用于渲染引擎,包括:
接收驱动引擎生成的待播报音频;接收生成引擎生成的描述数字人姿态的图像序列,所述图像序列和所述待播报音频对应于所述数字人的驱动请求;合成所述图像序列和所述待播报音频,使得所述数字人处于语音播报状态。10.根据权利要求9所述的方法,其特征在于,所述待播报音频包括至少一个音频片段;所述方法还包括:根据所述至少一个音频片段各自的长度和预设每秒传输帧数,将所述图像序列划分为至少一个图像子序列;确定所述至少一个图像子序列与所述至少一个音频片段之间的对应关系;所述合成所述图像序列和所述待播报音频,包括:合成具有对应关系的目标图像子序列和目标音频片段,以使所述目标图像子序列和所述目标音频片段具有相同的播放起止时间。11.根据权利要求10所述的方法,其特征在于,所述合成具有对应关系的目标图像子序列和目标音频片段,包括:响应于所述驱动引擎的驱动指令,在目标时刻播报所述目标音频片段;...

【专利技术属性】
技术研发人员:刘小明孟繁星叶天兵
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1