数字人驱动方法、系统、设备和存储介质技术方案

技术编号：35825554 阅读：17 留言：0更新日期：2022-12-03 13:52

本发明专利技术实施例提供一种数字人驱动方法、系统、设备和存储介质，该方法包括：驱动引擎响应于数字人的驱动请求，先获取数字人的待播报音频并发送此音频至渲染引擎。同时还可以确定此驱动请求对应的目标驱动数据，以由生成引擎根据待播报音频和目标驱动数据生成描述所述数字人姿态的图像序列，以由渲染引擎对待播报音频和所述图像序列进行合成并播放，以成功驱动数字人。上述过程中，使用驱动引擎能够实现待播放音频和图像序列的实时生成，进一步地，渲染引擎也可以进行音视频的实时合成和实时播放。根据上述描述可知，数字人的实时驱动实际就是音视频边生成边播放的过程，这种边生成边播放的方式显然能够缩短数字人驱动所需的时间。间。间。

全部详细技术资料下载

【技术实现步骤摘要】
数字人驱动方法、系统、设备和存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种数字人驱动方法、系统、设备和存储介质。

技术介绍

[0002]数字人在狭义上可以定义为信息科学与生命科学融合的产物，其可利用信息科学的方法对人体在不同情况下的姿态进行虚拟仿真。数字人可以应用到多种不同场景，例如直播场景、客服场景、新闻播报场景等以内容播报为主，同时还可以掺杂有人机交互的场景中。
[0003]为了提高数字人的真实性，在这些场景中，往往还需要使数字人具有动态效果。因此就需要对数字人驱动，即驱动渲染得到的静态数字人。并且数字人的驱动结果会以视频流的形式展示给用户，以使用户在视频流中观看到数字人可以像真实人类一样动起来。
[0004]但在实际中，驱动数字人往往需要一定的时间，导致用户观看到视频流所需的等待时长较长，因此，如何缩短驱动数字人所需的时长就成为一个亟待解决的问题。

技术实现思路

[0005]有鉴于此，本专利技术实施例提供一种数字人驱动方法、系统、设备和存储介质，用以缩短驱动数字人所需的时长。
[0006]第一方面，本专利技术实施例提供一种数字人驱动方法，应用于驱动引擎，包括：
[0007]响应于对数字人的驱动请求，获取所述数字人对应的待播报音频；
[0008]确定所述驱动请求对应的目标驱动数据，以由生成引擎根据所述待播报音频和所述目标驱动数据生成描述所述数字人姿态的图像序列；
[0009]发送所述待播报音频至渲染引擎，以由所述渲染引擎合成所述图...

【技术保护点】

【技术特征摘要】
1.一种数字人驱动方法，其特征在于，应用于驱动引擎，包括：响应于对数字人的驱动请求，获取所述数字人对应的待播报音频；确定所述驱动请求对应的目标驱动数据，以由生成引擎根据所述待播报音频和所述目标驱动数据生成描述所述数字人姿态的图像序列；发送所述待播报音频至渲染引擎，以由所述渲染引擎合成所述图像序列和所述待播报音频，使得所述数字人处于语音播报状态。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：响应于应答语句的获取，生成所述驱动请求，其中，所述应答语句与用户对所述数字人产生的交互操作对应；所述响应于对数字人的驱动请求，获取所述数字人对应的待播报音频，包括：若所述应答语句为文本，则将所述文本转换为所述待播报音频；若所述应答语句为音频，则将所述音频确定为所述待播报音频。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：响应于所述数字人的启动，发送与所述数字人对应的默认驱动数据至所述渲染引擎，以由所述渲染引擎根据所述默认驱动数据渲染得到默认视频，使得所述数字人处于静默状态，其中，所述默认视频中显示有所述数字人的虚拟形象以及所述虚拟形象所处的播报环境。4.根据权利要求3所述的方法，其特征在于，所述目标驱动数据包括所述默认视频中的目标图像帧以及所述数字人处于语音播报状态时播报内容的显示方式。5.根据权利要求4所述的方法，其特征在于，所述确定所述驱动请求对应的目标驱动数据，包括：获取在所述驱动请求产生的第一时刻，所述默认视频正在播放的当前图像帧的帧序号；确定所述当前图像帧之后的所述目标图像帧，所述目标图像帧与所述当前图像帧之间间隔预设帧数；将所述目标图像帧、所述默认视频、所述待播报音频对应的文本以及播报内容的显示方式确定为所述目标驱动数据。6.根据权利要求5所述的方法，其特征在于，所述方法还包括：根据所述预设帧数和每秒传帧数据，确定播放所述目标图像帧的第二时刻；发送所述第二时刻至所述渲染引擎，以使所述渲染引擎在所述第二时刻合成所述图像序列和所述待播报音频。7.根据权利要求4所述的方法，其特征在于，所述确定所述驱动请求对应的目标驱动数据，包括：确定在产生所述驱动请求的第一时刻时，所述数字人的骨骼结构对应的姿态数据；将所述姿态数据、所述默认视频、所述待播报音频对应的文本以及播报内容的显示方式确定为所述目标驱动数据。8.根据权利要求3或7所述的方法，其特征在于，所述默认驱动数据和所述目标驱动数据符合基于数字人标准标记协议。9.一种数字人驱动方法，其特征在于，应用于渲染引擎，包括：
接收驱动引擎生成的待播报音频；接收生成引擎生成的描述数字人姿态的图像序列，所述图像序列和所述待播报音频对应于所述数字人的驱动请求；合成所述图像序列和所述待播报音频，使得所述数字人处于语音播报状态。10.根据权利要求9所述的方法，其特征在于，所述待播报音频包括至少一个音频片段；所述方法还包括：根据所述至少一个音频片段各自的长度和预设每秒传输帧数，将所述图像序列划分为至少一个图像子序列；确定所述至少一个图像子序列与所述至少一个音频片段之间的对应关系；所述合成所述图像序列和所述待播报音频，包括：合成具有对应关系的目标图像子序列和目标音频片段，以使所述目标图像子序列和所述目标音频片段具有相同的播放起止时间。11.根据权利要求10所述的方法，其特征在于，所述合成具有对应关系的目标图像子序列和目标音频片段，包括：响应于所述驱动引擎的驱动指令，在目标时刻播报所述目标音频片段；...

【专利技术属性】
技术研发人员：刘小明，孟繁星，叶天兵，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人