分布式数字人交互方法和分布式数字人交互系统技术方案

技术编号：45580948 阅读：21 留言：0更新日期：2025-06-20 22:01

本申请公开了一种分布式数字人交互方法和分布式数字人交互系统。分布式数字人交互方法包括：获取多模态数据；基于唇形同步动画生成模型对多模态数据进行流式处理，得到多模态数据对应的处理结果；基于处理结果进行渲染，得到数字人音视频流数据；基于处理结果进行文本内容显示，并基于数字人音视频流数据进行数字人的音视频播报。如此，可以即时得到多模态数据的处理结果，进而可以更快地进行文本内容显示和数字人音视频播报，满足了数字人交互的低延时交互需求。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数字人交互，特别涉及一种分布式数字人交互方法、分布式数字人交互系统、电子设备和计算机可读存储介质。

技术介绍

1、随着科技不断突破和人工智能的加速演进，数字人产业正迎来前所未有的发展机遇。从影视娱乐到市场营销，从电商直播到金融服务，数字人以多元形态深入各行各业，重塑着商业生态和用户体验。目前，数字人交互系统在进行交互时存在明显的延时。

技术实现思路

1、本申请实施方式提供了一种分布式数字人交互方法、分布式数字人交互系统、电子设备和计算机可读存储介质，以解决上述存在的至少一个技术问题。

2、本申请实施方式的分布式数字人交互方法，包括：

3、获取多模态数据；

4、基于唇形同步动画生成模型对所述多模态数据进行流式处理，得到所述多模态数据对应的处理结果；

5、基于所述处理结果进行渲染，得到数字人音视频流数据；

6、基于所述处理结果进行文本内容显示，并基于所述数字人音视频流数据进行数字人的音视频播报。

7、在某些实施方...

【技术保护点】

1.一种分布式数字人交互方法，其特征在于，包括：

2.根据权利要求1所述的分布式数字人交互方法，其特征在于，所述多模态数据包括音频流数据、视频流数据、点击事件数据中的任意一种或多种。

3.根据权利要求1或2所述的分布式数字人交互方法，其特征在于，所述处理结果包括识别语音文本、回答语音文本、回答音频数据和面部驱动数据，所述基于唇形同步动画生成模型对所述多模态数据进行流式处理，得到所述多模态数据对应的处理结果，包括：

4.根据权利要求3所述的分布式数字人交互方法，其特征在于，所述调用所述唇形同步动画生成模型根据所述回答音频数据流式生成所述面部驱动数据，包括...

【技术特征摘要】

1.一种分布式数字人交互方法，其特征在于，包括：

2.根据权利要求1所述的分布式数字人交互方法，其特征在于，所述多模态数据包括音频流数据、视频流数据、点击事件数据中的任意一种或多种。

4.根据权利要求3所述的分布式数字人交互方法，其特征在于，所述调用所述唇形同步动画生成模型根据所述回答音频数据流式生成所述面部驱动数据，包括：

5.根据权利要求4所述的分布式数字人交互方法，其特征在于，所述通过转换器网络对所述回答音频数据进行非全局特征提取，以得到梅尔频率倒谱系数特征，包括：

6.根据权利要求3所述的分布式数字人交互方法，其特征在于...

【专利技术属性】
技术研发人员：宋卫，陈达龙，李冠，田丰，张海宁，卫晓欣，
申请(专利权)人：广电运通集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人