一种数字人实时交互系统及数字人实时交互方法技术方案

技术编号：44336875 阅读：19 留言：0更新日期：2025-02-18 20:47

本申请公开了一种数字人实时交互系统及方法。交互系统包括终端设备和云端服务器。终端设备接收用户输入的语音并传输至云端服务器。云端服务器包括视频采集与处理模块、智能问答与语音生成模块、音频处理模块和图像渲染模块。视频采集与处理模块采集指示数字人形象的对象的原始视频数据，并生成连续图像帧。智能问答与语音生成模块将该语音转换为文本；对文本进行语义分析，理解用户意图，并生成相应的回复文本；还将该回复文本转换为回复语音。音频处理模块对回复语音和连续图像帧进行处理，生成第一视频数据。图像渲染模块将第一视频数据与虚拟背景相融合，并对融合后的视频进行实时处理，以生成响应视频。终端设备输出该响应视频。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉，尤其涉及一种数字人实时交互系统及数字人实时交互方法。

技术介绍

1、随着虚拟现实(virtual reality，vr)、增强现实(augmented reality，ar)及人工智能(artificial intelligence，ai)的快速发展，数字人技术逐渐成为未来人机交互的关键组成部分。现有的数字人主要依赖预先录制的音视频内容，缺乏实时的个性化互动。另一方面，虚拟人物口型与语音的同步性差、表现不自然，导致交互体验不佳。传统的口型同步技术通常依赖大量手动调整或低效的动画制作流程，无法满足实时交互需求。

2、因此，需要一种新的数字人交互方案，以克服上述问题。

技术实现思路

1、本申请提供了一种数字人实时交互系统及数字人实时交互方法，以力图解决或者至少缓解上面存在的至少一个问题。

2、根据本申请的一个方面，提供了一种数字人实时交互系统，包括：终端设备，包括音频输入模块和视频输出模块，所述终端设备适于经由所述音频输入模块接收用户输入的语音，并...

【技术保护点】

1.一种数字人实时交互系统，包括：

2.如权利要求1所述的系统，其中，在所述云端服务器中，所述视频采集与处理模块包括：

3.如权利要求1或2所述的系统，其中，在所述云端服务器中，

4.如权利要求3所述的系统，其中，在所述云端服务器中，所述音频处理模块包括：

5.如权利要求1-4中任一项所述的系统，其中，在所述云端服务器中，所述智能问答与语音生成模块包括：

6.如权利要求5所述的系统，其中，在所述云端服务器中，所述自然语言处理单元包括：

7.如权利要求6所述的系统，其中，在所述云端服务器中，