基于数字人的语音交互方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：45928524 阅读：9 留言：0更新日期：2025-07-25 17:54

本申请公开了一种基于数字人的语音交互方法、装置、电子设备及可读存储介质，所述基于数字人的语音交互方法包括：当通过多模态传感器检测到目标用户的语音信号、抵近信号以及人脸信息时，生成有效交互意图标签，并根据所述交互意图标签采集所述目标用户的人脸表情；当所述人脸表情满足预设条件时，则采集所述目标用户的声音数据；根据所述人脸表情以及声音数据，生成所述声音数据对应的应答语音；基于实时渲染技术以及所述应答语音，控制数字人与所述目标用户进行交互。本申请提供的基于数字人的语音交互方案可以提高交互效率，同时，提高用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能领域，具体涉及一种基于数字人的语音交互方法、装置、电子设备及可读存储介质。

技术介绍

1、随着人工智能技术的快速发展，多模态大模型通过整合文本、图像、音频等多种模态数据，在自然语言处理、计算机视觉和语音识别等领域取得了显著进展,能够支持更高效的信息处理和更自然的人机交互。然而，现有技术在结合本地化多模态大模型实现良性交互以及系统架构方面仍存在不足。例如，传统智能客服系统受限于预设规则和模板，交互效率低下且用户体验不佳。

技术实现思路

1、针对上述技术问题，本申请提供一种基于数字人的语音交互方法、装置、电子设备及可读存储介质，可以提高交互效率，同时，提高用户体验。

2、为解决上述技术问题，本申请提供一种基于数字人的语音交互方法，包括：

3、当通过多模态传感器检测到目标用户的语音信号、抵近信号以及人脸信息时，生成有效交互意图标签，并根据所述交互意图标签采集所述目标用户的人脸表情；

4、当所述人脸表情满足预设条件时，则采集所述目标用户的声音数据；

5本文档来自技高网...

【技术保护点】

1.一种基于数字人的语音交互方法，其特征在于，包括：

2.根据权利要求1所述的语音交互方法，其特征在于，所述根据所述人脸表情以及声音数据，生成所述声音数据对应的应答语音，包括：

3.根据权利要求2所述的语音交互方法，其特征在于，所述基于意图识别结果对以及数据库信息，生成所述声音数据对应的应答语音，包括：

4.根据权利要求3所述的语音交互方法，其特征在于，所述根据所述意图识别结果以及外部数据，对所述候选回答进行调整，包括：

5.根据权利要求2所述的语音交互方法，其特征在于，还包括：

6.根据权利要求1所述的语音交互方法，其特征在于...

【技术特征摘要】

1.一种基于数字人的语音交互方法，其特征在于，包括：

2.根据权利要求1所述的语音交互方法，其特征在于，所述根据所述人脸表情以及声音数据，生成所述声音数据对应的应答语音，包括：

3.根据权利要求2所述的语音交互方法，其特征在于，所述基于意图识别结果对以及数据库信息，生成所述声音数据对应的应答语音，包括：

4.根据权利要求3所述的语音交互方法，其特征在于，所述根据所述意图识别结果以及外部数据，对所述候选回答进行调整，包括：

5.根据权利要求2所述的语音交互方法，其特征在于，还包括：

6.根据权利要求1所述的语音交互方法，其特征在于，所述基于实时渲染技术以及所述应答语音，控制数字人与所述目标用户进行交互，包括：

7.根据权利要求6所述的语音交互方法，其特征在于，所...

【专利技术属性】
技术研发人员：李涛，杨柏蔼，
申请(专利权)人：深圳市卓越智运科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人