数字人智能体的多模态交互方法及系统技术方案

技术编号：46404246 阅读：5 留言：0更新日期：2025-09-16 19:53

本发明专利技术涉及多模态交互分析领域，尤其涉及一种数字人智能体的多模态交互方法及系统。该方法包括以下步骤：基于智能体获取交互用户的实时面部图像及语音信号输入流；基于所述实时面部图像进行实时微表情识别及深度情绪解析，得到用户实时情绪特征；对用户实时情绪特征时序演变分析，并进行全息用户情绪深度挖掘，构建用户情绪全息特征图谱；对语音信号输入流进行自适应声学增益处理，并基于用户情绪全息特征图谱进行语音‑情绪关联分析，生成语音‑情绪联动映射谱；基于用户情绪全息特征图谱及实时面部图像进行眼球注视点迁移追踪，生成用户交互深度意愿信号。本发明专利技术通过实时深层语义理解与情感感知能力，提高了智能体交互智能性及响应准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多模态交互分析领域，尤其涉及一种数字人智能体的多模态交互方法及系统。

技术介绍

1、随着人工智能技术的快速发展，数字人智能体作为人机交互的重要载体，正逐步在教育、医疗、金融、政务、虚拟客服等众多领域得到广泛应用。尤其是在自然语言处理、计算机视觉以及语音识别等技术不断突破的推动下，数字人智能体已从最初的文本对话系统演进为具备视觉识别、语音感知、情绪理解等多模态感知能力的高级交互主体。在提升用户体验、增强服务智能化水平方面，数字人展现出前所未有的潜力。传统的人机交互方式通常依赖于单一模态的信息输入，如键盘输入、语音识别或手势识别等，但在实际应用中，这种单一模态的交互方式往往无法全面感知用户意图，导致交互效率低、理解误差大、响应不自然等问题。而数字人智能体作为新一代交互系统的核心，需要同时具备图像识别与语音识别的能力，能够通过视觉和听觉双通道获取用户信息，进而实现更为自然、智能和人性化的交互体验。

2、当前基于图像识别的技术已能够实现面部识别、表情识别、视线追踪等功能，而语音识别技术也在语音转写、语义理解、情感分析等...

【技术保护点】

1.一种数字人智能体的多模态交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的数字人智能体的多模态交互方法，其特征在于，步骤S1具体步骤为：

3.根据权利要求1所述的数字人智能体的多模态交互方法，其特征在于，步骤S2具体步骤为：

4.根据权利要求1所述的数字人智能体的多模态交互方法，其特征在于，步骤S3具体步骤为：

5.根据权利要求4所述的数字人智能体的多模态交互方法，其特征在于，所述对自适应优化语音信号进行语音-情绪关联分析，生成语音-情绪联动映射谱的具体步骤为：

6.根据权利要求1所述的数字人智能体的多模态交互方...

【技术特征摘要】

1.一种数字人智能体的多模态交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的数字人智能体的多模态交互方法，其特征在于，步骤s1具体步骤为：

3.根据权利要求1所述的数字人智能体的多模态交互方法，其特征在于，步骤s2具体步骤为：

4.根据权利要求1所述的数字人智能体的多模态交互方法，其特征在于，步骤s3具体步骤为：

5.根据权利要求4所述的数字人智能体的多模态交互方法，其特征在于，所述对自适应优化语音信号进...

【专利技术属性】
技术研发人员：梁春艳，
申请(专利权)人：广东汇通信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人