一种多模态智能数字人的人机交互方法和系统技术方案

技术编号：45622784 阅读：16 留言：0更新日期：2025-06-24 18:49

本申请提供了一种多模态智能数字人的人机交互方法和系统。该方法包括：获取用户语音数据和用户视觉信息数据，并处理获得用户意图数据，根据用户语音数据和用户视觉信息数据处理获得用户情感倾向数据，获取业务场景数据并结合用户意图数据和用户情感倾向数据处理获得回复文本数据，数字人根据回复文本数据进行回复，获取当前系统界面图像，并结合所述用户语音数据确定目标控件，数字人对目标控件进行点击，并根据预设时间段内智能数字人的交互效果监测数据处理获得人机交互效果评估指数，实现对人机交互效果的智能反馈；从而实现提高人机交互效果和用户体验的目的。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人机交互，具体而言，涉及一种多模态智能数字人的人机交互方法和系统。

技术介绍

1、传统的人机交互方式主要依赖于键盘、鼠标等输入设备，交互效率低，用户体验不佳，随着人工智能技术的快速发展，基于语音和视觉的自然人机交互成为研究热点。然而，现有技术在多模态数据的深度协同与情感化交互方面存在不足，且交互过程的动态优化能力较弱。公开号为cn118466751a的专利通过对语音数据和文本数据进行跨模态特征融合后获得特征标签，再将语音数据、文本数据以及情绪标签输入至回复内容分析大模型中以得到回复数据，并未加入视觉信息，也未公开系统界面操作相关技术；公开号为cn107894836a的专利公开了基于手势和语音识别的遥感图像处理与展示的人机交互方法，通过手势识别和语音识别并结合遥感知识图谱实现遥感图像处理与展示的智能化人机交互，并未将情感分析结合到回复生成中；且上述两项专利均没有监测和反馈机制来评估人机交互的效果以实现对交互效果的及时监测与调整。

技术实现思路

1、本申请的目的在于提供一种多模态智能...

【技术保护点】

1.一种多模态智能数字人的人机交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多模态智能数字人的人机交互方法，其特征在于，所述获取用户语音数据和用户视觉信息数据，并处理获得用户意图数据，包括：

3.根据权利要求2所述的多模态智能数字人的人机交互方法，其特征在于，所述根据所述用户语音数据和用户视觉信息数据处理获得用户情感倾向数据，包括：

4.根据权利要求3所述的多模态智能数字人的人机交互方法，其特征在于，所述获取业务场景数据并结合用户意图数据和用户情感倾向数据处理获得回复文本数据，数字人根据回复文本数据进行回复，包括：</p>

5.根据...

【技术特征摘要】

1.一种多模态智能数字人的人机交互方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的多模态智能数字人的人机交互方法，其特征在于，所述获取业务场景数据并结合用户意图数据和用户情感倾向数据处理获得回复文本数据，数字人根据回复文本数据进行回复，包括：

5.根据权利要求4所述的多模态智能数字人的人机交互方法，其特征在于，所述获取当前系统界面图像，并结合所述用户语音数据确定目标控件，数字人对目...

【专利技术属性】
技术研发人员：夏志祥，钟佳梅，陈紫威，方晨，梁杜，晓娜，
申请(专利权)人：北京易玖生态环境有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人