当前位置: 首页 > 专利查询>北京万界数据科技有限责任公司武汉分公司专利>正文

一种基于多模态的AI数字人智能交互方法、系统及设备技术方案

技术编号：46226721 阅读：12 留言：0更新日期：2025-08-26 19:29

本发明专利技术涉及计算机视觉和人机交互技术领域，公开了一种基于多模态的AI数字人智能交互方法、系统及设备，方法包括：检测到人脸时预唤醒数字人，进一步基于识别到的预设语音信息或预设手势信息彻底唤醒数字人；获取在交互过程中用户的语音和视频信息并生成关键词提取结果、手势识别结果和情绪状态标签，利用预先构建的知识库检索相关信息并结合大语言生成模型模块生成回答文本，并输入预设语音合成模型中生成有情感的语音输出，基于用户当前的情绪状态标签驱动数字人动画有感情的输出。本发明专利技术能够创建理解用户情绪、生成个性化回答、提供情感丰富语音以及展示自然表情和动作的数字人，能够更好地与用户互动，提供更加人性化和有效的服务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉和人机交互，具体是一种基于多模态的ai数字人智能交互方法、系统及设备。

技术介绍

1、随着计算机技术的发展，人机交互方式也在不断进步。作为元宇宙中实现服务功能的主要载体，目前对于数字人的交互以语音交互为主。但是在很多场景，例如大厅、服务区等，环境较为嘈杂的情况下，其语音交互的准确度会受到影响，对最终的交互结果造成误差，影响用户体验。现阶段主要的人机交互方式有基于语音识别的人机交互方式，基于图形界面和文字输入的键鼠交互方式，以触摸为基础的交互方式等。这些交互方式大多会因为受到环境或其他因素的约束而被迫降低使用效率，因此需要寻找一种不受限制，自然直观的交互方式

技术实现思路

1、本专利技术的目的在于克服现有技术的不足，提供一种基于多模态的ai数字人智能交互方法，包括:

2、当检测到人脸时预唤醒数字人，进一步基于识别到的预设语音信息或预设手势信息彻底唤醒数字人；

3、获取在交互过程中用户的语音信息和视频信息，并利用语音信息和视频信息生成关键词提取结...

【技术保护点】

1.一种基于多模态的AI数字人智能交互方法，其特征在于，包括:

2.根据权利要求1所述的方法，其特征在于，所述利用语音信息和视频信息生成关键词提取结果的过程，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用语音信息和视频信息生成手势识别结果的过程，包括：

4.根据权利要求3所述的方法，其特征在于，利用语音信息和视频信息生成情绪状态标签的过程，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于关键词提取结果、手势识别结果和情绪状态标签，利用预先构建的知识库检索相关信息并结合大语言生成模型模块生成回答文本，包括：

...

【技术特征摘要】

1.一种基于多模态的ai数字人智能交互方法，其特征在于，包括:

2.根据权利要求1所述的方法，其特征在于，所述利用语音信息和视频信息生成关键词提取结果的过程，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用语音信息和视频信息生成手势识别结果的过程，包括：

4.根据权利要求3所述的方法，其特征在于，利用语音信息和视频信息生成情绪状态标签的过程，包括：

...

【专利技术属性】
技术研发人员：余哲，吕超星，丁鹏，
申请(专利权)人：北京万界数据科技有限责任公司武汉分公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人