一种基于多模态特征的智能人机交互系统及方法技术方案

技术编号：40832426 阅读：2 留言：0更新日期：2024-04-01 14:55

一种基于多模态特征的智能人机交互系统及方法，首先采集用户所处环境的图片/视频并通过图文转化模块或者视频转文本模块将其转换为文字描述，同时通过语音识别模块采集并转译用户的语音指令。随后，环境说明文本和文本指令均提交至自然语言理解模块进行进一步解读。所述系统及方法可保证数据安全、降低部署成本。无需上传用户的语音或视频资料，保障用户隐私权益；同时，由于自然语言理解模块仅处理文本信息，模型参数较之多模态AI大模型减少，相应地工程部署成本可大幅度降低。通过应用这种智能人机交互系统及方法，可以为用户提供更高智能水平、更准确性能的服务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能、人机交互，特别涉及一种基于多模态特征的智能人机交互系统及方法。

技术介绍

1、人机交互(human–computer interaction，hci)是指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与计算机之间的信息交换过程。在近些年的技术发展中，智能人机交互和人工智能大模型的涌现，大大提高了人机交互的能力和实用性；特别是在ai大模型被广泛应用的当前环境中，很大程度地提升了人机交互的能力和体验。生成式人工智能大模型与传统的自然语言处理(natural language processing，nlp)相比可以理解和生成更为复杂的文本。它具备强大的涌现能力，既能对新的、未见过的输入产生复杂的响应，还能理解多轮对话中的上下文，解决指代消解问题，这在传统nlp技术中是相对困难的。

2、现有技术中的人机交互系统大多只关注声音指令，相当于迫使系统“闭上眼睛”，然而环境中的视觉信息对理解用户指令非常重要。为解决这一问题，多模态ai大模型被提出，系统框架如图1所示；这类多模态ai大模型同时考虑到了声音和图片/视频信息，尝试更加全面地理解用户指令，可以同时解析声音和视觉信息，极大地提升了人机交互的能力。然而，这也引发了一系列新的问题。例如，多模态ai大模型由于要同时处理声音和影像信息，模型参数量巨大，训练和部署成本极高；此外，在使用多模态ai大模型时，需要上传用户的语音和视频等生物特征，这严重涉及到用户隐私保护问题。

技术实现思路

1、针对

2、本专利技术提供一种基于多模态特征的智能人机交互系统，其特征在于，包括数据采集模块、图片/视频生文模块、自然语言理解模块、以及输出模块；

3、其中，所述数据采集模块用于采集用户所处的环境图片或视频，并用于接收用户指令；

4、所述图片/视频生文模块用于将所述数据采集模块采集的所述环境图片或视频转化为环境信息文字表述；

5、所述自然语言理解模块用于结合所述环境信息文字表述，对所述用户指令进行自然语言理解，并针对所述用户指令做出反馈；

6、所述输出模块用于输出所述自然语言理解模块做出的反馈。

7、进一步地，还包括语音识别模块；当所述用户指令为语音指令时，所述语音识别模块用于将所述语音指令转化为文字命令。

8、进一步地，所述自然语言理解模块采用基于文本的ai大模型，通过在大规模文本数据中训练的模型，结合所述环境信息文字表述，对所述用户指令进行更加精确的解读和理解。

9、本专利技术提供一种基于多模态特征的智能人机交互方法，主要包括以下步骤：

10、采集用户所处的环境图片或视频，并将所述环境图片或视频转化为环境信息文字表述；

11、接收用户指令，并将所述用户指令转化为文字命令；

12、结合所述环境信息文字表述，对所述文字命令进行自然语言理解，并针对所述文字命令做出反馈；

13、向用户输出所述反馈。

14、进一步地，当所述用户指令为语音指令时，采用语音识别技术将所述语音指令转化为文字命令。

15、进一步地，所述自然语言理解模块采用基于文本的ai大模型，通过在大规模文本数据中训练的模型，结合所述环境信息文字表述，对所述用户指令进行更加精确的解读和理解。

16、本专利技术提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

17、本专利技术提供一种电子设备，包括：一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行上述方法的步骤。

18、本专利技术与现有技术相比，具有以下优点和积极效果：

19、1、保护用户隐私。与现有的多模态ai大模型相比，本专利技术无需上传用户的生物特征，如原始语音或原始视频，而是通过语音识别和图像识别的方式将生物特征转化为文字信息，从而在提供智能服务的同时，有效地保护了用户隐私。

20、2、降低工程部署成本。本专利技术的另一大优点是减小了模型参数量，现有的多模态ai大模型需要同时处理声音和影像，从而需要大量的模型参数和高昂的成本；而本专利技术将所有输入信息转化为文本，利用基于文本的ai大模型进行处理，极大地降低了工程部署的成本。

21、3、更准确的服务。本专利技术通过采集并分析用户所处环境的图片/视频和用户的语音指令，将这些信息都转化为文字，使得自然语言理解模块能够更全面、更准确地理解用户的需求和所处环境，从而提供更智能、更个性化的服务。

22、4、本专利技术充分利用了生成式人工智能大模型强大的涌现能力，理解多轮对话中的上下文，解决指代消解问题，提高了系统的响应质量和准确度。

本文档来自技高网...

【技术保护点】

1.一种基于多模态特征的智能人机交互系统，其特征在于，包括数据采集模块、图片/视频生文模块、自然语言理解模块、以及输出模块；

2.根据权利要求1所述的系统，其特征在于，

3.根据权利要求1所述的系统，其特征在于，

4.一种基于多模态特征的智能人机交互方法，主要包括以下步骤：

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求4所述的方法，其特征在于，

7.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施权利要求4-6中任意一项所述方法的步骤。

8.一种电子设备，包括：

【技术特征摘要】

1.一种基于多模态特征的智能人机交互系统，其特征在于，包括数据采集模块、图片/视频生文模块、自然语言理解模块、以及输出模块；

2.根据权利要求1所述的系统，其特征在于，

3.根据权利要求1所述的系统，其特征在于，

4.一种基于多模态特征的智能人机交互方法，主要...

【专利技术属性】
技术研发人员：司玉景，李全忠，蒲瑶，何国涛，
申请(专利权)人：普强时代珠海横琴信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人