一种基于大语言模型的多模态交互方法技术

技术编号：41327622 阅读：23 留言：0更新日期：2024-05-13 15:05

本发明专利技术涉及一种基于大语言模型的多模态交互方法，包括：接收用户输入信息和场景图像信息；将用户输入信息和场景图像信息输入大语言模型，大语言模型根据用户输入信息和/或场景图像信息进行用户情绪感知和场景感知，获取用户情绪信息和场景感知信息，并将用户输入信息与用户情绪信息和场景感知信息进行结合，生成交互内容；大语言模型融入BPE‑MKL算法和图像差值处理模型。本发明专利技术能够对大语言模型的输出进行加速。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能交互，特别是涉及一种基于大语言模型的多模态交互方法。

技术介绍

1、大语言模型是指使用海量文本数据训练的深度学习模型，其可以针对输入文本进行相应回到，或生成自然语言文本。随着大语言模型的逐渐成熟，人机交互也不再像过去那样经常出现答非所问，无法生成让用户满意的回答。但是现有大语言模型较为庞大，当进行多轮交互后，若硬件无法满足大语言模型的需求，则会出现回答延迟情况，从而影响用户的交互体验。

技术实现思路

1、本专利技术所要解决的技术问题是提供一种基于大语言模型的多模态交互方法，能够对大语言模型的输出进行加速。

2、本专利技术解决其技术问题所采用的技术方案是：提供一种基于大语言模型的多模态交互方法，包括以下步骤：

3、接收用户输入信息和场景图像信息；

4、将所述用户输入信息和场景图像信息输入大语言模型，所述大语言模型根据用户输入信息和/或场景图像信息进行用户情绪感知和场景感知，获取用户情绪信息和场景感知信息，并将用户输入信息与用户情绪信息...

【技术保护点】

1.一种基于大语言模型的多模态交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大语言模型的多模态交互方法，其特征在于，所述用户输入信息为文本数据、语音数据、或由大语言模型向用户提供的选项数据，所述场景图像信息包括用户所处环境场景和用户使用软件的相关场景。

3.根据权利要求2所述的基于大语言模型的多模态交互方法，其特征在于，所述用户情绪感知是指通过用户感知模型对用户输入信息进行文字情感识别和/或声波情感识别，得到用户情绪信息。

4.根据权利要求2所述的基于大语言模型的多模态交互方法，其特征在于，所述场景感知是指通过场景感知模型对场景图像...

【技术特征摘要】

1.一种基于大语言模型的多模态交互方法，其特征在于，包括以下步骤：

4.根据权利要求2所述的基于大语言模型的多模态交互方法，其特征在于，所述场景感知是指通过场景感知模型对场景图像信息进行场景描述、场景分类、目标检测和行为识别得到的场景感知信息。

5.根据权利要求1所述的基于大...

【专利技术属性】
技术研发人员：陆弘远，韦怡然，
申请(专利权)人：陆弘远，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人