客服应用场景下的多模态问题回答方法和装置制造方法及图纸

技术编号：43864850 阅读：18 留言：0更新日期：2024-12-31 18:52

本公开实施例提供一种客服应用场景下的多模态问题回答方法和装置。客服应用场景下的多模态问题回答方法包括：获取用户输入的多模态问题，多模态问题中的非影像模态数据为文本数据和/或音频数据；采用预训练的视觉提取模型处理影像模态数据，得到视觉特征向量；采用预训练的视觉语义映射模型处理视觉特征向量，得到映射语义向量；基于非影像模态数据得到文本输入数据；将映射语义向量和文本输入数据输入到预训练的大语言处理模型中，得到针对所述多模态问题的回答结果。本方案方法能够适应用户同时输入影像模态数据和非影像模态数据的情况，使得得到的回答结果更为符合用户的意图，也就是使得回答结果正确的可能性更大。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及深度学习，具体涉及一种客服应用场景下的多模态问题回答方法和装置。

技术介绍

1、因为大语言模型可以较好的理解用户提问的语义和意图，为提高诸如智能客户系统等问题回答系统回答的准确率和用户体验，大语言模型被部署到问题回答系统中。但是现有的问题回答系统采用诸如bert、gpt等大语言模型，其基于文本对话方式，仅能处理文本或者音频转文本数据，无法处理图像数据。

2、而实际应用中，用户具有向问题回答系统展示照片、视频的方式说明问题和需求。单纯依赖文本处理的问题回答系统无法满足用户自然和直观交互的期望。

技术实现思路

1、为解决现有的问题回答系统单纯依赖文本处理的问题回答系统无法满足用户自然和直观交互的期望的问题，本公开实施例提供一种新的客服应用场景下的多模态问题回答方法和装置。

2、第一方面，本公开实施例提供一种客服应用场景下的多模态问题回答方法，包括：

3、获取用户输入的多模态问题，所述多模态问题包括影像模态数据和非影像模态数据，所述非影像模态数据为文...

【技术保护点】

1.一种客服应用场景下的多模态问题回答方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述影像模态数据包括视频数据；

3.根据权利要求2所述的方法，其特征在于，所述确定所述视频数据中关键视频帧，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，在将所述映射语义向量和所述文本输入数据输入到预训练的大语言处理模型中之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述映射语义向量、所述文本输入数据和所述召回知识数据输入到所述大语言处理模型中，得到所述针对所述多模态问题的回答结果，包括：

...

【技术特征摘要】

1.一种客服应用场景下的多模态问题回答方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述影像模态数据包括视频数据；

3.根据权利要求2所述的方法，其特征在于，所述确定所述视频数据中关键视频帧，包括：

6.根据权利要求1-3任一项所述的方法，其特...

【专利技术属性】
技术研发人员：程龙，陈驰宇，王许超，王仿，
申请(专利权)人：北京智谱华章科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人