多模态数据处理方法、电子设备及存储介质技术

技术编号：41436195 阅读：27 留言：0更新日期：2024-05-28 20:31

本申请公开了一种多模态数据处理方法、电子设备及存储介质，涉及大模型技术、文本处理领域。其中，该方法包括：获取预设格式数据，以及与预设格式数据匹配的场景文本数据，其中，场景文本数据用于表征对预设格式数据的使用场景进行描述的文本数据；基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的总结文本数据，其中，总结文本数据用于表征对预设格式数据进行概括总结的文本数据；基于场景文本数据和总结文本数据对预设格式数据进行数据分析，得到与预设格式数据的分析文本数据，其中，分析文本数据用于表征对预设格式数据进行解释说明的文本数据。本申请解决了大型语言模型的图表分析准确度较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及大模型技术、文本处理领域，具体而言，涉及一种多模态数据处理方法、电子设备及存储介质。

技术介绍

1、大型语言模型较强的文字理解和创作能力催生了文档阅读或书写工具的蓬勃发展，由于大型语言模型具备较强的辅助阅读文字的能力，因此，可以通过使用大型语言模型理解文档里的文字。在科学研究过程中，除了文本分析之外，研究者还需要进行图表分析，但是，利用大型语言模型进行图表分析的准确度较低，无法满足用户需求，导致用户体验感较差。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种多模态数据处理方法、电子设备及存储介质，以至少解决大型语言模型的图表分析准确度较低的技术问题。

2、根据本申请实施例的一个方面，提供了一种多模态数据处理方法，包括：获取预设格式数据，以及与预设格式数据匹配的场景文本数据，其中，场景文本数据用于表征对预设格式数据的使用场景进行描述的文本数据；基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的总结文本...

【技术保护点】

1.一种多模态数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述场景文本数据对所述预设格式数据进行识别，得到与所述预设格式数据匹配的总结文本数据，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述场景文本数据和所述总结文本数据对所述预设格式数据进行数据分析，得到与所述预设格式数据匹配的分析文本数据，包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，在所述预设格式数据包括图像格式的数据情况下，所述数据处理模型包括切分模块、视觉编码模块、视觉抽...

【技术特征摘要】

1.一种多模态数据处理方法，其特征在于，包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，在所述预设格式数据包括图像格式的数据情况下，所述数据处理模型包括切分模块、视觉编码模块、视觉抽象模块和文本生成模块；在所述预设格式数据包括文本格式的数据的情况下，所述数据处理模型包括：文本生成模块。

6.根据权利要求5所述的方法，其特征在于，在所述预设格式数据包括图像格式的数据的情况下，利用数据处理模型基于所述场景文本数据对所述预设格式数据进行识别，得到所述总结文本数据，包括：

7.根据权利要求5所述的方...

【专利技术属性】
技术研发人员：胡安文，史雅雅，徐海洋，严明，张佶，黄非，
申请(专利权)人：杭州阿里云飞天信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人