一种基于多模态数据的大语言模型融合方法、设备及介质技术

技术编号：43390261 阅读：34 留言：0更新日期：2024-11-19 18:04

本发明专利技术公开了一种基于多模态数据的大语言模型融合方法、设备及介质，具体涉及数据融合技术领域，用于解决现有的多模态融合过程中忽视了保持各模态独特性的重要性的问题，通过从文本和图像数据中提取高维的语义和视觉特征，利用自编码器进行语义特征和视觉特征的解耦处理区分出通用特征和模态特定特征，通过计算模态间的互信息和分析模态间的互补性，确定各模态之间的依赖程度和独特信息的贡献；在允许融合后，在变分自编码器框架中生成的融合潜在表示捕获各模态的综合信息，通过KL散度评估信息损失；通过对融合后的信息熵变异度和信息损失的综合分析，全面评估融合模型在保持模态独特性方面的表现。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据融合，更具体地说，本专利技术涉及一种基于多模态数据的大语言模型融合方法、设备及介质。

技术介绍

1、随着人工智能领域的迅速发展，多模态数据处理已成为提高大语言模型理解和生成能力的重要方向。多模态数据融合涉及将来自不同感知渠道的信息整合使用，如文本、图像、音频等，其中每种数据模态都携带着丰富而独特的信息。特别是在文本和图像数据的融合中，这两种模态各自承载的信息具有本质上的差异性：文本通过序列化的符号表达语义，而图像则通过空间分布的像素点展示视觉信息。

2、现有的多模态融合技术多采用初级融合策略，如简单的特征级联或线性组合，这种方法虽然在一定程度上实现了模态间的信息整合，但往往忽视了保持各模态独特性的重要性，这可能导致模态间的信息冗余或相互干扰，从而无法有效利用各模态的独特表达特征，也未能最大化各自对大语言模型性能的贡献。

3、为了解决上述问题，现提供一种技术方案。

技术实现思路

1、为了克服现有技术的上述缺陷，本专利技术的实施例提供一种基于多模态数据...

【技术保护点】

1.一种基于多模态数据的大语言模型融合方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于多模态数据的大语言模型融合方法，其特征在于，利用自编码器对语义特征和视觉特征进行解耦处理，区分出通用特征和模态特定特征，具体包括：

3.根据权利要求2所述的一种基于多模态数据的大语言模型融合方法，其特征在于，基于不同模态之间的依赖程度和模态间互补性的分析结果，决定是否进行模态融合，具体为：

4.根据权利要求3所述的一种基于多模态数据的大语言模型融合方法，其特征在于，通过对文本输入和图像输入进行编码生成融合后的潜在表示，利用KL散度评估该融合后的潜在表...

【技术特征摘要】

1.一种基于多模态数据的大语言模型融合方法，其特征在于，包括如下步骤：

4.根据权利要求3所述的一种基于多模态数据的大语言模型融合方法，其特征在于，通过对文本输入和图像输...

【专利技术属性】
技术研发人员：曹玉顺，刘庆旭，李凌旭，张赟鹏，
申请(专利权)人：大连卓云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人