【技术实现步骤摘要】
本专利技术涉及数据融合,更具体地说,本专利技术涉及一种基于多模态数据的大语言模型融合方法、设备及介质。
技术介绍
1、随着人工智能领域的迅速发展,多模态数据处理已成为提高大语言模型理解和生成能力的重要方向。多模态数据融合涉及将来自不同感知渠道的信息整合使用,如文本、图像、音频等,其中每种数据模态都携带着丰富而独特的信息。特别是在文本和图像数据的融合中,这两种模态各自承载的信息具有本质上的差异性:文本通过序列化的符号表达语义,而图像则通过空间分布的像素点展示视觉信息。
2、现有的多模态融合技术多采用初级融合策略,如简单的特征级联或线性组合,这种方法虽然在一定程度上实现了模态间的信息整合,但往往忽视了保持各模态独特性的重要性,这可能导致模态间的信息冗余或相互干扰,从而无法有效利用各模态的独特表达特征,也未能最大化各自对大语言模型性能的贡献。
3、为了解决上述问题,现提供一种技术方案。
技术实现思路
1、为了克服现有技术的上述缺陷,本专利技术的实施例提供一种基于多模态数据
...【技术保护点】
1.一种基于多模态数据的大语言模型融合方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于多模态数据的大语言模型融合方法,其特征在于,利用自编码器对语义特征和视觉特征进行解耦处理,区分出通用特征和模态特定特征,具体包括:
3.根据权利要求2所述的一种基于多模态数据的大语言模型融合方法,其特征在于,基于不同模态之间的依赖程度和模态间互补性的分析结果,决定是否进行模态融合,具体为:
4.根据权利要求3所述的一种基于多模态数据的大语言模型融合方法,其特征在于,通过对文本输入和图像输入进行编码生成融合后的潜在表示,利用KL散度
...【技术特征摘要】
1.一种基于多模态数据的大语言模型融合方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于多模态数据的大语言模型融合方法,其特征在于,利用自编码器对语义特征和视觉特征进行解耦处理,区分出通用特征和模态特定特征,具体包括:
3.根据权利要求2所述的一种基于多模态数据的大语言模型融合方法,其特征在于,基于不同模态之间的依赖程度和模态间互补性的分析结果,决定是否进行模态融合,具体为:
4.根据权利要求3所述的一种基于多模态数据的大语言模型融合方法,其特征在于,通过对文本输入和图像输...
【专利技术属性】
技术研发人员:曹玉顺,刘庆旭,李凌旭,张赟鹏,
申请(专利权)人:大连卓云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。