一种基于大模型和注意力机制的多模态数据融合分类方法技术

技术编号：43090624 阅读：30 留言：0更新日期：2024-10-26 09:38

本发明专利技术属于计算机技术领域，涉及一种基于大模型和注意力机制的多模态数据融合分类方法；将第一图像特征向量和第二图像特征向量输入至分类模型中的滑动窗口交叉注意力融合模块，输出第一目标图像特征向量和第二目标图像特征向量；将第一目标图像特征向量、第二目标图像特征向量和文本特征向量输入至分类模型中的异构数据交叉注意力融合模块，输出目标对象的目标特征向量；将目标对象的目标特征向量输入至分类模型中的全连接层，输出目标对象的分类结果。本申请直接对不同图像特征进行融合，既融合了不同图像之间的特征信息，又避免了过度融合导致的过拟合风险，减少了信息冗余和噪声，可以更好地平衡文本模态和图像模态，提高了分类结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其是指一种基于基于大模型和注意力机制的多模态数据融合分类方法、装置及计算机可读存储介质。

技术介绍

1、基于深度学习的分类方法被广泛应用于各个领域，例如人脸识别、疾病分类等，然而在实际应用中，仅仅依赖单一模态信息对目标对象进行分类存在无法充分获取目标对象的特征信息，导致分类结果不准确的问题，因此，现有的目标对象分类方法往往通过对目标对象的不同模态信息进行决策级融合或特征级融合以充分获取目标对象的特征信息，从而提高分类结果的准确性。

2、其中，决策级融合是指将来自于不同模态的分类结果进行融合，常见的融合方法包括投票和加权平均等，例如，在人脸识别任务中，将来自不同模态的人脸识别结果进行投票，选择得票最多的结果作为最终识别结果，但是，简单地对不同模态的分类结果进行整合无法真正的挖掘目标对象的不同模态信息之间的相关性，甚至在单个模态的分类结果存在噪声或误差时，还会引入噪声干扰，影响分类结果准确性。

3、基于此，目前大多分类方法使用特征级融合，特征级融合是指在特征提取过程中对不同数据的信息进行融合，...

【技术保护点】

1.一种基于大模型和注意力机制的多模态数据融合分类方法，其特征在于，包括：

2.根据权利要求1所述的基于大模型和注意力机制的多模态数据融合分类方法，其特征在于，所述第一前馈神经网络子模块和所述第二前馈神经网络子模块均包括串联的归一化单元和非线性变换单元。

3.根据权利要求1所述的基于大模型和注意力机制的多模态数据融合分类方法，其特征在于，所述第一中间图像特征向量表示为：

4.根据权利要求1所述的基于大模型和注意力机制的多模态数据融合分类方法，其特征在于，所述第一目标图像特征向量表示为：

5.根据权利要求1所述的基于大模型和注意力机制的多模态...

【技术特征摘要】

1.一种基于大模型和注意力机制的多模态数据融合分类方法，其特征在于，包括：

3.根据权利要求1所述的基于大模型和注意力机制的多模态数据融合分类方法，其特征在于，所述第一中间图像特征向量表示为：

4.根据权利要求1所述的基于大模型和注意力机制的多模态数据融合分类方法，其特征在于，所述第一目标图像特征向量表示为：

5.根据权利要求1所述的基于大模型和注意力机制的多模态数据融合分类方法，其特征在于，将所述第一目标图像特征向量、所述第二目标图像特征向量和所述文本特征向量输入至训练好的分类模型中的异构数据交叉注意力融合模块，输...

【专利技术属性】
技术研发人员：姚健，朱鑫磊，钱鹏江，王闯，蔡尉尉，高明，符成龙，蒋亦樟，
申请(专利权)人：江南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人