多模态数据分类方法、终端设备及存储介质技术

技术编号：40195976 阅读：9 留言：0更新日期：2024-01-26 23:59

本发明专利技术公开了一种多模态数据分类方法、终端设备及存储介质，针对缺失模态数据的情况通过不同的方法得到多种来源的缺失模态增强信息，可以从数据层面进一步缓解缺失模态的问题。针对大模型重新训练代价高昂的情况，本发明专利技术使用门控机制从模型层面融合多种来源的缺失模态增强信息，从而进一步缓解缺失模态所造成的影响，使模型的最终的分类准确率提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习领域，特别是一种多模态数据分类方法、终端设备及存储介质。

技术介绍

1、多模态模型被广泛应用于分类、跨模态检索、跨模态生成等多个领域，多模态模型的训练和使用需要大量多模态数据，这些数据是指在不同模态下采集的数据，包括图像、音频、文本、视频等。在实际应用中由于设备故障、数据采集不完整等原因，某些模态数据可能无法获取或者获取不完整，这就导致了模态数据缺失的情况。缺失模态数据在模型的训练和使用过程中是普遍存在的，例如，在图像识别中，由于光照、角度等因素的影响，可能会导致某些图像模态数据无法获取；在语音识别中，由于背景噪音等因素的干扰，可能会导致某些音频模态数据无法获取。缺失模态数据会降低多模态数据的完整性和准确性。

2、多模态模型中模态之间的交互经常使用以注意力机制为基础的transformer网络来实现，但是研究表明基于transformer的多模态模型对缺失模态数据的鲁棒性比较差，在大量缺失模态数据时多模态模型的效果甚至不如只使用单模态数据。对于一个在缺失模态情况下表现不佳的多模态模型，现有技术期望通过改变模型的结构或者提出新的训练方法来改善模型在缺失模态情况下的效果，而随着大部分transformer预训练模型的规模在不断增加，重新在数据集上进行训练的代价是很昂贵的，由于大多数现实应用中的计算资源有限，重新训练甚至不可行，而单纯使用传统的数据增强的方式对缺失模态的缓解程度有限。

技术实现思路

1、本专利技术所要解决的技术问题是，针对现有技术不足，提

2、为解决上述技术问题，本专利技术所采用的技术方案是：一种多模态数据分类方法，包括：

3、第三特征

4、s1、将完整数据输入第一编码器，获得第一特征，对所述第一特征加噪，得到加噪后的特征；将文本数据/图片数据输入第二编码器，得到第二特征；拼接所述加噪后的特征和第二特征，并将拼接后的特征输入去噪网络，得到生成特征；重复该过程，得到训练后的去噪网络；其中，所述完整数据包括文本数据和图片数据；

5、将文本数据/图片数据输入clip模型，通过计算余弦相似度，得到最相似数据，将所述最相似数据输入第三编码器，得到检索特征；

6、将文本数据/图片数据输入第四编码器，得到单模态原始特征；其中，第四编码器输入的数据模态与第二编码器、第三编码器输入的数据模态不同；

7、s2、拼接所述生成特征、检索特征和单模态原始特征，将拼接后的特征作为多模态融合模块的输入，将多模态融合模块的输出作为池化层的输入，得到分类结果；

8、s3、重复步骤s1和s2，直至分类结果满足设定要求时，得到训练后的多模态融合模块。

9、相较于传统的解决缺失模态方法仅使用单个数据增强的方式解决缺失模态的问题，本专利技术针对缺失模态数据的情况通过不同的方法得到多种来源的缺失模态增强信息，可以从数据层面进一步缓解缺失模态的问题。针对大模型重新训练代价高昂的情况，本专利技术使用门控机制从模型层面融合多种来源的缺失模态增强信息，从而进一步缓解缺失模态所造成的影响，使模型的最终的分类准确率提升。

10、本专利技术中，第四编码器输入的数据模态与第二编码器、第三编码器输入的数据模态不同，例如，若第四编码器输入的数据为文本数据，则第二编码器、第三编码器输入的数据为图片数据；若第四编码器输入的数据为图片数据，则第二编码器、第三编码器输入的数据为文本数据。

11、步骤s2中，拼接所述生成特征、检索特征和单模态原始特征之前，还包括：

12、对所述生成特征、检索特征进行加权融合，得到加权融合特征；

13、则s2中，拼接所述生成特征、检索特征和单模态原始特征替换为：拼接所述加权融合特征和所述第三特征。

14、在模型的训练过程中，由于多模态融合模块参数量很大，模型训练的代价很高，因此在微调模型的过程中，这部分参数需要被冻结，门控单元可以使得多模态融合模块的参数被冻结的情况下，让多种来源的缺失模态增强信息中自动分配权重，从而使模型在训练的过程中自动选择更加优秀的增强特征，从而达到更好的分类效果。

15、所述门控单元包括池化层、多层感知机；所述生成特征、检索特征输入池化层后，池化层的输出作为多层感知机的输入，所述多层感知机的输出作为激活函数的输入，所述激活函数输出生成特征的权重和检索特征的权重；将所述生成特征与所述生成特征的权重相乘，将所述检索特征与所述检索特征的权重相乘，并融合两个相乘结果，得到所述加权融合特征。

16、门控单元结构的优势在于结构简单，并且可以对更多模态缺失以及更多来源的增强信息进行扩展。

17、本专利技术的方法还包括：

18、s4、将多模态数据输入第二编码器、clip模型，利用训练后的去噪网络、多模态融合模块，获得最终的分类结果。

19、第t次迭代过程中，加噪后的特征表示为：其中，αt是控制噪声的超参数，为第一特征。加噪过程的形式和原版扩散模型的形式一致，我们将其改写成了适用于隐空间中多模态特征凭借的形式，即公式中的其中代表第一种模态的特征，让其扩展到更多模态的情况。

20、所述去噪网络包括多个级联的transformer模块，最后一个transformer模块与线性层连接；这些transformer模块之间有部分进行了长连接操作，具体来说第1个transformer模块的输出与第n-1个transformer模块的输出会先进行拼接后，再经过线性操作，得到的结果才会作为第n个transformer模块的输入；第2个transformer模块的输出与第n-2个transformer模块的输出拼接后，再经过线性操作，得到的结果作为第n-1个transformer模块的输入，依此类推；n为transformer模块的数量。传统的去噪网络一般是以u-net的形式，本专利技术使用transformer模块代替了u-net中原本的卷积层，并加入了长连接操作，这可以使得多模态的信息利用注意力机制发生更好的交互，从而最终生成更好的缺失模态生成信息。

21、作为一个专利技术构思，本专利技术还提供了一种终端设备，包括：

22、一个或多个处理器；

23、存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本专利技术上述方法的步骤。

24、作为一个专利技术构思，本专利技术还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现本专利技术上述方法的步骤。

25、与现有技术相比，本专利技术所具有的有益效果为：

26、1、本专利技术针对缺失模态数据的情况通过不同的方法得到多种来源的缺失模态增强信息，可以从数据层面进一步缓解缺失模态的问题；

27、2、针对大模型重新训练代价高昂的情况，本专利技术使用门控机制从模型层面融合多种来源的缺本文档来自技高网...

【技术保护点】

1.一种多模态数据分类方法，其特征在于，包括：

2.根据权利要求1所述的多模态数据分类方法，其特征在于，步骤S2中，拼接所述生成特征、检索特征和单模态原始特征之前，还包括：

3.根据权利要求2所述的多模态数据分类方法，其特征在于，门控单元包括池化层、多层感知机；所述生成特征、检索特征输入池化层后，池化层的输出作为多层感知机的输入，所述多层感知机的输出作为激活函数的输入，所述激活函数输出生成特征的权重和检索特征的权重；将所述生成特征与所述生成特征的权重相乘，将所述检索特征与所述检索特征的权重相乘，并融合两个相乘结果，得到所述加权融合特征。

4.根据权利要求1或2所述的多模态数据分类方法，其特征在于，还包括：

5.根据权利要求1所述的多模态数据分类方法，其特征在于，第t次迭代过程中，加噪后的特征表示为：其中，αt是控制噪声的超参数，为第一特征。

6.根据权利要求1所述的多模态数据分类方法，其特征在于，所述去噪网络包括多个级联的Transformer模块，最后一个Transformer模块与线性层连接；第1个Transform

7.一种终端设备，其特征在于，包括：

8.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～6任一项所述方法的步骤。

...

【技术特征摘要】

1.一种多模态数据分类方法，其特征在于，包括：

2.根据权利要求1所述的多模态数据分类方法，其特征在于，步骤s2中，拼接所述生成特征、检索特征和单模态原始特征之前，还包括：

4.根据权利要求1或2所述的多模态数据分类方法，其特征在于，还包括：

5.根据权利要求1所述的多模态数据分类方法，其特征在于，第t次迭代过程中，加噪后的特征表示为：其中，αt是控制...

【专利技术属性】
技术研发人员：邝砾，蒯支睿，周宇露，郭克华，张凌燕，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人