【技术实现步骤摘要】
一种基于特征解耦和图知识蒸馏的多模态情感识别方法
[0001]本专利技术涉及多模态学习、自然语言处理和计算机视觉
,尤其是涉及一种基于特征解耦和图知识蒸馏的多模态情感识别方法。
技术介绍
[0002]多模态情感识别的目的是从视频片段中感知人类的情感态度。视频片段中涉及来自各种模态的时间序列数据,如语言数据、音频数据以及视觉数据。这种丰富的多模态数据有利于理解人类的行为和意图,在智能辅导系统和机器人技术等领域具有广泛的应用前景和价值。然而不同模态之间的内在异构性增加了多模态表示学习的难度,并导致了不同模态间显著的性能差异。因此如何缓和这些模态之间的差异成为亟需解决的问题。目前的识别方法可分为“传统多模态情感识别方法”和“基于深度学习的多模态情感识别方法”。具体有:
[0003](1)传统多模态情感识别方法。相关专利:CN112101401B、CN113076847B、CN106250855B主要通过最小二乘法、支持向量机等传统机器学习方法处理和融合多模态数据,在此基础上利用相应的分类器进行多模态情感识别。但这些方 ...
【技术保护点】
【技术特征摘要】
1.一种基于特征解耦和图知识蒸馏的多模态情感识别方法,其特征在于:包括以下步骤:S1、搜集大量的用于情感识别的视频片段,使其转化为语言模态样本、视觉模态样本、音频模态样本,然后对所有样本进行情感的标注得到多模态情感识别数据集A;S2、设计端到端的模型M;S3、将步骤S1获得的多模态情感识别数据集A分为训练集T和验证集V,将训练集T输入到步骤S2设计的模型M中进行模型训练,训练阶段同时使用验证集V验证模型训练效果,即当模型M在验证集V上获得较好的情感识别结果,并且该精度不能随着训练过程再提升时,停止训练,最终训练完成获得模型M
*
;S4、输入数据为类似步骤S1处理得到的多模态情感识别测试集I,测试阶段使用的模型为模型M中的浅层特征提取器E,共享编码器私有编码器多模态Transformer和情感分类器C,将测试集I输入步骤S3获得的模型M
*
中以得到测试集I的情感识别结果。2.根据权利要求1所述的一种基于特征解耦和图知识蒸馏的多模态情感识别方法,其特征在于:步骤S2包括以下步骤:S21、对多模态特征进行特征解耦;S22、构建图知识蒸馏模块G来实现动态的跨模态知识迁移;S23、计算分类任务的损失S24、计算模型M的总体训练损失:3.根据权利要求2所述的一种基于特征解耦和图知识蒸馏的多模态情感识别方法,其特征在于:在步骤S21中,对多模态特征进行特征解耦:(1)使用一个共享参数的编码器将每个模态的特征映射到同构空间中,并提取每个模态的同构特征;使用参数非共享的私有编码器分别将每个模态特征映射到异构空间中,并提取每个模态的异构特征,至此每个模态的特征都被解耦为同构特征和异构特征(2)为了维持同构特征和异构特征之间的差异,同构和异构特征之间使用最小化余弦距离进行正交约束并以自回归的方式重建耦合后的特征,解耦后的每个模态的同构和异构特征首先通过参数非共享的私有解码器产生耦合的模态特征,并使用均方误差损失函数约束耦合的模态特征和原始的模态特征近似,随后使用参数非共享的私有编码器对耦合的模态特征进行重新编码,再次产生异构特征,并使用误差损失函数约束当前的异构特征和先前的异构特征近似;(3)由于来自相同情感但不同模态的同构特征应该比来自相同模态但不同情感的同构特征更加相似,因此在此先验基础上构建一个边界损失来维持同构特征的类别判别能力。4.根据权利要求2所述的一种基于特征解...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。