一种降低短时模态冗余信息的情感识别方法及其系统技术方案

技术编号：41302634 阅读：5 留言：0更新日期：2024-05-13 14:49

本发明专利技术公开一种降低短时模态冗余信息的情感识别方法及其系统。本发明专利技术首先获取多模态数据并从中提取富含时序性价值的不同模态的特征。然后，将其中不同模态的特征处理为对应的长短时特征。并从短时特征的角度思考，认为其在与长时特征融合时需考虑冗余信息的干扰问题，并使用脉冲神经元去过滤多余部分。最后，依据短时特征的特性，使其在与长时特征融合时更加贴合，降低短时特征对长时特征本身的干扰。本发明专利技术首次将长短时多模态的概念引入情感检测领域，通过短时模态信息辅助上下文长时文本模态的思想，过滤短时模态特征信息，进一步提高识别情感的能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多模态情感分析领域，具体涉及一种降低短时模态冗余信息的情感识别方法及其系统。

技术介绍

1、情感分析一直以来是人类交流中不经意间所做的事情，然而让机器识别人类情感并分析其中的内在要素往往是复杂且极具挑战性的。单模态情感分析领域的发展，依托自然语言处理和图像处理，逐渐成熟。但同时也暴露一个问题，即情感表达是一个含有丰富肢体语言的行为。在人类社交日常中，往往不只是通过单一的文字或声音传达情感的。因此，多种模态的交互融合也成为情感分析领域亟待发展的核心。而现今大多技术仍停留在文字或者图像提取特征然后进行情感分析的阶段。即使在多模态情感分析领域上，发展较多的也多为文本结合图像的双模态，针对于三种模态(文本、音频、视觉模态)处理的情感分析技术仍有很大的上升空间。在这当中，随着模态数量的增加，模态本身多样性的提升，新的挑战也随之而来。

2、多模态情感分析领域中的核心任务为多模态之间的交互融合。其中不可避免地需要考虑两个主要因素，一是模态数量的增加，加剧了模态之间线索交互的难度，二是模态融合可能会导致信息的进一步冗余以及噪声增大等问题。在模态数量上，双模态(文本及单一图像)包含的时间序列主要在文本的上下文中。但是三模态本身来源于视频，是从视频中提取出相应的文本模态、音频模态以及视觉模态(具有时序性的图像序列)。这三者本事就含有很强的时序性，加之视频中提取的三种模态处理成特征的手段各不相同，从而导致了三种模态本身序列帧并不可能一一对齐，也就削弱了各个模态之间的紧密关联性。同时，情感本身就是人类特有的表达方式，它蕴含着很

3、为了解决上述问题，本专利技术研究了不同模态间的特征交互权重对情感(例如讽刺)言语识别的影响，提出了一种基于脉冲神经网络缓解短时特征中的冗余信息对长时特征的干扰，并加强长时特征与短时特征的紧密性，从而使情感检测得到不错效果。

技术实现思路

1、本专利技术的目的是为了针对现有技术的忽略与不足，提出了一种降低短时模态冗余信息的情感识别方法，用以准确把握各个特征之间的交互属性，从而提高情感识别的准确性与有效性。首先获取多模态数据并从中提取模态特征。然后，将对应的特征分别处理为长短时特征。接着从短时特征的角度思考，考虑其与长时特征融合时冗余信息的干扰问题，使用脉冲神经元去过滤多余部分。最后，提出解决方法与模型，依据短时特征的特性，使其在与长时特征融合时更加贴合，降低短时特征对长时特征本身的干扰。

2、第一方面，本专利技术提供一种降低短时模态冗余信息的情感识别方法，所述方法包括以下步骤：

3、步骤一、根据视频获取多模态数据；所述多模态包括文本模态、音频模态、视觉模态；

4、其中视觉模态数据采用含有时序性的图像序列；

5、步骤二、对多模态数据进行预处理，得到短时特征和长时特征；所述长时特征包括文本特征hl，所述短时特征包括音频特征ha、视觉特征hv；

6、步骤三、对短时特征进行二次处理，得到二次处理后的短时特征；

7、步骤四、对二次处理后的短时特征和预处理后的长时特征hl进行多模态融合；

8、步骤五、将多模态融合结果输入至分类器，得到情感识别结果。

9、第二方面，本专利技术提供实现所述方法的情感识别系统，所述系统包括以下：

10、数据获取模块，负责根据视频获取多模态数据；所述多模态包括文本模态、音频模态、视觉模态；

11、特征提取模块，负责对多模态数据进行预处理，得到短时特征和长时特征；

12、多模态脉冲驱动注意力模块，负责对短时特征进行二次处理，得到二次处理后的短时特征；

13、多模态融合模块，负责对二次处理后的短时特征sshort和预处理后的长时特征hl进行多模态融合；

14、识别模块，负责将多模态融合结果输入至分类器，得到情感识别结果。

15、第三方面，本专利技术提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行所述的方法。

16、第四方面，本专利技术提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码所述处理器执行所述可执行代码时，实现所述的方法。

17、本专利技术的有益效果如下：

18、1.本专利技术首次在多模态情感领域中引入脉冲神经网络，通过脉冲神经网络中的lif脉冲神经元有效的过滤了短时特征(即音频和视频特征)中干扰长时特征(文本特征)的冗余特征信息，并取得了不错的成果，这是之前所未有过的。

19、2.本专利技术首次将长短时多模态的概念引入情感检测领域，通过短时模态信息辅助上下文长时文本模态的思想，对情感识别这一情感领域分支做出了一定的贡献。

20、3.本专利技术利用过滤短时模态特征信息，进一步提高模型本身识别情感的能力。

本文档来自技高网...

【技术保护点】

1.一种降低短时模态冗余信息的情感识别方法，其特征在于所述方法包括以下步骤：

2.根据权利要求1所述方法，其特征在于步骤四具体是：

3.根据权利要求1所述方法，其特征在于所述脉冲激活函数即为脉冲神经元的神经元动态过程，脉冲神经元的充电方程如下：

4.根据权利要求1所述方法，其特征在于所述脉冲神经元的神经元动态过程中，对于膜电位的重置采用Hard方式或Soft方式。

5.根据权利要求4所述方法，其特征在于所述脉冲神经元的神经元动态过程中，对于膜电位的重置使用Hard方式。

6.根据权利要求3所述方法，其特征在于所述脉冲神经元的神经元动态过程中，所述多模态键值转换模块用于将短时特征转换为与长时特征相结合的多模态瞬时特征信息：

7.实现权利要求1-6任一项所述方法的情感识别系统，其特征在于所述系统包括以下：

8.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-6中任一项所述的方法。

9.一种计算设备，包括存储器和处理器，所述存储器中存储

...

【技术特征摘要】

1.一种降低短时模态冗余信息的情感识别方法，其特征在于所述方法包括以下步骤：

2.根据权利要求1所述方法，其特征在于步骤四具体是：

3.根据权利要求1所述方法，其特征在于所述脉冲激活函数即为脉冲神经元的神经元动态过程，脉冲神经元的充电方程如下：

4.根据权利要求1所述方法，其特征在于所述脉冲神经元的神经元动态过程中，对于膜电位的重置采用hard方式或soft方式。

5.根据权利要求4所述方法，其特征在于所述脉冲神经元的神经元动态过程中，对于膜电位的重置使用hard方式。

6...

【专利技术属性】
技术研发人员：孔万增，周斐炜，唐佳佳，龙海涛，王宝德，马迪，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人