一种基于多模型投票的多模态对话情感识别方法技术

技术编号：40125243 阅读：9 留言：0更新日期：2024-01-23 21:17

本发明专利技术提供一种基于多模型投票的多模态对话情感识别方法，首先获取至少1个说话者说话产生的多模态数据，分别针对文本数据、音频数据和图片数据构建3个模态的情感分类任务并进行第一次情感分类；将多模态数据利用多头注意力机制融合并进行第二次情感分类；将多模态情感特征向量融合时序上下文信息后进行第三次情感分类；最后将三次情感分类结果进行硬投票，分别将每个说话者得票数量最多的情感类别作为其最终的情感分类结果，完成多模态对话情感识别；本发明专利技术通过对多模态交互方式进行优化，避免了情感干扰，同时对历史对话和说话者之间的交互进行建模，以更加细致的方式挖掘各模态所包含的情感特征，能够增强情感分类的准确性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习和对话情感分类，更具体地，涉及一种基于多模型投票的多模态对话情感识别方法。

技术介绍

1、对话情感分类（erc）长期以来一直是多模态分类和自然语言处理（nlp）领域中备受关注的研究方向。在人类日常交流中，识别和追踪对话参与者的情绪状态对于人机交互、对话分析和视频理解等领域的进展至关重要，并具有广泛的潜在应用价值。随着流媒体服务的发展，多模态对话情感识别在智能客服、社交媒体分析、情感驱动的内容推荐、情感分析研究以及情感驱动的人机交互等领域展示了广泛的应用场景和重要意义。以基于情感驱动的人机交互系统为例，该技术能够辨识和分析用户在对话过程中表达的情感状态，例如愤怒、满意、沮丧等。该系统针对用户的不同情感需求，能够自适应地调整交互方式、语气和反馈，从而与用户进行情感交互，提供更加个性化和人性化的服务。

2、传统的多模态情感识别方法存在一些限制，无法有效解决模态之间表达情感相反、单模态表达多种情感以及对话者之间的模态影响等问题，从而对情感判别造成影响。

3、多模态对话的情感识别通常存在以下难点：第一，在多模态对话场景下，与传统的单句多模态情感识别不同，多模态情感识别面临更具挑战性的问题。这是因为对话中存在多个影响说话者情绪状态的因素，包括多模态的上下文、对话者刺激、自身情绪惰性、对话场景和人格特征等。因此，需要针对多模态对话进行不同模态和角度的情感建模和预测；第二，不同模态之间表达的情感可能存在冲突，例如一个人面带微笑却表达悲伤的情绪，因此，在进行模态交互的过程中需要特别注意处理这种情况；第

4、现有技术公开了一种基于动态上下文表示和模态融合的多模态分类方法及系统，其解决了每个模态的特征未得到充分的分析，以及没有根据其特性进行针对性地处理的问题，其中，该方法将每个模态的特征分别进行全局上下文表征、局部上下文表征和直接映射表征，再根据动态路径选择方法融合上述表征，得到每个模态的初始融合特征；将所有模态的初始融合特征分别执行全融合、部分融合和带偏融合处理，得到全融合结果、部分融合结果和带偏融合结果，再通过动态路径选择方法融合，得到最终用于分类的多模态融合特征，其提高了最终识别任务类别的准确性；该现有技术中的方法尽管能够解决模态交互形式过于简单的问题，以及每个模态的特征未得到充分的分析和没有根据其特性进行针对性地处理的问题，通过对多模态过程中不同模态信息量不一致进行了区分和针对性处理，减少了模态融合过程中信息量较少的模态带来的噪音，但通常一个对话内容中会包含多种情感，该方法无法从更细粒度去挖掘不同模态包含的情感特征，而且当不同模态表达的情感不一致的情况时，会对模态融合造成干扰。

技术实现思路

1、本专利技术为克服上述现有技术在对话情感识别时未对模态进行细粒度挖掘、模态交互易受到干扰和识别准确性较低的缺陷，提供一种基于多模型投票的多模态对话情感识别方法，通过对多模态交互方式进行优化，避免了情感干扰，同时对历史对话和说话者之间的交互进行建模，以更加细致的方式挖掘各模态所包含的情感特征，能够增强情感分类的准确性和鲁棒性。

2、为解决上述技术问题，本专利技术的技术方案如下：

3、一种基于多模型投票的多模态对话情感识别方法，包括以下步骤：

4、s1：获取至少1个说话者对话产生的多模态数据；所述多模态数据包括文本数据、音频数据和图片数据；每个模态的数据均包括至少1种待识别的情感类别；

5、s2：将文本数据、音频数据和图片数据分别输入预设的文本编码器、音频编码器和图片编码器中进行特征提取，分别获取文本特征、音频特征和图片特征；

6、s3：将文本特征、音频特征和图片特征分别输入预设的文本情感分类器、音频情感分类器和图片情感分类器中进行第一次情感分类，分别获取文本情感分类结果、音频情感分类结果和图片情感分类结果；

7、s4：根据文本情感分类结果、音频情感分类结果和图片情感分类结果分别计算每个模态对应的惩罚因子；将文本特征、音频特征和图片特征分别与每个模态对应的惩罚因子相乘，分别获取文本降权向量、音频降权向量和图片降权向量；

8、s5：将文本降权向量、音频降权向量和图片降权向量共同输入预设的多头注意力层中进行多模态特征的融合交互，获取多模态情感特征向量；

9、s6：将多模态情感特征向量输入预设的多模态情感分类器中进行第二次情感分类，获取多模态融合情感分类结果；

10、s7：将多模态情感特征向量分解为若干个多模态情感特征子向量，并将所有多模态情感特征子向量按时序进行重新拼接，获取融合时序特征的情感特征向量；

11、s8：将融合时序特征的情感特征向量输入训练好的双向rnn分类器中进行第三次情感分类，获取时序上下文交互情感分类结果；

12、s9：将文本情感分类结果、音频情感分类结果、图片情感分类结果、多模态融合情感分类结果和时序上下文交互情感分类结果共同进行硬投票，分别将每个说话者得票数量最多的情感类别作为其最终的情感分类结果，完成多模态对话情感识别。

13、优选地，所述步骤s1中的多模态数据的获取方式为：从预设的至少1个说话者的对话视频数据中分别提取文本数据、音频数据和图片数据，获取所述多模态数据。

14、优选地，所述步骤s1中还包括对获取到的音频数据和图片数据进行预处理，具体方法为：

15、对所述音频数据依次进行采样率调整、去噪和音频增益调整，并利用滑动窗口提取音频片段，完成音频数据的预处理；

16、对所述图片数据进行去重操作，具体为：

17、s1.1：对所述对话视频数据相邻帧的2张图片使用光流算法进行光流计算，获取光流计算结果；

18、s1.2：根据光流计算结果计算相邻帧的2张图片的变化幅度，判断变化幅度是否大于预设阈值，若大于，则将该相邻帧的2张图片保留至去重结果集合，执行步骤s1.3；否则直接执行步骤s1.3；

19、s1.3：从所述对话视频数据的第一帧图片开始，重复步骤s1.1~s1.2对所述去重结果集合进行更新，直到遍历所述对话视频数据的最后一帧图片，将最后一次更新获得的去重结果集合保存为去重后的图片数据，完成图片数据的预处理。

20、优选地，所述步骤s1.1中的光流算法具体为lucas-kanade算法、farneback算法和flownet算法中的任意一种。

21、优选地，所述步骤s1.2中的本文档来自技高网...

【技术保护点】

1.一种基于多模型投票的多模态对话情感识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模型投票的多模态对话情感识别方法，其特征在于，所述步骤S1中的多模态数据的获取方式为：从预设的至少1个说话者的对话视频数据中分别提取文本数据、音频数据和图片数据，获取所述多模态数据。

3.根据权利要求2所述的一种基于多模型投票的多模态对话情感识别方法，其特征在于，所述步骤S1中还包括对获取到的音频数据和图片数据进行预处理，具体方法为：

4.根据权利要求3所述的一种基于多模型投票的多模态对话情感识别方法，其特征在于，所述步骤S1.1中的光流算法具体为Lucas-Kanade算法、Farneback算法和FlowNet算法中的任意一种。

5.根据权利要求4所述的一种基于多模型投票的多模态对话情感识别方法，其特征在于，所述步骤S1.2中的变化幅度具体为相邻帧的2张图片中的每个像素的位移向量大小或相似度度量；所述相似度度量包括欧氏距离和角度变化。

6.根据权利要求1或5所述的一种基于多模型投票的多模态对话情感识别方法，其

7.根据权利要求6所述的一种基于多模型投票的多模态对话情感识别方法，其特征在于，所述步骤S3中预设的文本情感分类器、音频情感分类器和图片情感分类器，以及所述步骤S6中预设的多模态情感分类器均为CRF分类器。

8.根据权利要求7所述的一种基于多模型投票的多模态对话情感识别方法，其特征在于，所述步骤S4中，计算每个模态对应的惩罚因子的具体方法为：

9.根据权利要求8所述的一种基于多模型投票的多模态对话情感识别方法，其特征在于，所述步骤S7的具体方法为：

10.根据权利要求9所述的一种基于多模型投票的多模态对话情感识别方法，其特征在于，所述步骤S8中的双向RNN分类器具体为：

...

【技术特征摘要】

1.一种基于多模型投票的多模态对话情感识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模型投票的多模态对话情感识别方法，其特征在于，所述步骤s1中的多模态数据的获取方式为：从预设的至少1个说话者的对话视频数据中分别提取文本数据、音频数据和图片数据，获取所述多模态数据。

3.根据权利要求2所述的一种基于多模型投票的多模态对话情感识别方法，其特征在于，所述步骤s1中还包括对获取到的音频数据和图片数据进行预处理，具体方法为：

4.根据权利要求3所述的一种基于多模型投票的多模态对话情感识别方法，其特征在于，所述步骤s1.1中的光流算法具体为lucas-kanade算法、farneback算法和flownet算法中的任意一种。

5.根据权利要求4所述的一种基于多模型投票的多模态对话情感识别方法，其特征在于，所述步骤s1.2中的变化幅度具体为相邻帧的2张图片中的每个像素的位移向量大小或相似度度量；所述相似度度量包括欧氏距离和角度变化。

【专利技术属性】
技术研发人员：牟昊，黄于晏，何宇轩，徐亚波，李旭日，
申请(专利权)人：广州数说故事信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人