一种情绪识别方法及系统技术方案

技术编号：41319436 阅读：6 留言：0更新日期：2024-05-13 14:59

本发明专利技术公开一种情绪识别方法及系统，涉及情绪识别技术领域，该方法包括：获取多模态对话场景中多个参与者的音频、文本和视频特征；根据音频、文本和视频特征，以特征融合网络架构为核心搭建情感识别模型；通过共同表征学习反复对情感识别模型进行训练；将对话场景输入训练后的情感识别模型中，预测该对话场景中参与者的情绪标签；通过学习共同表征来反复训练情感识别模型，以提高情感分类的准确性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及情绪识别，具体涉及一种情绪识别方法及系统。

技术介绍

1、对话中的情绪识别(emotion recognition in conversation,erc)现在已经引起了越来越多的关注，因为它具有从大量增量的公开可用对话数据中挖掘和分析联系的潜在能力。此外，erc还可以作为医疗系统的心理分析工具，以及需要了解用户情绪的人机交互式对话。

2、多模态的情感识别在人机交互方面有很大的潜力。然而在现实世界中，数据经常会出现语料级的不完整，其中描述了各种数据缺失的模式，这大大降低了不同模式间的整合和互补。对于erc任务来说，有各种原因导致所需的数据暂时缺失：传感器可能出现故障，从而使相应的信号不再可用；或者其结果可能被噪声所破坏。在另一种情况下，有明显表情的人脸可能被挡住或急剧移动，然后从传感器的视野中消失。

3、然而，由于传感器错误或噪声损坏等故障引起的不确定模式，导致数据经常会出现语料级的不完整，从而降低了不同模式间的整合和互补。

技术实现思路

1、针对现有技术数据经常会出现语料级的不完整，从而降低了不同模式间的整合和互补的不足，本专利技术提出一种情绪识别方法及系统，从而解决现有技术数据经常会出现语料级的不完整，从而降低了不同模式间的整合和互补的问题。

2、一种情绪识别方法，包括以下步骤：

3、获取对话场景中参与者的音频、文本和视频特征；

4、以特征融合网络架构为核心搭建情感识别模型；

5、通过共同表征

6、将待识别的对话场景输入训练后的情感识别模型中，识别出该对话场景中参与者的情绪标签；

7、所述通过共同表征学习反复对情感识别模型进行训练，其训练过程包括：

8、根据音频、文本和视频特征构建数据集初始化网络参数和共同表征为随机值；

9、将数据集扩展为数据集

10、根据数据集产生新的共同表征

11、将新的共同表征和数据集相结合，产生新的数据集

12、通过新的数据集对情感识别模型进行训练。

13、进一步地，在所述对话场景中，定义一个时间长度t，参与者人数为q个，分别表示为q1,q2,…,qq，定义音频、文本和视频表征分别为在每个时间qi(t)说出的语料其中i(t)∈1,2,…,q表示从时间t到当前方对话者索引的映射，是串联，da,dt,dv分别指音频、文本和视觉特征的尺寸。

14、进一步地，所述对话场景中在任意一个时间时必须有一个不缺失的模式；所述模式为在不同时间存在多种模态缺失的情况；具体包括：定义不完整的数据段为完整数据的子集，m表示模态的数量；

15、一个模态m在整个对话中缺失，则新的数据段将是

16、或者所有模式同时缺失，对话就无法继续。

17、进一步地，还包括在所述训练过程中采用优化目标函数调整特征融合网络参数来优化所述情绪识别模型；具体包括：

18、通过优化目标函数得到一组新的参数

19、扩展的数据集输入至特征融合网络，来训练和更新erc任务参数θe，进而在不同时间的对话语料中获得中间信息b，即：

20、

21、进一步地，采用全局状态g模拟和跟踪对话场景和参与者之间的共享信息，在时间t，当前全局状态gt通过grug更新：

22、

23、其中是前一个参与者的状态，是相应的情绪状态，表示联结操作，全局状态g1,…,gt-1表明了对话表征的变化。

24、进一步地，所述情绪识别模型通过多层感知来预测该对话场景中参与者的情绪标签。

25、进一步地，将待识别的对话场景输入训练后的情感识别模型中，采用注意力机制计算与当前语料相关的全局语境

26、

27、其中αt是注意力的权重，ct是进行中的全局状态与αt的加权和；

28、当事人的状态pq分别通过采用全局环境、当前话语和先前的情绪状态来更新，其表示为：

29、

30、其中，是先前的参与者状态，是先前的情绪状态。

31、进一步地，还包括采用mlp分类头来对参与者的情绪状态进行分类，进而获得情绪标签，其表示为：

32、

33、其中是预测的情绪标签。

34、进一步地，采用分类交叉熵和l2-regularization作为所述情绪识别模型的目标函数，其表示为：

35、

36、其中，x,y是带有标签的时间序列数据，t是对话中的总语料数，是语料ut的情绪标签分布，yt是真实标签，λe是l-2权重，θe代表特征融合网络的参数。

37、进一步地，一种情绪识别系统，包括：

38、获取模块，用于获取对话场景中参与者的音频、文本和视频特征；

39、模型构建模块，用于以特征融合网络为核心搭建情感识别模型；

40、训练模块，用于通过共同表征学习反复对情感识别模型进行训练；所述通过共同表征学习反复对情感识别模型进行训练，其训练过程包括：

41、根据音频、文本和视频特征构建数据集初始化网络参数和共同表征为随机值；

42、将数据集扩展为数据集

43、根据数据集产生新的共同表征

44、将新的共同表征和数据集相结合，产生新的数据集

45、通过新的数据集对情感识别模型进行训练；

46、识别模块，用于将待识别的对话场景输入训练后的情感识别模型中，识别出该对话场景中参与者的情绪标签。

47、本专利技术提供了一种情绪识别方法及系统，具备以下有益效果：

48、本专利技术通过以特征融合网络架构为核心搭建情感识别模型，通过共同表征学习反复对情感识别模型进行训练，通过将数据集扩展来加强共同表征学习任务，并产生更准确、更丰富的共同表征，最后将共同表征与输入的不完整数据集相结合，产生新的扩展数据集来训练模型，相较于传统多模态情感识别方法，更细致地处理多模态信息，提供更准确和完整的情感分类结果；该方法具有广泛的应用前景，特别是在未来的人机交互领域，为基于声音、图像和文本的情感判断提供了有力支持。

本文档来自技高网...

【技术保护点】

1.一种情绪识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种情绪识别方法，其特征在于，在所述对话场景中，定义一个时间长度T，参与者人数为Q个，分别表示为q1,q2,…,qQ，定义音频、文本和视频表征分别为在每个时间qI(t)说出的语料其中I(t)∈1,2,…,Q表示从时间t到当前方对话者索引的映射，是串联，Da,Dt,Dv分别指音频、文本和视觉特征的尺寸。

3.根据权利要求2所述的一种情绪识别方法，其特征在于，所述对话场景中在任意一个时间时必须有一个不缺失的模式；所述模式为在不同时间存在多种模态缺失的情况，具体包括：

4.根据权利要求1所述的一种情绪识别方法，其特征在于，还包括在所述训练过程中采用优化目标函数调整特征融合网络参数来优化所述情绪识别模型；具体包括：

5.根据权利要求1所述的一种情绪识别方法，其特征在于，采用全局状态g模拟和跟踪对话场景和参与者之间的共享信息，在时间t，当前全局状态gt通过GRUG更新：

6.根据权利要求1所述的一种情绪识别方法，其特征在于，所述情绪识别模型通过多层感知来预测

7.根据权利要求1所述的一种情绪识别方法，其特征在于，在将待识别的对话场景输入训练后的情感识别模型中，采用注意力机制计算对话场景中与参与者当前语料相关的全局语境

8.根据权利要求1所述的一种情绪识别方法，其特征在于，还包括采用MLP分类头来对参与者的情绪状态进行分类，进而获得情绪标签，其表示为：

9.根据权利要求8所述的一种情绪识别方法，其特征在于，采用分类交叉熵和L2-regularization作为所述情绪识别模型的目标函数，其表示为：

10.一种情绪识别系统，其特征在于，包括：

...

【技术特征摘要】

1.一种情绪识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种情绪识别方法，其特征在于，在所述对话场景中，定义一个时间长度t，参与者人数为q个，分别表示为q1,q2,…,qq，定义音频、文本和视频表征分别为在每个时间qi(t)说出的语料其中i(t)∈1,2,…,q表示从时间t到当前方对话者索引的映射，是串联，da,dt,dv分别指音频、文本和视觉特征的尺寸。

5.根据权利要求1所述的一种情绪识别方法，其...

【专利技术属性】
技术研发人员：张杰，曹晖，张克英，侯依琳，
申请(专利权)人：中国人民解放军空军军医大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人