一种基于面部特征与语音特征的情绪识别方法技术

技术编号：40036659 阅读：8 留言：0更新日期：2024-01-16 19:04

本发明专利技术公开一种基于面部特征与语音特征的情绪识别方法，涉及特征融合技术领域，包括：对采集的包含有面部信号和语音信号的音视频进行分帧，提取每帧的语音特征值和面部特征值；根据情绪种类构建K均值聚类数目集，从K均值聚类数目集合中确定最优聚类数目；使用最优聚类数目k<subgt;best</subgt;把语音特征值和面部特征值聚为不同的簇，将既含有面部特征值也含有语音特征值的簇作为融合特征；将融合特征输入到情绪识别模块中，输出情绪识别结果。本发明专利技术引入k均值算法对表情特征和语音特征进行融合，将不同感知模式的信息融合，有助于捕捉模态之间的互补信息。将该类作为情绪识别模型的输入有助于情绪识别模型输出更准确的情绪识别结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习，特别涉及一种基于面部特征与语音特征的情绪识别方法。

技术介绍

1、人机交互的过程中，让机器真正看的懂、听的懂情感丰富的人类的情绪状态，不仅可以帮助心理医生通过对病人情绪的判断来掌握病人的心理状态，更好的进行心理治疗，还可以通过观众的反应对广告效果做出评估、识别驾驶员驾驶状态以触发应急措施进行干预等。

2、早期关于情绪识别的研究中，研究者们将表情定义为六种基本的情绪：开心、悲伤、惊讶、害怕、厌恶、生气，并通过让相关研究人员或专业的演员在实验室条件下进行摆拍获得不同类别表情的方式构建数据集。但随着研究的深入，人们发现通过上述的方式进行情绪识别的研究存在弊病：人可以通过控制自己的面部表情来隐藏自己的情绪，基于单一视觉模态很难有效对情绪进行识别。针对以上弊病，目前情绪识别也逐步偏向于面部表情+语音多模态背景下的研究。

3、基于面部表情+语音多模态的情绪识别中，确定每种特征对情绪的影响大小是一个复杂的问题，某种情况下面部表情可能更具信息量，而在其他情况下，语音特征可能更为重要，因此如何获得鲁棒性更强、更具有代表性的综合特征进行情绪识别具有重要的研究意义。使用k均值算法对表情特征和语音特征进行融合，可以通过无监督方法自发的将相似的表情特征和语音特征被聚为一簇，该聚类结果是综合情绪表示，实现不同感知模式之间的信息融合，这有助于捕捉不同模态之间的互补信息。在使用k均值算法获得融合特征的过程中k值可以使用肘部法则来确定，肘部法则的工作步骤是：尝试不同的k值将数据分为不同数量的簇；计算每个尝试的k值的

4、但是使用肘部法则获得最佳簇数量的过程中，轮廓系数的计算是基于全部数据来计算，对于获得融合特征来说，使用全部数据这样可能会掩盖一些细微的情绪变化，获得的k值不准确；并且肘部法则在某些情况下可能存在多个可能的拐点、获得多个k值，造成获得的融合特征的鲁棒性差。

技术实现思路

1、本专利技术实施例提供一种基于面部特征与语音特征的情绪识别方法，可以解决现有技术中，使用传统肘部法获得的聚类数量不准确，以及基于不准确的聚类数量获得的融合特征的鲁棒性差的技术问题。

2、本专利技术实施例提供一种基于面部特征与语音特征的情绪识别方法，包括：

3、对采集的包含有面部信号和语音信号的音视频进行分帧，提取每帧的语音特征值向量α和面部特征值向量β；

4、根据情绪种类n构建k均值聚类数目集合k＝{2,3,…,ki,…,n}，从k均值聚类数目集合k＝{2,3,…,ki,…,n}中确定最优聚类数目kbest，包括：

5、对于每个ki值，使用k均值聚类算法把语音特征值和面部特征值聚为ki个簇；

6、计算每个ki值对应的融合特征轮廓系数：

7、

8、其中，是ki对应的融合特征轮廓系数；j∈{α∪β}的含义是特征值j所属的簇既含有语音特征值也含有面部特征值，s(j)是单个特征值j的轮廓系数；n{α∪β}的含义是既含有语音特征值α也含有面部特征值β的簇中的特征值总数量；

9、计算相邻ki对应的融合特征轮廓系数的变化情况将相邻ki融合特征轮廓系数的变化情况最小的ki作为最优聚类数目kbest：

10、

11、

12、其中，分别是第i-1个聚类数目ki-1、第i个聚类数目ki、第i+1聚类数目ki+1对应的融合特征轮廓系数；

13、将最优聚类数目kbest对应的既含有面部特征值也含有语音特征值的簇作为融合特征；

14、将融合特征输入到情绪识别模块中，输出情绪识别结果。

15、进一步的，所述语音特征值的获取，包括：

16、提取包含有面部信号和语音信号的音视频中的音频；

17、使用汉明窗口函数对音频进行分帧，对分帧的音频进行移帧后获得每帧音频信号；

18、获得每帧音频信号的所有梅尔倒谱系数mfcc，去除第一个梅尔倒谱系数mfcc，将剩余的梅尔倒谱系数mfcc作为对应帧的语音特征值。

19、进一步的，所述获得每帧音频信号的所有梅尔倒谱系数mfcc，包括：

20、对每帧音频信号应用离散傅立叶变换dft，将时域信号转换为频域信号；

21、通过计算离散傅立叶变换dft结果的幅度平方，获得每帧音频信号的功率谱；

22、构建梅尔滤波器组，将每帧音频信号的功率谱分别与梅尔滤波器组中每一个梅尔滤波器进行频率相乘累加，获得每个梅尔滤波器的能量值；

23、取每个梅尔滤波器的能量值的对数，对取对数后的梅尔滤波器组应用离散余弦变换dct，得到所有梅尔倒谱系数mfcc。

24、进一步的，所述面部特征值的获取，包括：

25、获得每帧音频信号的起始时间戳和终止时间戳：

26、

27、

28、其中，是第i帧音频信号的起始时间戳，r是移帧大小，fs是音频的采样率；是第i帧音频信号的终止时间戳，m表示汉明窗口中的采样点数量；

29、根据每帧音频信号的起始时间戳和终止时间戳获得与每帧音频信号同步的每帧视频信号，提取每帧视频信号中的所有图像；

30、使用多任务卷积神经网络检测所有图像中的人脸；

31、使用dlib库检测所有图像中的人脸上68个关键点的位置；

32、基于所有图像中的人脸上68个关键点的位置变化，获得面部特征值：

33、βi0，…，βij，…，βi67}

34、

35、其中，

36、{βi0，…，βij，…，βi67}是与第i帧音频信号同步的第i帧视频信号的所有面部特征值；

37、βij是所有面部特征值中第j个面部特征值，其根据人脸上第j个关键点在起始时间戳和终止时间戳的位置变化计算所得；

38、分别是第j个关键点在起始时间戳和终止时间戳的位置。

39、进一步的，所述多任务卷积神经网络，包括：

40、候选模块，所述候选模块用于快速生成大量的候选窗；

41、与所述候选模块输出端连接的精炼模块，所述精炼模块用于对候选窗进行精筛；

42、与所述精炼模块输出端连接的输出模块，所述输出模块用于输出最终人脸框。

43、进一步的，所述68个关键点的位置，包括：

44、下颌线[0,16]、左眼眉毛[17,21]、右眼眉毛[22,26]、鼻梁[27,30]、鼻子[31,35]、左眼[36,41]、右眼[42,47]、上嘴唇外边缘[48,54]、下嘴唇外边缘[55,59]、上嘴唇内边缘[60,64]、下嘴唇内边缘[65,67]。

45、进一步的，所述使用k均值聚类算法把语音特征值和面部特征值聚为个簇，包括：

46、s1.确定聚类个数为ki、初始聚类中心为γ＝{γ1，…，γki}本文档来自技高网...

【技术保护点】

1.一种基于面部特征与语音特征的情绪识别方法，其特征在于，包括：

2.根据权利要求1所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述语音特征值的获取，包括：

3.根据权利要求2所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述获得每帧音频信号的所有梅尔倒谱系数MFCC，包括：

4.根据权利要求2所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述面部特征值的获取，包括：

5.根据权利要求4所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述多任务卷积神经网络，包括：

6.根据权利要求4所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述68个关键点的位置，包括：

7.根据权利要求1所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述使用K均值聚类算法把语音特征值和面部特征值聚为个簇，包括：

8.根据权利要求1所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述单个特征值的轮廓系数，包括：

9.根据权利要求1所述的基于面部特征

...

【技术特征摘要】

1.一种基于面部特征与语音特征的情绪识别方法，其特征在于，包括：

2.根据权利要求1所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述语音特征值的获取，包括：

3.根据权利要求2所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述获得每帧音频信号的所有梅尔倒谱系数mfcc，包括：

4.根据权利要求2所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述面部特征值的获取，包括：

5.根据权利要求4所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述多任务卷积神经网络，包括：

...

【专利技术属性】
技术研发人员：武圣君，刘旭峰，王秀超，王卉，方鹏，谢康宁，李国新，胡敏花，杨梦圆，张芫蓓，蒲昭君，
申请(专利权)人：中国人民解放军空军军医大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人