基于多源信号和神经网络的双模态情绪识别方法及系统技术方案

技术编号:34029027 阅读:8 留言:0更新日期:2022-07-06 10:39
本发明专利技术公开了一种基于多源信号和神经网络的双模态情绪识别方法及系统。首先从雷达回波信号中提取呼吸信号,从视频人脸脸颊区域提取PPG信号,从PPG信号中提取心跳信号,利用一维卷积神经网络提取生理信号的特征,其次,从视频中提取眼部及嘴部区域的连续图片帧,利用二维卷积神经网络和长短时记忆网络提取其特征,然后基于多模态紧凑型双线性池化算法进行特征融合,采用注意力机制为每一维融合后的特征赋不同权重,最后通过分类层进行情绪识别。本发明专利技术利用双模态传感器结合紧凑型双线性池化特征融合算法来实现情绪识别,与传统的单模态传感器以及特征拼接式的特征融合相比,有效降低了特征维度,避免维度爆炸,同时提升了情绪识别的准确率。绪识别的准确率。绪识别的准确率。

【技术实现步骤摘要】
基于多源信号和神经网络的双模态情绪识别方法及系统


[0001]本专利技术属于雷达及多传感器融合领域,特别涉及一种基于多源信号和神经网络的双模态情绪识别方法及系统。

技术介绍

[0002]情绪识别是心理学、认知科学和计算机科学等领域的一项重要研究内容。
[0003]情绪识别最早始于面部表情,面部表情由于其直白性和个体差异,所以存在表情变化较小的情况,加上在实际的应用场景中受到环境光强等因素的影响,不同情绪状态所对应的面部表情区分度不足,且在某些特定场景中人的面部表情易于进行伪装,在一定程度上给情绪识别带来主观性影响,从而使得实际的情绪识别准确率往往会低于实验室测得的结果。
[0004]而生理信号用于情绪识别则较为客观,基于生理信号的情绪识别也逐渐成为情绪识别的重要研究方向之一。然而,现有的生理信号采集大多是接触式的,这种接触式的采集方式易对人体造成不适感,对人情绪的激发产生一定的影响。而且在实际的应用场景中,生理信号的采集易受到多种环境因素的影响导致较大程度地失真,鲁棒性较差,从而使得基于生理信号的情绪识别也存在一定的局限性。

技术实现思路

[0005]本专利技术的目的在于针对接触式生理信号采集以及单模态情绪识别模型存在的不足,借助生命体征监测雷达和视频,建立一种结合注意力机制和多模态紧凑型双线性池化算法的双模态情绪识别模型,实现情绪识别。
[0006]实现本专利技术目的的技术解决方案为:一种基于多源信号和神经网络的双模态情绪识别方法,所述方法包括以下步骤:
[0007]步骤1,利用摄像头采集受试者面部表情变化的视频,同时用生命体征监测雷达采集包含受试者胸腹部运动信息的雷达回波信号,并将雷达回波信号进行反正切解调及带通滤波,得到呼吸信号;
[0008]步骤2,对视频进行逐帧分割并提取人脸区域,得到连续的人脸图片帧,从人脸图片帧中提取心跳信号,并对心跳信号进行重构;
[0009]步骤3,分割所述人脸图片帧,得到包含情绪信息的眼部、嘴部区域连续图片帧;
[0010]步骤4,对步骤1至步骤3中得到的两种模态的数据进行预处理,之后利用神经网络分别提取生理信号和连续图片帧中的情绪相关特征;
[0011]步骤5,对步骤4中提取的两种模态的特征进行融合,融合后的特征经注意力机制处理,为每一维融合后的特征赋以不同的权重,再连接分类层,构建完整的双模态情绪识别模型;
[0012]步骤6,利用采集的生理信号和连续图片帧数据训练双模态情绪识别模型,再利用训练好的模型对未知情绪状态进行预测,实现情绪识别。
[0013]进一步地,步骤2中所述从人脸图片帧中提取心跳信号,并对心跳信号进行重构,具体过程包括:
[0014]步骤21

1,从人脸连续图片帧中的脸颊区域提取PPG信号;
[0015]步骤21

2,对PPG信号进行带通滤波获得心跳信号;
[0016]步骤21

3,利用相位追踪算法重构心跳信号。
[0017]进一步地,步骤2中所述对心跳信号进行重构,具体过程包括:
[0018]步骤22

1,利用基于L1趋势滤波的去趋势方法对失真的PPG信号进行去趋势;
[0019]步骤22

2,对去趋势后的PPG信号进行独立成分分析处理,得到的独立成分分量中频域峰值最高的分量即为失真的心跳信号,记作S(t),t表示当前时刻;
[0020]步骤22

3,对失真心跳信号S(t)作希尔伯特变换,得到失真心跳信号S(t)的相位phase(t)以及幅值mag(t);
[0021]步骤22

4,初始化观测矩阵A和预测矩阵Y,用于预测失真信号的相位,具体为:
[0022]Y=[1,w][0023]式中,w为用于预测相位的采样点个数,T为矩阵转置符号;
[0024]由观测矩阵A和预测矩阵Y获得相位线性预测的最小二乘解P为:
[0025]P=Y*(A
T
A)
‑1A
T
[0026]式中,*为矩阵外积符号,(A
T
A)
‑1为A
T
A的广义逆矩阵;
[0027]步骤22

5,利用当前失真时刻t的前w个失真心跳信号采样点的相位,对当前失真时刻t的相位进行线性预测,记作phase_predict(t):
[0028]phase_predict(t)=P*phase(t)
[0029]步骤22

6,将phase_predict(t)的值域变换至(

π,π),记录phase_predict(t)变换前后的差值diff(N
×
2π),并计算当前失真时刻t失真信号相位phase(t)与预测相位phase_predict(t)之间的残差phase(t)

phase_predict(t),记作res;
[0030]步骤22

7,将残差res的值域变换至(

π,π),利用res和phase_predict(t)预测重构心跳信号的相位phase_reconstruct(t):
[0031]phase_reconstruct(t)=phase_predict(t)+α
×
res+N
×

[0032]式中,0<α≤1,为相位变化的容忍系数,N为diff/2π;
[0033]步骤22

8,重构失真心跳信号:
[0034]S(t)=mag(t).*phase_reconstruct(t)
[0035]式中,.*表示对应元素乘积。
[0036]进一步地,步骤4中所述对步骤1至步骤3中得到的两种模态的数据进行预处理,具体包括:
[0037]步骤41

1,将呼吸信号的采样率降采样至与心跳信号相同,并将降采样后的呼吸信号和心跳信号保存在同一包数据的不同信号通道中;
[0038]步骤41

2,以与生理信号相同的保存方式,将从视频中提取的眼部和嘴部区域连续图片帧存储在同一包数据的不同通道中;
[0039]步骤41

3,在时间上对齐生理信号和连续图片帧,并通过采集的视频定位受试者的体动时间段,将包含体动时间段的生理信号数据和连续图片帧数据删除,获得未受体动
干扰的生理信号数据和连续图片帧数据。
[0040]进一步地,步骤4中所述利用神经网络分别提取生理信号和连续图片帧中的情绪相关特征,具体为:采用一维卷积神经网络构建生理信号特征提取模型,提取呼吸信号和心跳信号的特征信息,采用二维卷积神经网络和长短时记忆网络构建模型,提取眼部和嘴部连续图片帧的特征信息;具体过程包括:
[0041]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多源信号和神经网络的双模态情绪识别方法,其特征在于,所述方法包括以下步骤:步骤1,利用摄像头采集受试者面部表情变化的视频,同时用生命体征监测雷达采集包含受试者胸腹部运动信息的雷达回波信号,并将雷达回波信号进行反正切解调及带通滤波,得到呼吸信号;步骤2,对视频进行逐帧分割并提取人脸区域,得到连续的人脸图片帧,从人脸图片帧中提取心跳信号,并对心跳信号进行重构;步骤3,分割所述人脸图片帧,得到包含情绪信息的眼部、嘴部区域连续图片帧;步骤4,对步骤1至步骤3中得到的两种模态的数据进行预处理,之后利用神经网络分别提取生理信号和连续图片帧中的情绪相关特征;步骤5,对步骤4中提取的两种模态的特征进行融合,融合后的特征经注意力机制处理,为每一维融合后的特征赋以不同的权重,再连接分类层,构建完整的双模态情绪识别模型;步骤6,利用采集的生理信号和连续图片帧数据训练双模态情绪识别模型,再利用训练好的模型对未知情绪状态进行预测,实现情绪识别。2.根据权利要求1所述的基于多源信号和神经网络的双模态情绪识别方法,其特征在于,步骤2中所述从人脸图片帧中提取心跳信号,并对心跳信号进行重构,具体过程包括:步骤21

1,从人脸连续图片帧中的脸颊区域提取PPG信号;步骤21

2,对PPG信号进行带通滤波获得心跳信号;步骤21

3,利用相位追踪算法重构心跳信号。3.根据权利要求2所述的基于多源信号和神经网络的双模态情绪识别方法,其特征在于,步骤2中所述对心跳信号进行重构,具体过程包括:步骤22

1,利用基于L1趋势滤波的去趋势方法对失真的PPG信号进行去趋势;步骤22

2,对去趋势后的PPG信号进行独立成分分析处理,得到的独立成分分量中频域峰值最高的分量即为失真的心跳信号,记作S(t),t表示当前时刻;步骤22

3,对失真心跳信号S(t)作希尔伯特变换,得到失真心跳信号S(t)的相位phase(t)以及幅值mag(t);步骤22

4,初始化观测矩阵A和预测矩阵Y,用于预测失真信号的相位,具体为:Y=[1,w]式中,w为用于预测相位的采样点个数,T为矩阵转置符号;由观测矩阵A和预测矩阵Y获得相位线性预测的最小二乘解P为:P=Y*(A
T
A)
‑1A
T
式中,*为矩阵外积符号,(A
T
A)
‑1为A
T
A的广义逆矩阵;步骤22

5,利用当前失真时刻t的前w个失真心跳信号采样点的相位,对当前失真时刻t的相位进行线性预测,记作phase_predict(t):phase_predict(t)=P*phase(t)步骤22

6,将phase_predict(t)的值域变换至(

π,π),记录phase_predict(t)变换前后的差值diff(N
×
2π),并计算当前失真时刻t失真信号相位phase(t)与预测相位phase_
predict(t)之间的残差phase(t)

phase_predict(t),记作res;步骤22

7,将残差res的值域变换至(

π,π),利用res和phase_predict(t)预测重构心跳信号的相位phase_reconstruct(t):phase_reconstruct(t)=phase_predict(t)+α
×
res+N
×
2π式中,0<α≤1,为相位变化的容忍系数,N为diff/2π;步骤22

8,重构失真心跳信号:S(t)=mag(t).*phase_reconstruct(t)式中,.*表示对应元素乘积。4.根据权利要求3所述的基于多源信号和神经网络的双模态情绪识别方法,其特征在于,步骤4中所述对步骤1至步骤3中得到的两种模态的数据进行预处理,具体包括:步骤41

1,将呼吸信号的采样率降采样至与心跳信号相同,并将降采样后的呼吸信号和心跳信号保存在同一包数据的不同信号通道中;步骤41

2,以与生理信号相同的保存方式,将从视频中提取的眼部和嘴部区域连续图片帧存储在同一包数据的不同通道中;步骤41

3,在时间上对齐生理信号和连续图片帧,并通过采集的视频定位受试者的体动时间段,将包含体动时间段的生理信号数据和连续图片帧数据删除,获得未受体动干扰的生理信号数据和连续图片帧数据。5.根据权利要求4所述的基于多源信号和神经网络的双模态情绪识别方法,其特征在于,步骤4中所述利用神经网络分别提取生理信号和连续图片帧中的情绪相关特征,具体为:采用一维卷积神经网络构建生理信号特征提取模型,提取呼吸信号和心跳信号的特征信息,采用二维卷积神经网络和长短时记忆网络构建模型,提取眼部和嘴部连续图片帧的特征信息;具体过程包括:步骤42

1,搭建生理信号特征提取模型,具体为:建立一个主体为J层一维卷积层的神经网络,每一层卷积后连接最大池化层进行一维池化,并采用扁平层对卷积层提取的时序特征作扁平化处理,再通过全连接层输出n维生理信号特征;步骤42

2,将步骤41

3中获得的生理信号数据输入生理信号特征提取模型,提取得到生理信号中的情绪相关特征;步骤42

3,搭建连续图片帧特征提取模型,具体为:建立一个K层的二维卷积神经网络,对每一帧图片中的情绪相关特征进行提取,再通过一个隐藏神经元数为S的双向长短时记忆网络,捕捉连续图片帧中情绪变化的时序信息,最后通过全连接层输出m维连续图片帧特征;步骤42

4,将步骤41

3中获得的连续图片帧数据输入连续图片帧特征提取模型,提取得到连续图片帧中的情绪相关特征。6.根据权利要求5所述的基于多源信号和神经网络的双模态情绪识别方法,其特征在于,步骤5中对步骤4中提取的两种模态的特征进行融合,采用多模态紧凑型双线性池化算法实现;步骤5的具体过程包括:步骤5

1,假定从眼部和嘴部连续图片帧中提取的特征向量f的维度为m,输出的双模态融合特征向量维度为d,d<<m,依照下式随机初始化向量:
式中,h,s∈R
m
,d为融合后的特征维度;通过上式,s被随机初始化成由

1或1构成的长度为m的向量,h被随机初始化成由1和d之间任意整数构成的长度为m的向量;步骤5

...

【专利技术属性】
技术研发人员:顾陈刘锋洪弘李彧晟孙理朱晓华
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1