多模态特征一致性心理健康异常识别方法及系统技术方案

技术编号:37807563 阅读:12 留言:0更新日期:2023-06-09 09:37
本发明专利技术为多模态特征一致性心理健康异常识别方法及系统,包括以下内容:获取同一场景下的包含音频文件和视频文件这两种模态的原始数据文件;将获得的原始数据文件中对视频数据和音频数据进行预处理;将连续帧序列中每帧微表情程度分数进行归一化处理,获得微表情关键帧向量;将从音频数据提取的频率特征送入音频流深度特征提取网络获得深度语音特征F

【技术实现步骤摘要】
多模态特征一致性心理健康异常识别方法及系统


[0001]本专利技术涉及心理健康异常识别
,具体涉及一种基于微表情放大和语音特征的多模态特征一致性心理健康异常识别方法及系统,该方法以音视频的微表情和语音特征为主要判断依据,进行心理健康异常识别。

技术介绍

[0002]随着经济社会的不断发展,人民群众的心理健康逐渐受到了社会各界的广泛关注。因此,有必要研究一种心理健康异常识别的方法,提高医生的诊断效率,为医生的诊断提供相对客观的参考依据。
[0003]微表情作为一种面部肌肉的不自主运动,在人们试图掩盖内在情绪时产生,既无法伪造也无法抑制。比起人们有意识做出的表情,微表情更能体现人们真实的感受和动机,因此微表情特征常常作为自动抑郁检测的重要客观指标之一。与微表情面部特征相似,语音特征也能够反映个体的情绪变化和心理异常状态,能客观可靠地反映说话人真实的心理状态,因此这两个指标对于心理疾病的分析具有重要的参考价值。但微表情非常细微、持续时间很短难以捕捉,因此在利用视频进行心理健康方面的研究时通常非常困难。
[0004]近年来,人工智能机器学习领域出现一些基于音视频多模态信息来进行心理状态异常识别的研究,其中以自动抑郁检测最为广泛。现有利用音视频多模态信息进行心理健康异常识别的研究中,大多没有考虑微表情这一对心理和情绪有重要反映的特征来进行研究;而现有的基于微表情的研究又大多是单模态的,没有结合语音特征进行心理健康分析。与此同时,现有研究中,对多模态特征的处理也比较简单,没有考虑同一样本不同模态特征之间的一致性问题。如中国专利CN 112560811 B提出了一种端到端的基于音视频的自动抑郁症检测方法。该方法基于音频和视频数据,首先将采集到的包含有长时音频文件和长时视频文件这两个模态的原始数据进行切段预处理;其次将音频段和视频段分别输入音频特征提取网络和视频特征提取网络,得到音频深度特征和视频深度特征;使用多头注意力机制对深度语音特征和深度视频特征进行计算,得到注意力音频特征和注意力视频特征;将注意力音频特征和注意力视频特征通过特征聚合模块聚合成音视频特征,最后送入决策网络,预测个体的抑郁水平。该方法同样以音视频数据作为输入,但没有考虑视频数据的微表情特征,无法有效捕捉微表情信息,也缺乏对音频特征和视频特征这两个模态的特征一致性问题的考量。
[0005]基于上述原因,本专利技术提出一种基于微表情和语音特征的多模态特征一致性心理健康异常识别方法及系统。

技术实现思路

[0006]针对现有技术的不足,本专利技术拟解决的技术问题是,提供一种基于微表情和语音特征的多模态特征一致性心理健康异常识别的方法及系统,能更好地应对心理健康异常识别任务。
[0007]本专利技术解决所述技术问题采用的技术方案是:
[0008]第一方面,本专利技术提供一种多模态特征一致性心理健康异常识别方法,该方法包括以下内容:
[0009]获取同一场景下的包含音频文件和视频文件这两种模态的原始数据文件,包含正常样本和异常样本,且对异常样本设置有疾病种类标签;
[0010]将获得的原始数据文件中包含有完整面部图像的视频数据进行微表情放大处理,然后根据每一帧面部微表情动作幅度大小对视频帧进行打分,记录每帧微表情程度分数,再将人脸图像进行配准对齐,至此完成对视频数据的微表情放大处理;然后对放大后的视频数据按照设定的采样间隔进行连续帧序列采样,得到多个维度相同的连续帧序列,至此完成对视频数据的预处理;
[0011]将连续帧序列中每帧微表情程度分数进行归一化处理,获得微表情关键帧向量;
[0012]对获得的原始数据文件中的音频数据进行降噪除杂处理,提取音频数据的频率特征;
[0013]将从音频数据提取的频率特征送入音频流深度特征提取网络进行音频深度特征提取,得到深度语音特征F
A
,同时在音频流深度特征提取网络中对语音信息进行语音特征结果预测,获得音频特征预测结果y
A

[0014]构建视频流深度特征提取网络,所述视频流深度特征提取网络包括依次连接的去池化层的C3D ResNet50、空间注意力模块、通道注意力模块、时间注意力模块及分类网络;其中时间注意力模块的输入为通道注意力模块的输出和微表情关键帧向量的相乘结果,时间注意力模块的输出在帧序列维度上求平均后获得深度视频特征F
V

[0015]从视频数据获得的多个维度相同的连续帧序列同时送入视频流深度特征提取网络进行视频深度特征提取,得到深度视频特征F
V
;在视频流深度特征提取网络中对连续帧序列的视频信息进行视频特征结果预测,经分类网络获得视频特征预测结果y
V

[0016]将所述深度视频特征和深度语音特征利用张量融合网络进行特征融合,得到音视频多模态融合特征;将音视频多模态融合特征送入心理健康分类网络进行最终预测;
[0017]按照公式(2)计算音视频多模态一致性损失
[0018][0019]其中,n为样本数,M为标签类别的数量,y
i
表示第i个样本的标签,p
i,c
表示第i个样本属于类别c的模型预测概率,λ为惩罚系数;函数h(y
V
,y
A
)为惩罚函数,当音频特征预测结果和视频特征预测结果不一致时增大损失函数的惩罚力度,惩罚函数的定义为
[0020][0021]进一步地,所述λ设定值为1.0

1.6;优选为1.55。
[0022]进一步地,所述音频流深度特征提取网络包括2D ResNet18网络、时间注意力机制和全连接层,经过预训练的2D ResNet18网络的输出连接时间注意力机制,时间注意力机制的输出连接一层全连接层;
[0023]时间注意力机制包括1层一维卷积、1层全连接和1层softmax函数,对空间和通道两个维度特征进行压缩,提取时间维度的特征,获得深度语音特征。
[0024]进一步地,所述视频流深度特征提取网络的主干网络为经过预训练的C3D ResNet50;经过主干网络进行特征提取之后依次被送入空间注意力模块和通道注意力模块,进行空间维度和通道维度的信息整合和权重分配;接下来将通道注意力模块处理得到的特征向量Fsc与微表情关键帧向量Fem相乘;再送入时间注意力模块进行帧序列层面的时间维度信息整合;
[0025]C3D ResNet50的每一个残差块由三个三维卷积串联构成,第一个三维卷积的卷积核大小为1
×1×
1,步长为1,第二个三维卷积的卷积核大小为3
×3×
3,步长为2,第三个三维卷积的卷积核大小为1
×1×
1,步长为1;每个三维卷积后面跟随一个三维批正则化和一个ReLU激活函数。
[0026]进一步地,所述微表情放大处理是利用欧拉运动放大算法对微表情进行放大,打分过程是:对微表情放大后的视频利用关键帧检测算法找到微表情变化最大的帧,再本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态特征一致性心理健康异常识别方法,该方法包括以下内容:获取同一场景下的包含音频文件和视频文件这两种模态的原始数据文件,包含正常样本和异常样本,且对异常样本设置有疾病种类标签;将获得的原始数据文件中包含有完整面部图像的视频数据进行微表情放大处理,然后根据每一帧面部微表情动作幅度大小对视频帧进行打分,记录每帧微表情程度分数,再将人脸图像进行配准对齐,至此完成对视频数据的微表情放大处理;然后对放大后的视频数据按照设定的采样间隔进行连续帧序列采样,得到多个维度相同的连续帧序列,至此完成对视频数据的预处理;将连续帧序列中每帧微表情程度分数进行归一化处理,获得微表情关键帧向量;对获得的原始数据文件中的音频数据进行降噪除杂处理,提取音频数据的频率特征;将从音频数据提取的频率特征送入音频流深度特征提取网络进行音频深度特征提取,得到深度语音特征F
A
,同时在音频流深度特征提取网络中对语音信息进行语音特征结果预测,获得音频特征预测结果y
A
;构建视频流深度特征提取网络,所述视频流深度特征提取网络包括依次连接的去池化层的C3D ResNet50、空间注意力模块、通道注意力模块、时间注意力模块及分类网络;其中时间注意力模块的输入为通道注意力模块的输出和微表情关键帧向量的相乘结果,时间注意力模块的输出在帧序列维度上求平均后获得深度视频特征F
V
;从视频数据获得的多个维度相同的连续帧序列同时送入视频流深度特征提取网络进行视频深度特征提取,得到深度视频特征F
V
;在视频流深度特征提取网络中对连续帧序列的视频信息进行视频特征结果预测,经分类网络获得视频特征预测结果y
V
;将所述深度视频特征和深度语音特征利用张量融合网络进行特征融合,得到音视频多模态融合特征;将音视频多模态融合特征送入心理健康分类网络进行最终预测;按照公式(2)计算音视频多模态一致性损失按照公式(2)计算音视频多模态一致性损失其中,n为样本数,M为标签类别的数量,y
i
表示第i个样本的标签,p
i,c
表示第i个样本属于类别c的模型预测概率,λ为惩罚系数;函数h(y
V
,y
A
)为惩罚函数,当音频特征预测结果和视频特征预测结果不一致时增大损失函数的惩罚力度,惩罚函数的定义为2.根据权利要求1所述的多模态特征一致性心理健康异常识别方法,其特征在于,所述λ设定值为1.0

1.6;优选为1.55。3.根据权利要求1所述的多模态特征一致性心理健康异常识别方法,其特征在于,所述音频流深度特征提取网络包括2D ResNet18网络、时间注意力机制和全连接层,经过预训练的2D ResNet18网络的输出连接时间注意力机制,时间注意力机制的输出连接一层全连接层;时间注意力机制包括1层一维卷积、1层全连接和1层softmax函数,对空间和通道两个维度特征进行压缩,提取时间维度的特征,获得深度语音特征。4.根据权利要求1所述的多模态特征一致性心理健康异常识别方法,其特征在于,所述
视频流深度特征提取网络的主干网络为经过预训练的C3D ResNet50;经过主干网络进行特征提取之后依次被送入空间注意力模块和通道注意力模块,进行空间维度和通道维度的信息整合和权重分配;接下来将通道注意力模块处理得到的特征向量Fsc与微表情关键帧...

【专利技术属性】
技术研发人员:李泽付志刚许铮铧
申请(专利权)人:河北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1