基于全注意力机制的多模态抑郁症检测方法和系统技术方案

技术编号:34510885 阅读:31 留言:0更新日期:2022-08-13 20:56
本发明专利技术提供一种基于全注意力机制的多模态抑郁症检测方法、系统、存储介质和电子设备,涉及抑郁症检测技术领域。本发明专利技术中,采集用户的就诊视频,就诊视频由医生就汉密顿抑郁量表对用户进行提问时录制;根据就诊视频,获取视觉特征;从就诊视频提取音频数据,获取语音特征;将音频数据进行转录标注获取文本数据,取文本特征;根据视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果。数据采集结合了具有良好应用信度的汉密顿抑郁量表,全面采集了视频模态、音频模态、文本模态的数据,以及考虑了跨模态特征信息,补充了不同模态之间的潜在联系,用于对用户抑郁症状进行刻画评估,诊断结果更准确。准确。准确。

【技术实现步骤摘要】
基于全注意力机制的多模态抑郁症检测方法和系统


[0001]本专利技术涉及抑郁症检测
,具体涉及一种基于全注意力机制的多模态抑郁症检测方法、系统、存储介质和电子设备。

技术介绍

[0002]抑郁症是现在最常见的一种心理疾病,以连续且长期的心情低落为主要的临床特征,是现代人心理疾病最重要的类型。
[0003]目前,抑郁症检测现主要通过两种技术:第一,基于单模态(采用文本、语音、视觉中的一个信息源),例如通过对视频中用户的个体步态进行分析,采集关键数据并提取特征,用自己搭建的模型进行抑郁症检测。第二,基于多模态(采用文本、语音、视觉中的多个信息源),例如采集用户语音、文本等多种信息,进行特征提取和融合,用自己搭建的模型进行抑郁症检测。
[0004]虽然上述基于多模态方式相对于基于单模态式方式,较为全面地反映了患者的抑郁状况,但是其使用数据集部分仅为模拟数据,数据来源的真实性和数据质量无法得到保证,进而影响了最终检测结果的准确性。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种基于全注意力机制的多模态抑郁症检测方法、系统、存储介质和电子设备,解决了检测结果不准确的技术问题。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]一种基于全注意力机制的多模态抑郁症检测方法,包括:
[0010]采集用户的就诊视频,所述就诊视频由医生就汉密顿抑郁量表对用户进行提问时录制;
[0011]根据所述就诊视频,获取视觉特征;
[0012]从所述就诊视频提取音频数据,根据所述音频数据,获取语音特征;
[0013]将所述音频数据进行转录标注获取文本数据,根据所述文本数据,取文本特征;
[0014]根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果。
[0015]优选的,所述视觉特征包括视频帧序列、人脸关键点二值图、复杂情绪序列、肢体活跃度序列以及注视角热力图中的一种或者几种任意组合;获取过程包括:
[0016]采用Openface工具包对所述就诊视频进行抽帧,获取所述视频帧序列;
[0017]并对每一帧中的的用户进行人脸检测和人脸对齐,提取出2D人脸关键点和对齐后的人脸图片,将人脸关键点绘制在纯黑色背景上获取所述人脸关键点二值图;
[0018]将对齐后的人脸图片输入emonet模型,对用户的效价和唤醒二维情绪进行预测,
得到基础情绪,再通过预设的VA环形模型将基础情绪映射为复杂情绪向量,获取所述复杂情绪序列;
[0019]采用飞桨框架的实时关键点检测模型提取用户的身体关键点,将身体关键点坐标转化为向量,分别计算鼻子、四肢向量的变化模长,组成所述肢体活跃度序列;
[0020]采用Openface工具包提取用户的视线、头部姿态特征,将提取出的特征转换成眼睛凝视序列,并根据眼睛凝视序列得到热力图的边界和中心点,去除遍历中心点最远的部分点后,使用八邻域法将眼睛凝视序列转换成所述注视角热力图。
[0021]优选的,所述根据所述音频数据,获取语音特征,包括:
[0022]首先对所述音频数据进行了文本转录,标注了音频中每一句话的说话角色、起止时间、持续时间、文本内容;再根据标注的起止时间将录音中用户回答医生的语音数据切分出来;最终采用开源工具openSMILE提取所述语音特征。
[0023]优选的,所述根据所述文本数据,取文本特征,包括:
[0024]预先根据回答信息的有效性构建停止词典;
[0025]根据所述停止词典清洗了数据,获取包含有效信息的文本内容;
[0026]采用Chinese

roBerta模型将文本内容转换为文本特征。
[0027]优选的,所述根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果,包括:
[0028]S51、根据起始时间和终止时间截取相应的视觉特征,完成所述视觉特征、语音特征和文本特征在时间维度上的对齐;
[0029]S52、将所述视频帧序列、人脸关键点二值图以及注视角热力图划分为三维视觉特征;将所述复杂情绪序列、肢体活跃度序列以及语音特征划分为一维时序特征;
[0030]S53、根据所述三维视觉特征、一维时序特征和文本特征,引入可学习矩阵,获取各自对应且维度相同的初始语义特征;
[0031]S54、将所述三维视觉特征、一维时序特征和文本特征对应的初始语义特征,结合位置编码信息,获取各自对应的高级语义特征;包括:
[0032]z0=[x0WP;x1W
P
;...;x
N
W
P
]+e
pos
[0033]其中,x0,x1…
,x
N
依次表示某类特征的各个patch;W
P
表示可学习矩阵;e
POS
表示位置编码;
[0034]随后将z0输入由L个Transformer Encoder模块堆叠而成的模型中进行高级语义特征提取,
[0035]z

l
=MHA(LN(z
l
‑1))+z
l
‑1,l=1...L
[0036]z
l
=MLP(LN(z

l
))+z

l
,l=1...L
[0037]z
out
=LN(z
L
)
[0038]其中,MHA代表Multi

Head

Attention;MLP代表多层感知机;LN代表Layer Normaliztion;L代表Transformer Encoder的总个数,l代表第l块Transformer Encoder;z

l
表示对上一层的输出z
l
‑1执行LN和MHA后再加上上一层的输出z
l
‑1所得到的结果;z
l
表示对z

l
执行LN和MLP后再加上z

l
所得到的结果,z
out
表示对z
l
做LN所得到的结果;
[0039]S55、融合所述三维视觉特征、一维时序特征和文本特征对应的高级语义特征;包括:
[0040]将视觉特征和音频特征的模型输出投影到文本特征空间得到z
v

t
、z
a

t

[0041][0042][0043]将投影到语音特征空间得到z
t

a本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于全注意力机制的多模态抑郁症检测方法,其特征在于,包括:采集用户的就诊视频,所述就诊视频由医生就汉密顿抑郁量表对用户进行提问时录制;根据所述就诊视频,获取视觉特征;从所述就诊视频提取音频数据,根据所述音频数据,获取语音特征;将所述音频数据进行转录标注获取文本数据,根据所述文本数据,取文本特征;根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果。2.如权利要求1所述的多模态抑郁症检测方法,其特征在于,所述视觉特征包括视频帧序列、人脸关键点二值图、复杂情绪序列、肢体活跃度序列以及注视角热力图中的一种或者几种任意组合;获取过程包括:采用Openface工具包对所述就诊视频进行抽帧,获取所述视频帧序列;并对每一帧中的的用户进行人脸检测和人脸对齐,提取出2D人脸关键点和对齐后的人脸图片,将人脸关键点绘制在纯黑色背景上获取所述人脸关键点二值图;将对齐后的人脸图片输入emonet模型,对用户的效价和唤醒二维情绪进行预测,得到基础情绪,再通过预设的VA环形模型将基础情绪映射为复杂情绪向量,获取所述复杂情绪序列;采用飞桨框架的实时关键点检测模型提取用户的身体关键点,将身体关键点坐标转化为向量,分别计算鼻子、四肢向量的变化模长,组成所述肢体活跃度序列;采用Openface工具包提取用户的视线、头部姿态特征,将提取出的特征转换成眼睛凝视序列,并根据眼睛凝视序列得到热力图的边界和中心点,去除遍历中心点最远的部分点后,使用八邻域法将眼睛凝视序列转换成所述注视角热力图。3.如权利要求2所述的多模态抑郁症检测方法,其特征在于,所述根据所述音频数据,获取语音特征,包括:首先对所述音频数据进行了文本转录,标注了音频中每一句话的说话角色、起止时间、持续时间、文本内容;再根据标注的起止时间将录音中用户回答医生的语音数据切分出来;最终采用开源工具openSMILE提取所述语音特征。4.如权利要求3所述的多模态抑郁症检测方法,其特征在于,所述根据所述文本数据,取文本特征,包括:预先根据回答信息的有效性构建停止词典;根据所述停止词典清洗了数据,获取包含有效信息的文本内容;采用Chinese

roBerta模型将文本内容转换为文本特征。5.如权利要求4所述的多模态抑郁症检测方法,其特征在于,所述根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果,包括:S51、根据起始时间和终止时间截取相应的视觉特征,完成所述视觉特征、语音特征和文本特征在时间维度上的对齐;S52、将所述视频帧序列、人脸关键点二值图以及注视角热力图划分为三维视觉特征;将所述复杂情绪序列、肢体活跃度序列以及语音特征划分为一维时序特征;
S53、根据所述三维视觉特征、一维时序特征和文本特征,引入可学习矩阵,获取各自对应且维度相同的初始语义特征;S54、将所述三维视觉特征、一维时序特征和文本特征对应的初始语义特征,结合位置编码信息,获取各自对应的高级语义特征;包括:z0=[x0WP;x1W
P
;...;x
N
W
P
]+e
POS
其中,x0,x1…
,x
N
依次表示某类特征的各个patch;W
P
表示可学习矩阵;e
POS
表示位置编码;随后将z0输入由L个Transformer Encoder模块堆叠而成的模型中进行高级语义特征提取,z

l
=MHA(LN(z
l
‑1))+z
l
‑1,l=1...Lz
l
=MLP(LN(z

l
))+z

l
,l=1...Lz
out
=LN(z
L
)其中,MHA代表Multi

Head

Attention;MLP代表多层感知机;LN代表Layer Normaliztion;L代表Transformer Encoder的总个数,l代表第l块Transformer Encoder;z

l
表示对上一层的输出z
l
‑1执行LN和MHA后再加上上一层的输出z
l
‑1所得到的结果;z
l
表示对z

l
执行LN和MLP后再加上z

l
所得到的结果,z
out
表示对z
l
做LN所得到的结果;S55、融合所述三维视觉特征、一维时序特征和文本特征对应的高级语义特征;包括:将视觉特征和音频特征的模型输出投影到文本特征空间得到z
v

t
、z
a

t
::将投影到语音特征空间得到z
t

a
、z
v

a
;;将投影到视觉特征空间得到z
t

v
、z
a

v
;;其中,其中,其中,...

【专利技术属性】
技术研发人员:孙晓张梓洋江月琪汪萌
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1