【技术实现步骤摘要】
基于全注意力机制的多模态抑郁症检测方法和系统
[0001]本专利技术涉及抑郁症检测
,具体涉及一种基于全注意力机制的多模态抑郁症检测方法、系统、存储介质和电子设备。
技术介绍
[0002]抑郁症是现在最常见的一种心理疾病,以连续且长期的心情低落为主要的临床特征,是现代人心理疾病最重要的类型。
[0003]目前,抑郁症检测现主要通过两种技术:第一,基于单模态(采用文本、语音、视觉中的一个信息源),例如通过对视频中用户的个体步态进行分析,采集关键数据并提取特征,用自己搭建的模型进行抑郁症检测。第二,基于多模态(采用文本、语音、视觉中的多个信息源),例如采集用户语音、文本等多种信息,进行特征提取和融合,用自己搭建的模型进行抑郁症检测。
[0004]虽然上述基于多模态方式相对于基于单模态式方式,较为全面地反映了患者的抑郁状况,但是其使用数据集部分仅为模拟数据,数据来源的真实性和数据质量无法得到保证,进而影响了最终检测结果的准确性。
技术实现思路
[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种基于全注意力机制的多模态抑郁症检测方法、系统、存储介质和电子设备,解决了检测结果不准确的技术问题。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]一种基于全注意力机制的多模态抑郁症检测方法,包括:
[0010]采集用户的就诊视频,所述就诊视频由医生就汉密顿抑郁量表 ...
【技术保护点】
【技术特征摘要】
1.一种基于全注意力机制的多模态抑郁症检测方法,其特征在于,包括:采集用户的就诊视频,所述就诊视频由医生就汉密顿抑郁量表对用户进行提问时录制;根据所述就诊视频,获取视觉特征;从所述就诊视频提取音频数据,根据所述音频数据,获取语音特征;将所述音频数据进行转录标注获取文本数据,根据所述文本数据,取文本特征;根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果。2.如权利要求1所述的多模态抑郁症检测方法,其特征在于,所述视觉特征包括视频帧序列、人脸关键点二值图、复杂情绪序列、肢体活跃度序列以及注视角热力图中的一种或者几种任意组合;获取过程包括:采用Openface工具包对所述就诊视频进行抽帧,获取所述视频帧序列;并对每一帧中的的用户进行人脸检测和人脸对齐,提取出2D人脸关键点和对齐后的人脸图片,将人脸关键点绘制在纯黑色背景上获取所述人脸关键点二值图;将对齐后的人脸图片输入emonet模型,对用户的效价和唤醒二维情绪进行预测,得到基础情绪,再通过预设的VA环形模型将基础情绪映射为复杂情绪向量,获取所述复杂情绪序列;采用飞桨框架的实时关键点检测模型提取用户的身体关键点,将身体关键点坐标转化为向量,分别计算鼻子、四肢向量的变化模长,组成所述肢体活跃度序列;采用Openface工具包提取用户的视线、头部姿态特征,将提取出的特征转换成眼睛凝视序列,并根据眼睛凝视序列得到热力图的边界和中心点,去除遍历中心点最远的部分点后,使用八邻域法将眼睛凝视序列转换成所述注视角热力图。3.如权利要求2所述的多模态抑郁症检测方法,其特征在于,所述根据所述音频数据,获取语音特征,包括:首先对所述音频数据进行了文本转录,标注了音频中每一句话的说话角色、起止时间、持续时间、文本内容;再根据标注的起止时间将录音中用户回答医生的语音数据切分出来;最终采用开源工具openSMILE提取所述语音特征。4.如权利要求3所述的多模态抑郁症检测方法,其特征在于,所述根据所述文本数据,取文本特征,包括:预先根据回答信息的有效性构建停止词典;根据所述停止词典清洗了数据,获取包含有效信息的文本内容;采用Chinese
‑
roBerta模型将文本内容转换为文本特征。5.如权利要求4所述的多模态抑郁症检测方法,其特征在于,所述根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果,包括:S51、根据起始时间和终止时间截取相应的视觉特征,完成所述视觉特征、语音特征和文本特征在时间维度上的对齐;S52、将所述视频帧序列、人脸关键点二值图以及注视角热力图划分为三维视觉特征;将所述复杂情绪序列、肢体活跃度序列以及语音特征划分为一维时序特征;
S53、根据所述三维视觉特征、一维时序特征和文本特征,引入可学习矩阵,获取各自对应且维度相同的初始语义特征;S54、将所述三维视觉特征、一维时序特征和文本特征对应的初始语义特征,结合位置编码信息,获取各自对应的高级语义特征;包括:z0=[x0WP;x1W
P
;...;x
N
W
P
]+e
POS
其中,x0,x1…
,x
N
依次表示某类特征的各个patch;W
P
表示可学习矩阵;e
POS
表示位置编码;随后将z0输入由L个Transformer Encoder模块堆叠而成的模型中进行高级语义特征提取,z
′
l
=MHA(LN(z
l
‑1))+z
l
‑1,l=1...Lz
l
=MLP(LN(z
′
l
))+z
′
l
,l=1...Lz
out
=LN(z
L
)其中,MHA代表Multi
‑
Head
‑
Attention;MLP代表多层感知机;LN代表Layer Normaliztion;L代表Transformer Encoder的总个数,l代表第l块Transformer Encoder;z
′
l
表示对上一层的输出z
l
‑1执行LN和MHA后再加上上一层的输出z
l
‑1所得到的结果;z
l
表示对z
′
l
执行LN和MLP后再加上z
′
l
所得到的结果,z
out
表示对z
l
做LN所得到的结果;S55、融合所述三维视觉特征、一维时序特征和文本特征对应的高级语义特征;包括:将视觉特征和音频特征的模型输出投影到文本特征空间得到z
v
→
t
、z
a
→
t
::将投影到语音特征空间得到z
t
→
a
、z
v
→
a
;;将投影到视觉特征空间得到z
t
→
v
、z
a
→
v
;;其中,其中,其中,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。