当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于多模态融合的抑郁状态识别方法技术

技术编号:30918069 阅读:17 留言:0更新日期:2021-11-23 00:07
本发明专利技术提供一种基于多模态融合的抑郁状态识别方法,包括以下步骤:步骤S1,采集语音数据和人脸数据;步骤S2,对语音数据进行语音预处理;步骤S3,将预处理的语音数据通过阿里云接口转为语音文本,并对语音文本进行文本预处理;步骤S4,对人脸数据进行视频预处理;步骤S5,将预处理的语音数据映射到时频域上,得到二维矩阵;步骤S6,构建多模态融合神经网络模型,将二维矩阵、预处理的语音文本和视频数据共同输入到多模态融合神经网络模型,以被试者是否抑郁作为训练标签进行训练;步骤S7,将待测语音数据输入到完成训练的多模态融合神经网络模型得到对应的多个分类结果,再以投票法的方式选择类别更多的训练标签作为语音信号的最终分类结果。的最终分类结果。的最终分类结果。

【技术实现步骤摘要】
一种基于多模态融合的抑郁状态识别方法


[0001]本专利技术涉及一种基于多模态融合的抑郁状态识别方法。

技术介绍

[0002]抑郁症是一种在世界范围内典型且常见的精神性疾病,覆盖各个年龄阶段,给患者造成严重的健康问题。现行的抑郁症临床诊断方法依赖医生的临床经验和患者填写的相关量表,整个过程耗时较长,诊断流程效率低下,受限于国内现阶段的医疗资源,患者的筛查效率更加低效。并且大部分早期患者对抑郁症类精神疾病不够重视,到医院求助的意愿相对身体疾病比较消极。
[0003]近年来,基于生理、行为等多种指标进行抑郁评估的研究均取得一定成果,但目前尚未有明确的生物标记物可用于识别抑郁症,研究人员仍在不断寻找一种客观有效的抑郁评估方法。

技术实现思路

[0004]为解决上述问题,提供一种基于多模态融合的抑郁状态识别方法,本专利技术采用了如下技术方案:
[0005]本专利技术提供了一种基于多模态融合的抑郁状态识别方法,包括以下步骤:步骤S1,采集被试者的语音数据和人脸数据;步骤S2,对语音数据进行语音预处理,得到预处理的语音数据;步骤S3,将预处理的语音数据通过阿里云接口转为语音文本,并对语音文本进行文本预处理,得到预处理的语音文本;步骤S4,对人脸数据进行视频预处理,得到视频数据;步骤S5,将预处理的语音数据映射到时频域上,得到二维矩阵;步骤S6,构建多模态融合神经网络模型,将二维矩阵、预处理的语音文本和视频数据共同输入到多模态融合神经网络模型,以被试者是否抑郁作为训练标签进行训练,得到完成训练的多模态融合神经网络模型;步骤S7,将待测语音数据输入到完成训练的多模态融合神经网络模型得到对应的多个分类结果,再以投票法的方式选择类别更多的训练标签作为语音信号的最终分类结果;其中,多模态融合神经网络模型包括视频处理模块、语音文本处理模块、时频域映射模块、全连接层和Softmax层,视频处理模块包括卷积层、池化层和全连接层,语音文本处理模块包括卷积层、双向LSTM层、注意力层和全连接层;时频域映射模块包括卷积层、双向LSTM层、注意力层和全连接层。
[0006]本专利技术提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,双向LSTM层由作为前向LSTM层的多个LSTM单元以及作为后向LSTM层的多个LSTM单元构成,前向LSTM层的多个LSTM单元用于接收原始顺序的输入信号,后向LSTM层的多个LSTM单元用于接收反向顺序的输入信号。
[0007]本专利技术提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,LSTM单元由输入门i
t
、遗忘门f
t
、输出门o
t
三个门函数和细胞状态组成;LSTM单元的运行过程包括以下步骤:第一步,通过遗忘门决定丢弃的信息,并计算输入门i
t
、遗忘
门f
t
、输出门o
t
的值,计算公式为:i
t
=δ(W
i
x
t
+U
i
h
t
‑1+b
i
),f
t
=δ(W
f
x
t
+U
f
h
t
‑1+b
f
),o
t
=δ(W0x
t
+U0h
t
‑1+b0),式中,x
t
为当前数据输入,h
t
为当前隐藏层的输入,h
t
‑1为上一状态隐藏层的输出,W
i
、W
f
、W0为对应的权重系数矩阵,b
i
、b
f
、b0为对应的偏置项,δ为sigmoid函数;第二步,计算细胞状态候选值计算公式为:式中,W
c
、U
c
为对应的权重系数矩阵,b
c
为偏置项,tanh为激活函数;第三步,根据上一细胞状态值c
t
‑1和细胞状态候选值计算当前细胞状态值c
t
,计算公式为:第四步,计算LSTM单元的当前状态输出h
t
,计算公式为:h
t
=o
t tanh(c
t
)。
[0008]本专利技术提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,注意力层的输出根据以下公式来得到:u
t
=tanh(W
ω
h
t
+b
ω
),式中,u
t
为h
t
通过多层感知机映射得到的隐式表达,u
ω
为整个语音段矢量,α
t
为权重系数,W
ω
为权重系数矩阵,b
ω
为偏置项,s为语音矢量。
[0009]本专利技术提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,语音预处理是包括人工筛查排除明显的噪音片段、高通滤波、降采样以及静音片段检测和移除。
[0010]本专利技术提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,语音数据片段时长为30秒。
[0011]本专利技术提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,文本预处理是先人工筛查明显的错字、漏字,并将语音文本与语音数据逐一对应,再将语音文本嵌入到向量领域。
[0012]本专利技术提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,步骤S5中,通过短时傅里叶变换来将预处理的语音数据映射到时频域上。
[0013]专利技术作用与效果
[0014]根据本专利技术的一种基于多模态融合的抑郁状态识别方法,设计了一种多模态融合神经网络模型,并将语音文本、视频数据以及语音数据映射到时频域上的二维矩阵共同输入使用该神经网络模型,从语言、面部表情等多方面对受试者更加客观有效进行抑郁状态识别评估,与现有的基于单一模态的机器学习模型相比,融合多模态数据源的神经网络模型的性能进一步提高。
[0015]同时,本专利技术中的多模态神经网络模型中还融合了注意力机制,能通过自学习的方式调整其权重系数,重点观察语音中的部分片段,因此能很好地解决因语音信号特征分布的稀疏性对分类结果造成的干扰等技术问题,因此进一步提高抑郁筛查的准确性和稳定性。
附图说明
[0016]图1是本专利技术实施例中的基于多模态的融合Attention与Bi

LSTM的卷积神经网络结构示意图;
[0017]图2是本专利技术实施例中注意力机制结构示意图;
[0018]图3是本专利技术实施例中一种基于多模态融合的抑郁状态识别方法流程图。
具体实施方式
[0019]为了使本专利技术实现的技术手段、创作特征、达成目的与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态融合的抑郁状态识别方法,其特征在于,包括以下步骤:步骤S1,采集被试者的语音数据和人脸数据;步骤S2,对所述语音数据进行语音预处理,得到预处理的语音数据;步骤S3,将预处理的语音数据通过阿里云接口转为语音文本,并对所述语音文本进行文本预处理,得到预处理的语音文本;步骤S4,对所述人脸数据进行视频预处理,得到视频数据;步骤S5,将所述预处理的语音数据映射到时频域上,得到二维矩阵;步骤S6,构建多模态融合神经网络模型,将所述二维矩阵、所述预处理的语音文本和所述视频数据共同输入到所述多模态融合神经网络模型,以被试者是否抑郁作为训练标签进行训练,得到完成训练的多模态融合神经网络模型;步骤S7,将待测语音数据输入到所述完成训练的多模态融合神经网络模型得到对应的多个分类结果,再以投票法的方式选择类别更多的所述训练标签作为所述语音信号的最终分类结果;其中,所述多模态融合神经网络模型包括视频处理模块、语音文本处理模块、时频域映射模块、全连接层和Softmax层,所述视频处理模块包括卷积层、池化层和全连接层,所述语音文本处理模块包括卷积层、双向LSTM层、注意力层和全连接层;所述时频域映射模块包括卷积层、双向LSTM层、注意力层和全连接层。2.根据权利要求1所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:其中,所述双向LSTM层由作为前向LSTM层的多个LSTM单元以及作为后向LSTM层的多个所述LSTM单元构成,所述前向LSTM层的多个所述LSTM单元用于接收原始顺序的所述输入信号,所述后向LSTM层的多个所述LSTM单元用于接收反向顺序的所述输入信号。3.根据权利要求2所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:其中,所述LSTM单元由输入门i
t
、遗忘门f
t
、输出门o
t
三个门函数和细胞状态组成;所述LSTM单元的运行过程包括以下步骤:第一步,通过遗忘门决定丢弃的信息,并计算输入门i
t
、遗忘门f
t
、输出门o
t
的值,计算公式为:i
t
=δ(W
i
x
t
+U
i
h
t
‑1+b
i
)f
t
=δ(W
f
x
t
+U
f
h
t
‑1+b
f
...

【专利技术属性】
技术研发人员:赵张王守岩刘伟
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1