当前位置: 首页 > 专利查询>新疆大学专利>正文

基于语音表征的抑郁症识别方法和系统技术方案

技术编号:39287566 阅读:8 留言:0更新日期:2023-11-07 10:57
本发明专利技术涉及一种基于语音表征的抑郁症识别方法和系统,获取受试者的语音信号及抑郁程度评分;对受试者的语音信号进行预处理;构建语音特征集;将语音特征集分为训练集、验证集和测试集;训练集训练采用基于深度的监督学习下的机器学习方法,建立残差神经网络模型与长短期记忆递归神经网络模型以基于所述语音特征识别并分类抑郁症患者和健康受试者;使用验证集对所述模型进行检验和优化;使用测试集对优化模型进行性能评估。本发明专利技术基于语音表征的抑郁症识别方法和系统,将基于WavLM模型提取表征抑郁状态以及基于ResNet和LSTM模型语音特征应用于抑郁症患者的识别,降低抑郁症患者的疾病评估成本,识别方式简单且准确,有利于抑郁症患者的治疗与康复。抑郁症患者的治疗与康复。抑郁症患者的治疗与康复。

【技术实现步骤摘要】
基于语音表征的抑郁症识别方法和系统


[0001]本专利技术涉及生物特征提取、模式识别
,具体的说,是涉及一种基于语音表征的抑郁症识别方法和系统。

技术介绍

[0002]申请号为CN202011466471.3的中国专利提供了一种语音及文本转录的抑郁症辅助诊断方法、系统及介质,利用预设的标准化问题对应的语音问题与目标用户进行交互,确定对应的问诊信息;基于所述问诊信息通过预设算法进行预测;根据预测结果判定所述目标用户为抑郁症患者,实现辅助识别可能存在的抑郁症患者,减轻医疗工作人员的工作量,提高抑郁症诊断效率。
[0003]实际使用中依然存在弊端:用户采用语音和文本的形式答复虚拟医生的问题时,通过语音转文本软件将目标用户的语音答复信息转换为文本信息,然后将转换的文本信息和用户输入的其他问题的文本信息一并转换为文本嵌入向量,基于得到的文本嵌入向量,采用深度神经网络模型对文本嵌入向量进行建模,获得预测结果,对比文件对抑郁症识别的抑郁症患者的疾病评估成本高,识别方式复杂,准确度低。

技术实现思路

[0004]针对上述现有技术中的不足,本专利技术提供一种在日常生活中采集患者的语音信息,进而分析判断抑郁症状程度,降低抑郁症患者的疾病评估成本的基于语音表征的抑郁症识别方法和系统。
[0005]本专利技术所采取的技术方案是:
[0006]一种基于语音表征的抑郁症识别方法,包括以下步骤:
[0007]步骤s100,获取受试者的语音信号及抑郁程度评分;
[0008]步骤s101,对受试者的语音信号进行预处理;
[0009]步骤s102,预处理的语音信号基于WavLM模型提取表征抑郁状态的语音特征,构建语音特征集;
[0010]步骤s103,将语音特征集分为训练集、验证集和测试集;训练集训练采用基于深度的监督学习下的机器学习方法,建立残差神经网络模型(ResNet)与长短期记忆递归神经网络模型(LSTM)以基于所述语音特征识别并分类抑郁症患者和健康受试者;
[0011]步骤s104,使用验证集对所述模型进行检验和优化;
[0012]步骤s105,使用测试集对优化模型进行性能评估;
[0013]步骤s106,确定最优化模型。
[0014]优选的,所述步骤s101,对受试者的语音信号进行预处理,包括以下步骤:
[0015]步骤s201,对原始语音信号进行预加重处理,进行高通滤波;
[0016]步骤s202,在预加重处理之后,将语音信号进行分帧处理,将信号分成帧;
[0017]步骤s203,在分帧处理之后,将语音信号的每一帧进行汉明窗加窗处理,减少信号
边缘的过渡效应;
[0018]步骤s204,在加窗处理之后,对分帧加窗后的各帧信号进行快速傅里叶变换,得到各帧的幅度和相位谱,由此将时域信号转换为频域信号;
[0019]步骤s205,在傅里叶变换之后,进行频域信号组合,将每个帧的频域信号组合成一个矩阵,即得到原始语音信号的频域表示。
[0020]优选的,所述预加重,将受试者的语音信号通过一个高通滤波器,以增强高频分量,减少低频分量,提高信噪比,得到经过预加重操作后的输出语音信号的样本值y(t);
[0021]y(t)=x(t)

αx(t

1)
[0022]其中x(t)表示输入信号的样本值,x(t

1)表示输入信号的前一个样本值,滤波器系数(α)的值通常取为0.95或0.97;
[0023]在预加重之后,需要将信号分成短时帧,因此在大多数情况下,语音信号是非平稳的,对整个信号进行傅里叶变换是没有意义的,因为随着时间的推移丢失信号的频率轮廓,语音信号是短时平稳信号,因此在短时帧上进行傅里叶变换,通过连接相邻帧来获得信号频率轮廓的良好近似;
[0024]所述分帧,将语音信号分成多个帧,每个帧的长度为N个采样点,相邻帧之间重叠部分为L个采样点;
[0025]所述加窗,将信号分割成帧后,我们再对每个帧乘以一个窗函数,如Hamming窗口,以增加帧左端和右端的连续性,来抵消FFT假设(数据是无限的),并减少频谱泄漏,汉明窗的函数形式W(n,a)如下:
[0026][0027]其中N是窗口长度,a=0.46,n表示窗口中的样本索引,取值范围为0≤n≤N

1;
[0028]加窗处理后的信号在时域上的函数y(t)表示为:
[0029][0030]其中,y(n)表示经预加重后第n个采样点的值,w(n

tL)为汉明窗函数,L为重叠长度,t表示第t帧;
[0031]由于信号在时域上的变换通常很难看出信号的特性,通常对它做快速傅里叶变换(FFT)转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。
[0032]所述傅里叶变换,对分帧加窗后的各帧信号进行N点FFT来计算频谱,也称为短时傅立叶变换(STFT),经过短时傅里叶变换后第i帧的频域表示的复数值S
i
(k)表示为:
[0033][0034]其中,s
i
(n)表示第i帧的时域信号y(n)与汉明窗函数w(n

tL)的乘积,即s
i
(n)=y(n)
×
w(n

tL),e

j2πin/N
表示旋转子,k表示频率索引,n表示时域样本索引,N表示信号长度,通常为256或512;
[0035]对加窗处理后时域信号表达式进行傅里叶变换,得到语音信号在频域上的函数Y(k,ω)表示为:
[0036][0037]其中,k表示第k个帧,ω表示角频率,Y(k,ω)表示第k个帧在角频率为ω处的频域值,y(n)表示时域信号,w(n

tL)表示汉明窗函数,e

jωn
表示旋转子,N表示信号长度,通常为256或512;
[0038]将上式转换为复数形式,得到:Y(k,ω)=A(k,ω)+jB(k,ω);
[0039]其中,A(k,ω)和B(k,ω)分别表示第k个帧在角频率为ω处实部和虚部;
[0040]所述频域信号组合,将傅里叶变换后的每个帧频域信号组合成一个矩阵,即得到原始语音信号的频域表示;
[0041]将傅里叶变换后所有帧的频域表示组合成一个矩阵Y:
[0042]Y=[Y(1,ω),Y(2,ω),...,Y(K,ω)][0043]其中,k为帧数,Y(k,ω)表示第k个帧在角频率为ω处的频域值;
[0044]由此得到原始语音信号的频域表示。
[0045]优选的,从经过预处理的语音信号中,基于WavLM模型提取表征抑郁状态的语音特征,构建语音特征集包括如下步骤;
[0046]根据模型预训练目标的不同,选择判别式的自监督预训练方法通过对比学习或者预测离散化索引(id)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音表征的抑郁症识别方法,其特征在于,包括以下步骤:步骤s100,获取受试者的语音信号及抑郁程度评分;步骤s101,对受试者的语音信号进行预处理;步骤s102,预处理的语音信号基于WavLM模型提取表征抑郁状态的语音特征,构建语音特征集;步骤s103,将语音特征集分为训练集、验证集和测试集;训练集训练采用基于深度的监督学习下的机器学习方法,建立残差神经网络模型与长短期记忆递归神经网络模型以基于所述语音特征识别并分类抑郁症患者和健康受试者;步骤s104,使用验证集对所述模型进行检验和优化;步骤s105,使用测试集对优化模型进行性能评估;步骤s106,确定最优化模型。2.根据权利要求1所述基于语音表征的抑郁症识别方法,其特征在于:所述步骤s101,对受试者的语音信号进行预处理,包括以下步骤:步骤s201,对原始语音信号进行预加重处理,进行高通滤波;步骤s202,在预加重处理之后,将语音信号进行分帧处理,将信号分成帧;步骤s203,在分帧处理之后,将语音信号的每一帧进行汉明窗加窗处理,减少信号边缘的过渡效应;步骤s204,在加窗处理之后,对分帧加窗后的各帧信号进行快速傅里叶变换,得到各帧的幅度和相位谱,由此将时域信号转换为频域信号;步骤s205,在傅里叶变换之后,进行频域信号组合,将每个帧的频域信号组合成一个矩阵,即得到原始语音信号的频域表示。3.根据权利要求2所述基于语音表征的抑郁症识别方法和系统,其特征在于:所述预加重,将受试者的语音信号通过一个高通滤波器,得到经过预加重操作后的输出语音信号的样本值y(t);y(t)=x(t)

αx(t

1)其中x(t)表示输入信号的样本值,x(t

1)表示输入信号的前一个样本值,滤波器系数(α)的值通常取为0.95或0.97;所述分帧,将语音信号分成多个帧,每个帧的长度为N个采样点,相邻帧之间重叠部分为L个采样点;所述加窗,将信号分割成帧后,我们再对每个帧乘以一个窗函数,以增加帧左端和右端的连续性,来抵消FFT假设,并减少频谱泄漏,汉明窗的函数形式W(n,a)如下:其中N是窗口长度,a=0.46,n表示窗口中的样本索引,取值范围为0≤n≤N

1;加窗处理后的信号在时域上的函数y(t)表示为:其中,y(n)表示经预加重后第n个采样点的值,w(n

tL)为汉明窗函数,L为重叠长度,t表示第t帧;
所述傅里叶变换,对分帧加窗后的各帧信号进行N点FFT来计算频谱,也称为短时傅立叶变换,经过短时傅里叶变换后第i帧的频域表示的复数值S
i
(k)表示为:其中,s
i
(n)表示第i帧的时域信号y(n)与汉明窗函数w(n

tL)的乘积,即s
i
(n)=y(n)
×
w(n

tL),e

j2πin/N
表示旋转子,k表示频率索引,n表示时域样本索引,N表示信号长度,通常为256或512;对加窗处理后时域信号表达式进行傅里叶变换,得到语音信号在频域上的函数Y(k,ω)表示为:其中,k表示第k个帧,w表示角频率,Y(k,ω)表示第k个帧在角频率为w处的频域值,y(n)表示时域信号,w(n

tL)表示汉明窗函数,e

jωn
表示旋转子,N表示信号长度,通常为256或512;将上式转换为复数形式,得到:Y(k,ω)=A(k,ω)+jB(k,ω);其中,A(k,ω)和B(k,ω)分别表示第k个帧在角频率为ω处的实部和虚部;所述频域信号组合,将傅里叶变换后的每个帧频域信号组合成一个矩阵,即得到原始语音信号的频域表示;将傅里叶变换后所有帧的频域表示组合成一个矩阵Y:Y=[Y(1,ω),Y(2,ω),...,Y(k,ω)]其中,k为帧数,Y(k,ω)表示第k个帧在角频率为ω处的频域值;由此得到原始语音信号的频域表示。4.根据权利要求1所述基于语音表征的抑郁症识别方法,其特征在于:从经过预处理的语音信号中,基于WavLM模型提取表征抑郁状态的语音特征,构建语音特征集包括如下步骤;根据模型预训练目标的不同,选择判别式的自监督预训练方法通过对比学习或者预测离散化索引(id)的方式对模型进行预训练;步骤S401、卷积神经网络编码器提取出抽象的时间特征;步骤S402、预训练中联合学习掩蔽语音预测和去噪。5.根据权利要求4所述基于语音表征的抑郁症识别方法,其特征在于:卷积神经网络编码器提取出抽象的时间特征包括:WavLM模型中的CNN encoder包含7层,每层都由一个时域卷积层、一个层归一化层和一个GELU激活函数层组成,以上三种层在卷积编码器中被重复使用7次,以提取出更加抽象的时间特征,并将这些特征传递到...

【专利技术属性】
技术研发人员:牛怡扬何亮
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1