谱减法降噪下多语音特征融合的抑郁症检测方法技术

技术编号:28983339 阅读:52 留言:0更新日期:2021-06-23 09:32
本发明专利技术提供一种谱减法降噪下多语音特征融合的抑郁症检测方法。首先从语音样本文件中分离出被试者的语音信息,分割较长的语音数据,同时获取对应的PHQ‑8抑郁症筛查量表得分。其次,利用改进的谱减法进行语音增强,消除环境噪声对语音的影响,对增强后的语音采用短时傅里叶变换得到频谱图,同时,提取每个片段的MFCC及共振峰特征,进行音频差分归一化处理获取局部非个性化的抑郁特征。将三种特征融合输入到改进的时间卷积神经网络(Temporal Convolutional Network,TCN)模型中完成分类和回归任务,以F1得分和均方误差为评价指标,来判断多种语音特征融合的抑郁症检测方法的准确性,实验结果证明本发明专利技术所提出的方法可以作为检测抑郁症是否存在的低成本且高效的方法。

【技术实现步骤摘要】
谱减法降噪下多语音特征融合的抑郁症检测方法
本专利技术属于语音识别下的抑郁症检测领域,具体涉及一种谱减法降噪下多语音特征融合的抑郁症检测方法。
技术介绍
抑郁症是目前世界上最常见的精神疾病,已经成为全球范围内严重的公共卫生和社会问题,极大地损害了人类的身心健康,降低了人们的生活质量,给社会和个人造成了巨大的经济损失。现阶段,抑郁症主要是由专业医师在量表和问卷调查的基础上,结合自身经验对病人情况进行诊断。这种诊断模式严重依赖于医生的专业水平、病人的配合程度和病人对量表问题的理解程度,且费时费力,误诊率较高。随着深度学习的发展,越来越多的学者利用说话人的语音声学特征结合神经网络训练自动识别抑郁症,识别患者的精神状态。目前,自动郁抑症检测的方法可以分为两类:传统的机器学习方法和深度学习方法。传统机器学习方法选择梅尔频率倒谱系数(MFCCs)、能量、过零率、共振峰特征、光谱特征等。提取特征后再采用诸如高斯混合模型(GMM)、支持向量回归(SVR)等机器学习方法识别抑郁症。这种方法可以在不需要大量数据的情况下对模型进行训练,但可能会丢失一些关键特征,从而降低识别的准确性。而深度学习在提取高层语义特征上具有明显的优势,学者们设计CNN,LSTM等网络来自动提取语音中和抑郁症相关的更深层次特征,取得了一定的研究进展。这些方法提取音频的MFCCs特征、频谱图等特征输入到神经网络中,自动提取与抑郁症相关的深层次特征,最后进行决策分类。但是,并非所有的语音片段都包含与抑郁症相关的特征,比如静音和片段。这些语音片段不包含与抑郁症相关的特征,但是在训练过程中,将分类标签和整句的标签都设为抑郁症标签,降低了分类的准确率。因此,改进现有的抑郁症检测方法势在必行。
技术实现思路
本专利技术的目的是基于上述技术现状,提供一种谱减法降噪下多语音特征融合的抑郁症检测方法。一种谱减法降噪下多语音特征融合的抑郁症检测方法,其为利用抑郁症患者区别于正常人群的多种语音特征,构建多种语音特征融合的抑郁症检测方法,包括如下步骤:步骤1:从抑郁数据集中获取语音信号样本以及对应样本标签的PHQ-8值,将其一一对应,并抽取一部分样本集合作为测试集,另一部分样本集合作为训练集;步骤2:对语音信号进行分段处理,分离出被试者、虚拟采访者以及静默部分的语音部分,并去除后两项的语音部分,保留被试者的语音部分;步骤3:对被试者的语音信号进行预处理,滤除噪声,增强语音信号;步骤4:在步骤3增强的语音信号中提取MFCC特征、共振峰特征以及频谱图;步骤5:将步骤4提取得到的MFCC特征、共振峰特征、频谱图融合输入改进的TCN模型中对训练集进行学习,得到训练模型;将测试集输入训练模型,输出其对应的PHQ-8值,并识别抑郁程度。进一步,所述步骤2采用pyAudioAnalysis模块对语音信号进行分段处理。进一步,所述步骤3通过谱减法进行语音增强,具体步骤为:(1)对抑郁者语音信号加汉明窗消去直流分量,带噪声语音信号y(n)表示为:y(n)=p(n)+d(n),0≤n≤N-1其中p(n)为纯净信号,d(n)为噪声信号;(2)将y(n)变换为频域表示:Yw(ω)=Sw(ω)+Dw(ω)其中,Yw(ω),Sw(ω),Dw(ω)分别为y(n),s(n),d(n)的傅里叶变换,Dw(ω)的傅里叶系数为Nk,因此,|Yk|2=|Sk|2+|Nk|2+Sk·Nk*+Sk*·Nk其中,*表示复共轭,假定噪声与s(n)为不相关的,即互谱的统计均值为0,因此,E[|Yk|2]=E[|Sk|2]+E[|Nk|2](3)采用发语音前的无声部分,通过多帧平均来估计噪声,如下:|Yk|2=|Sk|2+λ(K)其中,λ(K)为静默部分时|Nk|2的统计平均值,即(4)由第三步可得原始语音的估计值为:(5)引入谱减功率修正系数m和谱减噪声系数对抑郁症语音进行增强,改进的谱减算法如下:进一步,所述步骤4中提取MFCC特征的具体步骤为:(1)预加重,通过一个高通滤波器来增强语音信号中的高频部分,并保持在低频到高频的整个频段中,能够使用同样的信噪比求频谱,选取的高通滤波器传递函数为:s(n)=x(n)-a*x(n-1)其中,x(n)为n时刻的采样频率,x(n-1)为上一时刻的采样频率,a为预加重系数,取值介于0.9-1.0之间,通常取a=0.97;(2)加窗,使用汉明窗进行加窗处理,此处采样率为16kHz,窗长25ms(400个采样点),窗间隔10ms(160个采样点),假设分帧后的信号为S(n),n=0,1,2…,N-1,其中N为帧的大小,进行加窗的处理则为:0=n=N-1(3)离散傅立叶变换(DFT),得到频谱上的能量分布,DFT的定义如下:0=k=N-1采用DFT长度N=512,结果值保留前257个系数。(4)使用梅尔刻度滤波器组过滤,对于快速傅里叶变换(FFT)得到的幅度谱,分别跟每一个滤波器进行频率相乘累加,得到该滤波器对应频段的能量值;(5)对每个滤波器产生的输出频谱能量取对数后便可得到系数Sm,再利用DCT将Sm转换到时域,便就得到MFCC系数c(m):m=1,2,…M1≤m≤M其中,X(k)、H(k)分别是时域信号,将频域拆分为两部分时域信号,分别为X(k)、H(k)。进一步,所述步骤4中提取共振峰的具体步骤为:(1)对语音信号进行加窗分帧,计算浊音基音周期(1:NN)点;(2)取倒谱的前1:NN点,加NN点汉明窗,对语音信号进行快速傅里叶变换(FFT)及对数运算;(3)将对数谱平滑处理,然后对峰值定位。进一步,所述步骤4利用短时傅里叶变换获得频谱图,在傅立叶变换中,使用时间窗口函数g(t-u)与源信号分f(t)的相乘,实现在u附近的加窗口和平移,然后进行傅立叶变换,短时傅立叶变换如下:Gf(ε,u)=∫f(t)g(t-u)ejεtdtt表示时间,ε为角频率,u为前u时间段内,t-u为从u时刻到t时刻,j为系数。进一步,所述步骤5将MFCC特征、共振峰特征、频谱图融合输入改进的TCN模型中对训练集进行学习,具体步骤如下:(1)特征输入,将MFCC特征、共振峰特征、频谱图输入到改进的TCN模型中,改进的TCN模型在Temporal-Block中添加了一个裁剪层(chomp),保证网络每一层的特征长度相等;(2)模型训练,语音数据的输入通道为513,训练时使用Adam优化器,训练20个epoch,dropout为0.05,batchsize为64,初始学习率为2e-2,通过二元交叉熵损失和均方误差(MSE)回归更新参数;(3)抑郁症判别,输出PHQ-8得分,用此得分进行分类和回归,判别被试者是否患抑郁症,若得分大于18,则分类为抑郁者,否则为正常人;本文档来自技高网
...

【技术保护点】
1.谱减法降噪下多语音特征融合的抑郁症检测方法,其特征在于,利用抑郁症患者区别于正常人群的多种语音特征,构建多种语音特征融合的抑郁症检测方法,所述方法包括如下步骤:/n步骤1:从抑郁数据集中获取语音信号样本以及对应样本标签的PHQ-8值,将其一一对应,并抽取一部分样本集合作为测试集,另一部分样本集合作为训练集;/n步骤2:对语音信号进行分段处理,分离出被试者、虚拟采访者以及静默部分的语音部分,并去除后两项的语音部分,保留被试者的语音部分;/n步骤3:对被试者的语音信号进行预处理,滤除噪声,增强语音信号;/n步骤4:在步骤3增强的语音数据中提取MFCC特征、共振峰特征以及频谱图;/n步骤5:将步骤4提取得到的MFCC特征、共振峰特征、频谱图融合输入改进的TCN模型中对训练集进行学习,得到训练模型;将测试集输入训练模型,输出其对应的PHQ-8值,并识别抑郁程度。/n

【技术特征摘要】
1.谱减法降噪下多语音特征融合的抑郁症检测方法,其特征在于,利用抑郁症患者区别于正常人群的多种语音特征,构建多种语音特征融合的抑郁症检测方法,所述方法包括如下步骤:
步骤1:从抑郁数据集中获取语音信号样本以及对应样本标签的PHQ-8值,将其一一对应,并抽取一部分样本集合作为测试集,另一部分样本集合作为训练集;
步骤2:对语音信号进行分段处理,分离出被试者、虚拟采访者以及静默部分的语音部分,并去除后两项的语音部分,保留被试者的语音部分;
步骤3:对被试者的语音信号进行预处理,滤除噪声,增强语音信号;
步骤4:在步骤3增强的语音数据中提取MFCC特征、共振峰特征以及频谱图;
步骤5:将步骤4提取得到的MFCC特征、共振峰特征、频谱图融合输入改进的TCN模型中对训练集进行学习,得到训练模型;将测试集输入训练模型,输出其对应的PHQ-8值,并识别抑郁程度。


2.根据权利要求1所述的谱减法降噪下多语音特征融合的抑郁症检测方法,所述步骤2采用pyAudioAnalysis模块对语音信号进行分段处理。


3.根据权利要求1所述的谱减法降噪下多语音特征融合的抑郁症检测方法,所述步骤3通过谱减法进行语音增强,具体步骤为:
(1)对抑郁者语音信号加汉明窗消去直流分量,带噪声语音信号y(n)表示为:
y(n)=p(n)+d(n),0≤n≤N-1
其中p(n)为纯净信号,d(n)为噪声信号;
(2)将y(n)变换为频域表示:
Yw(ω)=Sw(ω)+Dw(ω)
其中,Yw(ω),Sw(ω),Dw(ω)分别为y(n),s(n),d(n)的傅里叶变换,Dw(ω)的傅里叶系数为Nk,因此,
|Yk|2=|Sk|2+|Nk|2+Sk·Nk*+Sk*·Nk
其中,*表示复共轭,假定噪声与s(n)为不相关的,即互谱的统计均值为0,因此,
E[|Yk|2]=E[|Sk|2]+E[|Nk|2]
(3)采用发语音前的无声部分,通过多帧平均来估计噪声,如下:
|Yk|2=|Sk|2+λ(K)
其中,λ(K)为静默部分时|Nk|2的统计平均值,即
(4)由第三步可得原始语音的估计值为:



(5)引入谱减功率修正系数m和谱减噪声系数对抑郁症语音进行增强,改进的谱减算法如下:





4.根据权利要求1所述的谱减法降噪下多语音特征融合的抑郁症检测方法,所述步骤4中提取MFCC特征的具体步骤为:
(1)预加重,通过一个高通滤波器来增强语音信号中的高频部分,并保持在低频到高频的整个频段中,能够使用同样的信噪比求频谱,选取的高通滤波器传递函数为:
s(n)=x(n)-a*x(n-1)
其中,x(n)为n时刻的采样频率,x(n-1)为上一时刻的采样频率,a为预加重系数...

【专利技术属性】
技术研发人员:李明定张光华杨忠丽武海荣
申请(专利权)人:杭州医典智能科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1