谱减法降噪下多语音特征融合的抑郁症检测方法技术

技术编号：28983339 阅读：52 留言：0更新日期：2021-06-23 09:32

本发明专利技术提供一种谱减法降噪下多语音特征融合的抑郁症检测方法。首先从语音样本文件中分离出被试者的语音信息，分割较长的语音数据，同时获取对应的PHQ‑8抑郁症筛查量表得分。其次，利用改进的谱减法进行语音增强，消除环境噪声对语音的影响，对增强后的语音采用短时傅里叶变换得到频谱图，同时，提取每个片段的MFCC及共振峰特征，进行音频差分归一化处理获取局部非个性化的抑郁特征。将三种特征融合输入到改进的时间卷积神经网络(Temporal Convolutional Network,TCN)模型中完成分类和回归任务，以F1得分和均方误差为评价指标，来判断多种语音特征融合的抑郁症检测方法的准确性，实验结果证明本发明专利技术所提出的方法可以作为检测抑郁症是否存在的低成本且高效的方法。

全部详细技术资料下载

【技术实现步骤摘要】
谱减法降噪下多语音特征融合的抑郁症检测方法
本专利技术属于语音识别下的抑郁症检测领域，具体涉及一种谱减法降噪下多语音特征融合的抑郁症检测方法。
技术介绍
抑郁症是目前世界上最常见的精神疾病，已经成为全球范围内严重的公共卫生和社会问题，极大地损害了人类的身心健康，降低了人们的生活质量，给社会和个人造成了巨大的经济损失。现阶段，抑郁症主要是由专业医师在量表和问卷调查的基础上，结合自身经验对病人情况进行诊断。这种诊断模式严重依赖于医生的专业水平、病人的配合程度和病人对量表问题的理解程度，且费时费力，误诊率较高。随着深度学习的发展，越来越多的学者利用说话人的语音声学特征结合神经网络训练自动识别抑郁症，识别患者的精神状态。目前，自动郁抑症检测的方法可以分为两类:传统的机器学习方法和深度学习方法。传统机器学习方法选择梅尔频率倒谱系数(MFCCs)、能量、过零率、共振峰特征、光谱特征等。提取特征后再采用诸如高斯混合模型(GMM)、支持向量回归(SVR)等机器学习方法识别抑郁症。这种方法可以在不需要大量数据的情况下对模型进行训练，但可能会丢失一些关键特征，从而降低识别的准确性。而深度学习在提取高层语义特征上具有明显的优势，学者们设计CNN，LSTM等网络来自动提取语音中和抑郁症相关的更深层次特征，取得了一定的研究进展。这些方法提取音频的MFCCs特征、频谱图等特征输入到神经网络中，自动提取与抑郁症相关的深层次特征，最后进行决策分类。但是，并非所有的语音片段都包含与抑郁症相关的特征，比如静音和片段。这些语音片段不包含与抑郁症相关的特征...

【技术保护点】
1.谱减法降噪下多语音特征融合的抑郁症检测方法，其特征在于，利用抑郁症患者区别于正常人群的多种语音特征，构建多种语音特征融合的抑郁症检测方法，所述方法包括如下步骤：/n步骤1：从抑郁数据集中获取语音信号样本以及对应样本标签的PHQ-8值，将其一一对应，并抽取一部分样本集合作为测试集，另一部分样本集合作为训练集；/n步骤2：对语音信号进行分段处理，分离出被试者、虚拟采访者以及静默部分的语音部分，并去除后两项的语音部分，保留被试者的语音部分；/n步骤3：对被试者的语音信号进行预处理，滤除噪声，增强语音信号；/n步骤4：在步骤3增强的语音数据中提取MFCC特征、共振峰特征以及频谱图；/n步骤5：将步骤4提取得到的MFCC特征、共振峰特征、频谱图融合输入改进的TCN模型中对训练集进行学习，得到训练模型；将测试集输入训练模型，输出其对应的PHQ-8值，并识别抑郁程度。/n

【技术特征摘要】
1.谱减法降噪下多语音特征融合的抑郁症检测方法，其特征在于，利用抑郁症患者区别于正常人群的多种语音特征，构建多种语音特征融合的抑郁症检测方法，所述方法包括如下步骤：
步骤1：从抑郁数据集中获取语音信号样本以及对应样本标签的PHQ-8值，将其一一对应，并抽取一部分样本集合作为测试集，另一部分样本集合作为训练集；
步骤2：对语音信号进行分段处理，分离出被试者、虚拟采访者以及静默部分的语音部分，并去除后两项的语音部分，保留被试者的语音部分；
步骤3：对被试者的语音信号进行预处理，滤除噪声，增强语音信号；
步骤4：在步骤3增强的语音数据中提取MFCC特征、共振峰特征以及频谱图；
步骤5：将步骤4提取得到的MFCC特征、共振峰特征、频谱图融合输入改进的TCN模型中对训练集进行学习，得到训练模型；将测试集输入训练模型，输出其对应的PHQ-8值，并识别抑郁程度。

2.根据权利要求1所述的谱减法降噪下多语音特征融合的抑郁症检测方法，所述步骤2采用pyAudioAnalysis模块对语音信号进行分段处理。

3.根据权利要求1所述的谱减法降噪下多语音特征融合的抑郁症检测方法，所述步骤3通过谱减法进行语音增强，具体步骤为：
(1)对抑郁者语音信号加汉明窗消去直流分量，带噪声语音信号y(n)表示为：
y(n)＝p(n)+d(n)，0≤n≤N-1
其中p(n)为纯净信号，d(n)为噪声信号；
(2)将y(n)变换为频域表示：
Yw(ω)＝Sw(ω)+Dw(ω)
其中，Yw(ω),Sw(ω),Dw(ω)分别为y(n),s(n),d(n)的傅里叶变换，Dw(ω)的傅里叶系数为Nk，因此，
|Yk|2＝|Sk|2+|Nk|2+Sk·Nk*+Sk*·Nk
其中，*表示复共轭，假定噪声与s(n)为不相关的，即互谱的统计均值为0，因此，
E[|Yk|2]＝E[|Sk|2]+E[|Nk|2]
(3)采用发语音前的无声部分，通过多帧平均来估计噪声，如下：
|Yk|2＝|Sk|2+λ(K)
其中，λ(K)为静默部分时|Nk|2的统计平均值，即
(4)由第三步可得原始语音的估计值为：

(5)引入谱减功率修正系数m和谱减噪声系数对抑郁症语音进行增强，改进的谱减算法如下：

4.根据权利要求1所述的谱减法降噪下多语音特征融合的抑郁症检测方法，所述步骤4中提取MFCC特征的具体步骤为：
(1)预加重，通过一个高通滤波器来增强语音信号中的高频部分，并保持在低频到高频的整个频段中，能够使用同样的信噪比求频谱，选取的高通滤波器传递函数为：
s(n)＝x(n)-a*x(n-1)
其中，x(n)为n时刻的采样频率，x(n-1)为上一时刻的采样频率，a为预加重系数...

【专利技术属性】
技术研发人员：李明定，张光华，杨忠丽，武海荣，
申请(专利权)人：杭州医典智能科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人