当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于语音特征的抑郁情绪检测方法和装置制造方法及图纸

技术编号:38042133 阅读:8 留言:0更新日期:2023-06-30 11:08
本发明专利技术提供了一种基于语音特征的抑郁情绪检测方法,包括分别采集多位个体的语音数据,以及对应的抑郁指标量表得分,构建语音抑郁数据集;对采集的语音信号依次进行预加重、分帧加窗和端点检测处理;对预处理后的语音信号进行分帧,得到多个帧片段,计算每个帧片段的声学特征及统计学特征;将所述声学特征和抑郁量表的判断结果输入到长短时记忆网络模型中,训练语音抑郁状态识别模型;搭建基于安卓系统的APP,将数据预处理、特征提取和语音抑郁状态识别模型进行封装,部署到安卓系统后端程序中,形成基于语音特征的抑郁状态识别系统,应用于智能设备终端。本发明专利技术利用智能终端APP对抑郁状态判断结果进行管理,帮助佩戴者实时了解自身的身心健康状况。了解自身的身心健康状况。了解自身的身心健康状况。

【技术实现步骤摘要】
一种基于语音特征的抑郁情绪检测方法和装置


[0001]本专利技术涉及计算机辅助医疗诊断领域,特别是涉及一种基于语音特征的抑郁情绪检测方法和装置。

技术介绍

[0002]抑郁症是一种常见的精神类疾病,是指由各种原因引起的以显著和持久的抑郁症状群为主要临床特征的一类心境障碍,其核心症状包括情绪低落、兴趣减退、快感缺乏、思维迟缓和意志活动减退等,并可伴有妄想和幻觉等精神病性症状,严重者会导致自残乃至自杀。近年来,生活节奏加快、工作竞争激烈等因素,加重了人们的心理负担,容易导致心理和精神失调。世界卫生组织2017年统计报告表明,全球约有3.22亿抑郁障碍患者,且抑郁症发病率正呈现逐年升高的趋势。资料显示,2019年中国抑郁障碍终身患病率已高达6.8%,总人数超过9500万。
[0003]借助有效的诊断方法去预测其是否有抑郁症是减低病患自杀概率的有效途径,目前临床应用中对于抑郁症的诊断仍以主观量表为主,主要依靠临床医生主观判断进行问诊,结果准确程度取决于医生使用量表的熟练程度和患者的合作情况。寻求一个客观有效、非侵入性且与心理相关的可观测、可量化信号,帮助临床医生更加精确的掌握患者的病情是许多研究者的目标,语音信号以其易获取、非侵入、使用限制少等优势,吸引了很多研究人员的关注。根据临床诊断,正常人群和抑郁障碍患者在言语方面存在差异。根据临床表现统计显示,抑郁障碍患者的说话习惯会更加低沉,言语间停顿多而长。这些临床症状能有效区分正常人群和抑郁人群。
[0004]但是在语音抑郁识别这一研究领域依旧面临着挑战,如:语音特征选取的有效性。因此,本专利技术根据语音信号产生的生理机制,基于语音信号进行抑郁与非抑郁的划分,选取出二者具有显著差异的、可解释性强的语音特征。并基于Android软件开发平台完成抑郁症识别系统功能设计与实现,将实验研究成果转化为具有应用价值的系统化程序。

技术实现思路

[0005]为解决上述问题,本专利技术提供了一种基于语音特征的抑郁情绪检测方法和系统,通过寻找语音特征与抑郁症之间的联系,能够通过所采集的语音信号实现简单方便准确的抑郁状态识别。
[0006]为了达到上述目的,本专利技术提供如下技术方案:
[0007]一种基于语音特征的抑郁状态识别方法,包括如下步骤:
[0008]步骤10、分别采集多位个体的朗读和访谈语音数据,以及对应的抑郁评估量表得分,构建语音抑郁数据集;
[0009]步骤20、对采集的语音信号依次进行预加重、分帧加窗和端点检测处理;
[0010]步骤30、对预处理后的语音信号进行分帧,得到多个帧片段,计算每个帧片段的声学特征及统计学特征;
[0011]步骤40、将所述声学特征和抑郁评估量表的判断结果输入到长短时记忆网络模型中,训练语音抑郁状态识别模型;
[0012]步骤50、基于安卓系统搭建APP,将上述步骤中的数据预处理模块、特征提取模块和语音抑郁状态识别模型进行封装,并部署到安卓系统后端程序中,形成基于语音特征的抑郁状态识别系统,应用于智能设备终端。
[0013]进一步的,步骤10中,对被试者施以不同情景下的情绪语料刺激,包括“访谈”、“文本朗读”、“图片描述”三种情景,每种情境下均施加正向、中性、负向三种情绪刺激;采用智能设备作为录音装置进行录制,采集的录音数据以.wav格式保存;通过抑郁评估量表PHQ

9对每位被试者进行测评,并保存测评结果,作为每条语音信号的标签;
[0014]进一步的,步骤10中,将录制的音频文件按顺序存储在被试个体的文件夹中,并将被试的个人信息及抑郁量表测评结果保存;
[0015]进一步的,步骤20中,预加重主要使用6dB/倍频程的数字滤波器,一般是一个一阶的滤波器:H(z)=1

μz
‑1对语音信号进行加窗和分帧处理,将时变的语音信号划分为帧级信号,使用汉明窗w(n)与信号s(n)相乘,得到加窗后的语音信号:s
w
(n)=s(n)*w(n);使用短时能量双门限法进行端点检测;
[0016]进一步的,步骤30中,将语音切分为帧,对单个语音帧进行特征提取,得到包含基音频率、短时过零率、短时能量、共振峰、MFCC系数等语音特征,并在多个语音帧之间计算出均值、标准差、一阶均值、一阶方差统计学特征,最终组成特征向量;
[0017]进一步的,步骤30中,基于如下公式计算短时能量:
[0018][0019]其中,N为帧长(样本点个数),n表示第n帧,x
n
(m)为第n帧语音信号;
[0020]进一步的,步骤30中,基于如下公式计算短时过零率:
[0021][0022]式中,N为帧长(样本点个数),n表示第n帧,x
n
(m)为第n帧语音信号,sgn[]是符号函数,表达式如下:
[0023][0024]进一步的,步骤30中,基于自相关法,使用如下公式计算基音频率:
[0025][0026]其中,k=(

N+1)~N

1,N为帧长(样本点个数),n表示第n帧,x
n
(m)为第n帧语音信号。
[0027]进一步的,步骤30中,梅尔频率Mel(f)与声音频率f(单位为Hz)的关系可用下式近似表示:
[0028][0029]基于如下公式计算梅尔频率倒谱系数(MFCC):
L指MFCC系数阶数,本专利技术取2

13,M是三角滤波器个数;
[0030]标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。实验证明:把动、静态特征结合起来才能有效提高系统的识别性能。差分参数的计算可以采用下面的公式:
[0031][0032]式中,d
t
表示第t个一阶差分;C(t)表示第t个倒谱系数;Q表示倒谱系数的阶数;K表示一阶导数的时间差,可取1或2。将上式中结果再代入就可以得到二阶差分的参数。
[0033]将语音信号以帧为单位进行上述特征提取,然后通过统计函数计算统计特征参与语音情感识别。本专利技术使用均值、标准差、最大值、最小值四个统计量,对上述特征计算得到特征集。
[0034]进一步的,步骤40中,将每名被试语音信号的语音特征集和量表结果输入到长短时记忆网络中,训练得到抑郁状态识别效果最好的模型,实现依据输入的语音样本自动评估被试者的抑郁状态。
[0035]进一步的,步骤50中,所述安卓系统的前端界面分为输入和输出两个部分,输入部分即语音采集界面,将不同情境下的问题及文本显示在屏幕中,通过智能设备自带麦克风录制语音信号,并存储在智能设备终端;输出部分显示经模型分析的抑郁预测结果;
[0036]所述安卓系统后端程序包括语音信号的预处理模块、特征提取模块和语音抑郁状态识别模型,将步骤20

40的模块封装并部署到安卓系统中,实现语音抑郁状态的自动识别。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音特征的抑郁状态识别方法,其特征在于,包括如下步骤:步骤10、分别采集多位个体的语音数据,及对应的抑郁评估量表得分,构建语音抑郁数据集;步骤20、对采集的语音信号依次进行预加重、分帧加窗和端点检测处理;步骤30、对预处理后的语音信号进行分帧,得到多个帧片段,计算每个帧片段的声学特征及统计学特征;步骤40、将所述声学特征和抑郁评估量表的判断结果输入到长短时记忆网络模型中,训练语音抑郁状态识别模型;步骤50、基于安卓系统搭建APP,将上述步骤中的数据预处理、特征提取和语音抑郁状态识别模型进行封装,并部署到安卓系统后端程序中,形成基于语音特征的抑郁状态识别系统,应用于智能设备终端。2.根据权利要求1所述的一种基于语音特征的抑郁状态识别方法,其特征在于:步骤10中,对被试者施以不同情景下的情绪语料刺激,包括“访谈”、“文本朗读”、“图片描述”三种情景,每种情境下均施加正向、中性、负向三种情绪刺激;采用智能终端设备作为录音装置进行录制,采集的录音数据以.wav格式保存;通过抑郁评估量表PHQ

9对每位被试者进行测评,并保存测评结果,作为每条语音信号的标签;将录制的音频文件按顺序存储在被试个体的文件夹中,并将被试的个人信息及抑郁量表测评结果保存。3.根据权利要求1所述的一种基于语音特征的抑郁状态识别方法,其特征在于:步骤20中,预加重使用6dB/倍频程的数字滤波器,是一个一阶的滤波器:H(z)=1

μz
‑1对语音信号进行加窗和分帧处理,将时变的语音信号划分为帧级信号,使用汉明窗w(n)与信号s(n)相乘,得到加窗后的语音信号:s
w
(n)=s(n)*w(n);使用短时能量双门限法进行端点检测。4.根据权利要求1所述的一种基于语音特征的抑郁状态识别方法,其特征在于:步骤30中,将语音切分为帧,对单个语音帧进行特征提取,得到包含基音频率、短时过零率、短时能量、共振峰、MFCC系数的语音特征,并在多个语音帧之间计算出均值、标准差、一阶均值、一阶方差统计学特征,最终组成特征向量;基于如下公式计算短时能量:其中,N为帧长,即样本点个数,n表示第n帧,x
n
(m)为第n帧语音信号;基于如下公式计算短时过零率:式中,N为帧长,即样本点个数,n表示第n帧,x
n
(m)为第n帧语音信号,s...

【专利技术属性】
技术研发人员:刘澄玉辛雨赵鸣晖赵璐璐李建清
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1