基于语音多尺度时域感知的抑郁状态预测方法及系统技术方案

技术编号:46622286 阅读:1 留言:0更新日期:2025-10-14 21:17
本发明专利技术公开一种基于语音多尺度时域感知的抑郁状态预测方法及系统,该方法包括:采集参与者朗读统一标准化文本的语音信号,并预处理后生成对应的Mel频谱图;利用光谱–时域特征提取算法提取时间上下文特征,得到联合特征表示;将联合特征沿时间维度进行多尺度划分,再将各个尺度的特征融合为全局特征;基于全局特征获得参与者的抑郁状态判别结果。本发明专利技术通过结合光谱–时域特征提取算法与帧级时间注意力,能够在Mel频谱上显式分析并精准定位句间停顿、犹豫停顿、词间过渡、共振峰模糊等抑郁语音的时域局部性特征,从而显著提高识别的准确性与结果的稳定性。

【技术实现步骤摘要】

本专利技术涉及精神医学与数据分析的交叉领域,具体是涉及到一种基于语音多尺度时域感知的抑郁状态预测方法及系统


技术介绍

1、抑郁症是一种常见且高患病率的情绪障碍,其早期识别和干预对于减轻社会与家庭负担、提高患者康复率具有重要意义。传统的抑郁症筛查方法主要依赖自评量表或临床访谈,存在主观性强、耗时长、依从性低等不足,难以满足大规模筛查与持续监测的需求。近年来,语音信号因其非接触、低成本、易获取等优势,逐渐成为心理健康评估的重要生物标志物,在临床辅助诊断与日常健康管理中具有广阔的应用前景。

2、在语音信号处理领域,mel频谱(mel spectrogram)是一种常用的时-频表示方法,通过模拟人耳对不同频率的非线性感知特性,将语音信号映射到与人类听觉感知一致的频率尺度,能够有效保留语音的声学细节特征。现有抑郁语音分析方法中,mel频谱已被广泛用于深度学习模型的输入,以捕捉与心理状态相关的频率模式和能量分布变化。研究表明,抑郁状态个体在mel频谱上往往呈现出特定的异常模式,例如语速减慢导致的频谱局部能量延长、频繁犹豫停顿造成的能量间断、共振峰模糊以及本文档来自技高网...

【技术保护点】

1.一种基于语音多尺度时域感知的抑郁状态预测方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于语音多尺度时域感知的抑郁状态预测方法,其特征在于,步骤S1所述采集参与者朗读统一标准化文本的语音信号,并进行预处理;具体为:

3.根据权利要求2所述的基于语音多尺度时域感知的抑郁状态预测方法,其特征在于,步骤S2所述将预处理后的语音信号按固定时长切分为多个不重叠语音段,以各段语音段分别生成对应的Mel频谱图;具体为:

4.根据权利要求1所述的基于语音多尺度时域感知的抑郁状态预测方法,其特征在于,步骤S3中利用卷积网络从所述Mel频谱图提取时间上下文...

【技术特征摘要】

1.一种基于语音多尺度时域感知的抑郁状态预测方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于语音多尺度时域感知的抑郁状态预测方法,其特征在于,步骤s1所述采集参与者朗读统一标准化文本的语音信号,并进行预处理;具体为:

3.根据权利要求2所述的基于语音多尺度时域感知的抑郁状态预测方法,其特征在于,步骤s2所述将预处理后的语音信号按固定时长切分为多个不重叠语音段,以各段语音段分别生成对应的mel频谱图;具体为:

4.根据权利要求1所述的基于语音多尺度时域感知的抑郁状态预测方法,其特征在于,步骤s3中利用卷积网络从所述mel频谱图提取时间上下文特征,具体为:

5.根据权利要求4所述的基于语音多尺度时域感知的抑郁状态预测方法,其特征在于,步骤s3中将时间上下文特征划分为若干个非重叠窗口,引入注意力机制,在窗口内并行计算频谱与时间两个维度的注意力,建模频谱与时间依赖关系,生成联合特征;具体为:

6.根据权利要求4所述的基于语音多尺度时域感知的抑郁状态预测方法,...

【专利技术属性】
技术研发人员:王菲肖瑶
申请(专利权)人:南京医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1