一种帕金森语音分类方法及系统、存储介质及终端技术方案

技术编号:33996821 阅读:27 留言:0更新日期:2022-07-02 11:05
本发明专利技术提供一种帕金森语音分类方法及系统、存储介质及终端,包括以下步骤:获取语音信号对应的MFCC,并基于所述MFCC构建MFCC特征图;对所述MFCC特征图进行共振峰特征判定;对所述共振峰特征判定结果进行深度学习,获取所述语音信号的帕金森语音分类结果。本发明专利技术的帕金森语音分类方法及系统、存储介质及终端基于共振峰聚类和MFCC特征图,通过深度学习实现帕金森语音分类,准确度高,实用性强。实用性强。实用性强。

【技术实现步骤摘要】
一种帕金森语音分类方法及系统、存储介质及终端


[0001]本专利技术涉及深度学习的
,特别是涉及一种帕金森语音分类方法及系统、存储介质及终端。

技术介绍

[0002]帕金森疾病是中老年人的常见病,患者表现为中枢神经系统的器质性损害。嗓音作为人类大脑、神经系统及多种发声器官共同作用的结果,与人的健康状况息息相关,大约90%的帕金森患者会出现语音方面的构音障碍,并且这个构音障碍往往在帕金森患者被确诊之前就会出现。因此,近年来出现了大量基于语音的帕金森诊断的研究。
[0003]近年来,随着深度学习算法飞速发展,其广泛应用于帕金森病的语音分类。现有技术中建立了许多帕金森病的数据集,如帕金森病分类数据集(PDCD),其将基频参数、谐波参数、重复周期密度熵(Recurrence Period Density Entropy,RPDE)、去渲染波动分析(Detrended fluctuation analysis,DFA)和基音周期熵(Pitch Period Entropy,PPE)视为基准特征并且设计出可调Q因子小波变换(tunable Q

factor wavelet transform,TWQT)特征。以Athanasios Tsanas博士为代表,Peker采用了基于声音特征和神经网络的方法,准确率达到98.1%。Guruler采用了基于聚类加权和复值神经网络的方法,即复值人工神经网络(CVANN),准确率达到99.5%。然而,由于每个受试者在数据集中有多个重复的语音记录,这些方法会导致实验结果的偏差。使用层叠波尔兹曼机组成深度神经网络的方法被称为深度信念网络,该网络常用于对于低维度上难以分离的数据进行分类。16年提出的应用于帕金森语音分类的深度信念网络同样也达到了较好效果。19年Yunus Korkmaz提出了基于遗传算法的元音分类,该数据集还是在小数据集上达到了接近100%的准确率。然而,虽然有许多基于元音的帕金森语音分类问题方面的研究,但是这些研究所基于的数据集,往往样本量很小。所得的实验结果很容易在小数据集上出现过拟合的现象,从而在实际情况下不能很好地发挥作用。

技术实现思路

[0004]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种帕金森语音分类方法及系统、存储介质及终端,基于共振峰聚类和Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征图,通过深度学习实现帕金森语音分类,准确度高,实用性强。
[0005]为实现上述目的及其他相关目的,本专利技术提供一种帕金森语音分类方法,包括以下步骤:获取语音信号对应的MFCC,并基于所述MFCC构建MFCC特征图;对所述MFCC特征图进行共振峰特征判定;对所述共振峰特征判定结果进行深度学习,获取所述语音信号的帕金森语音分类结果。
[0006]于本专利技术一实施例中,基于所述MFCC构建MFCC特征图包括以下步骤:
[0007]将所述MFCC的14个特征值在所述语音信号各时间点上的均值在二维坐标轴上进行描点,并用平滑曲线连接;
[0008]将所述MFCC的14个特征值在所述语音信号各时间点上的标准差在所述二维坐标轴上进行描点,并用平滑曲线连接。
[0009]于本专利技术一实施例中,所述MFCC的14个特征包括log_energy参数和0阶到12阶系数。
[0010]于本专利技术一实施例中,对所述MFCC特征图进行共振峰特征判定包括以下步骤:
[0011]获取共振峰参数;
[0012]基于所述共振峰参数对所述MFCC特征图进行共振峰特征判定。
[0013]于本专利技术一实施例中,获取共振峰参数包括以下步骤:
[0014]提取公有语音数据集中的三个共振峰及对应的三个带宽;
[0015]将所述三个共振峰的语音参数分别视为RGB三个通道的值,并将所述语音参数转换为RGB图像;
[0016]将所述三个共振峰对应的带宽分别视为空间直角坐标系中x轴、y轴和z轴上的深度信息;
[0017]将所述RGB图像按照RGB三个通道进行分离,以使每个像素点上携带有三个带宽对应的深度信息;
[0018]对所述像素点进行密度聚类,获取共振峰参数。
[0019]于本专利技术一实施例中,所述公有语音数据集采用帕金森病分类数据集。
[0020]于本专利技术一实施例中,对所述共振峰特征判定结果进行深度学习时,采用resnet神经网络,并添加有注意力模块和特征融合模块。
[0021]对应地,本专利技术提供一种帕金森语音分类系统,包括构建模块、判定模块和分类模块;
[0022]所述构建模块用于获取语音信号对应的MFCC,并基于所述MFCC构建MFCC特征图;
[0023]所述判定模块用于对所述MFCC特征图进行共振峰特征判定;
[0024]所述分类模块用于对所述共振峰特征判定结果进行深度学习,获取所述语音信号的帕金森语音分类结果。
[0025]本专利技术提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的帕金森语音分类方法。
[0026]本专利技术提供一种终端,包括:处理器及存储器;
[0027]所述存储器用于存储计算机程序;
[0028]所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述的帕金森语音分类方法。
[0029]如上所述,本专利技术的帕金森语音分类方法及系统、存储介质及终端,具有以下有益效果:
[0030](1)基于共振峰聚类和MFCC特征图,通过深度学习实现帕金森语音分类,准确度高;
[0031](2)只基于语音参数进行帕金森疾病分析,有效地保护了病人的隐私,且操作简单方便快捷;
[0032](3)基于声音特征的帕金森语音分类模型非常符合联邦学习的应用场景,在一定程度上解决了数据不足的问题,有助于对帕金森病的筛查和早期诊断。
附图说明
[0033]图1显示为本专利技术的帕金森语音分类方法于一实施例中的流程图;
[0034]图2显示为本专利技术的MFCC特征图于一实施例中的示意图;
[0035]图3显示为本专利技术的共振峰参数于一实施例中的示意图;
[0036]图4显示为本专利技术的帕金森语音分类系统于一实施例中的结构示意图;
[0037]图5显示为本专利技术的终端于一实施例中的结构示意图。
[0038]元件标号说明
[0039]41
ꢀꢀꢀꢀ
构建模块
[0040]42
ꢀꢀꢀꢀ
判定模块
[0041]43
ꢀꢀꢀꢀ
分类模块
[0042]51
ꢀꢀꢀꢀ
处理器
[0043]52
ꢀꢀꢀꢀ
存储器
具体实施方式
[0044]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种帕金森语音分类方法,其特征在于:包括以下步骤:获取语音信号对应的MFCC,并基于所述MFCC构建MFCC特征图;对所述MFCC特征图进行共振峰特征判定;对所述共振峰特征判定结果进行深度学习,获取所述语音信号的帕金森语音分类结果。2.根据权利要求1所述的帕金森语音分类方法,其特征在于:基于所述MFCC构建MFCC特征图包括以下步骤:将所述MFCC的14个特征值在所述语音信号各时间点上的均值在二维坐标轴上进行描点,并用平滑曲线连接;将所述MFCC的14个特征值在所述语音信号各时间点上的标准差在所述二维坐标轴上进行描点,并用平滑曲线连接。3.根据权利要求2所述的帕金森语音分类方法,其特征在于:所述MFCC的14个特征包括log_energy参数和0阶到12阶系数。4.根据权利要求1所述的帕金森语音分类方法,其特征在于:对所述MFCC特征图进行共振峰特征判定包括以下步骤:获取共振峰参数;基于所述共振峰参数对所述MFCC特征图进行共振峰特征判定。5.根据权利要求1所述的帕金森语音分类方法,其特征在于:获取共振峰参数包括以下步骤:提取公有语音数据集中的三个共振峰及对应的三个带宽;将所述三个共振峰的语音参数分别视为RGB三个通道的值,并将所述语音参数转换为RGB图像;将所述三个共振峰...

【专利技术属性】
技术研发人员:刘子琪刘立庄韩振奇赵丹
申请(专利权)人:中国科学院上海高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1