基于WMFCC和DNN的帕金森患者声纹识别方法技术

技术编号:20244466 阅读:18 留言:0更新日期:2019-01-29 23:54
本发明专利技术提出了一种利用WMFCC提取人们的声纹特征、DNN识别并分类的方法,用于区分帕金森患者和健康人。WMFCC通过计算患者声纹中倒谱系数的加权和系数,解决高阶倒谱系数小、特征分量对音频的表征能力差等问题。DNN训练并分类识别有效地提高系统精度,使用MBGD优化算法降低损失函数的计算量进而提高系统训练速度。利用PD(帕金森)database中样本训练并测试分类,提高了判别帕金森患者的准确率,为帕金森患者早期快速辅助诊断提供了良好的解决方案。

【技术实现步骤摘要】
基于WMFCC和DNN的帕金森患者声纹识别方法
:本专利技术涉及帕金森患者与健康人的声纹特征提取和判别分类,具体地说,是一种基于WMFCC和DNN的帕金森患者声纹识别方法,为PD患者早期快速辅助诊断提供了良好的解决方案。
技术介绍
:帕金森病(PD)是仅次于阿尔茨海默病的第二种常见神经系统疾病。声音障碍被认为是最早的疾病征兆之一。早期阶段,声音存在的细微异常对听者来说是不可察觉的,但可将记录的语音信号进行声学分析来客观评估。现有的PD检测是利用PET-CT显像设备检测多巴胺能神经元是否减少,但其价格高且有辐射性等原因使患者接受度较低。20世纪90年代,各种浅层机器学习模型相继被提出,其中支持向量机(SVM)最为突出。2015年Benba等人提出了梅尔倒谱系数(MFCC)和SVM用于PD患者的声纹分析来区分PD患者和健康人。2016年Benba等人进一步研究了SVM的多层感知器(MLP)核函数与其他核函数的对比情况,但利用MFCC提取特征存在高阶倒谱系数非常小等问题,核函数分类器计算量大、训练时间长,且判别准确性也有待提高。SVM等多数分类为浅层结构算法,局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限,而深度学习可通过学习一种深层非线性网络结构实现复杂函数逼近,并展现强大的从少数样本集中学习数据集本质特征的能力。本专利利用加权梅尔倒谱系数(Weighted-MFCC,WMFCC)提取声纹特征从而增强敏感分量,运用深度学习中深度神经网络(DNN)的多层神经网络识别分类,提高判别PD患者的准确性。
技术实现思路
:1、采用WMFCC(加权MFCC)来提取声纹特征,解决高阶倒谱系数非常小的问题,突出MFCC参数的敏感量。原理:语音特征参数的提取在声纹识别中是至关重要的。目前声纹识别领域中,提取特征最常用的为MFCC。语音信号是缓慢变化的,当它在短时间内被感知时,一般在10-30ms的时间间隔语音信号被认为是稳定的。因此应通过短时谱分析来计算,并使用Mel尺度来估计人耳的频率感知,是以1000Hz对应于1000Mel的方式计算的。本研究使用时间的语音质量、频谱和倒谱域以便制定更客观的评估来检测语音障碍。这些测量包括声带振动的基频、绝对的声压级、抖动、微光和调和。基于PD患者的发音特点,提取其中的特征参数进行分析。然而特征参数包含的各个分量对语音样本的声纹特征表征能力存在差异,传统的MFCC方法提取的声纹特征高阶倒谱系数小、特征分量对音频的表征能力差,为了增强辨识的敏感分量,本研究通过计算多维语料的熵值,分析各维特征参数对声纹表征的贡献度,采用熵值加权法提取声纹特征,从而提高系统的辨识精度。2、在帕金森诊断领域应用DNN来训练并分类,利用小批量梯度下降算法来优化DNN。目前,众多学者未利用深度学习领域的方法来判别PD患者的患病情况,本研究提出利用DNN来训练并分类PDdatabase中的样本集,并且为了解决梯度下降算法和随机梯度下降算法的不足,故选取了一种新的融合算法——小批量梯度下降(MBGD)算法,即在更新每一参数时都只计算小部分训练样本的损失函数。其小部分样本本文称为一个batch。一则,利用矩阵运算,在一个batch上优化神经网络的参数与单个样本相比速度相当。二则,每次使用小部分样本能够较大程度地减小收敛所需的迭代次数,在减小收敛的同时,得到的结果会更接近梯度下降算法的精确度。附图说明:图1是本专利技术基于WMFCC和DNN的帕金森患者声纹识别方法的实现PD患者和健康人分类的系统流程图。图2是本专利技术基于WMFCC和DNN的帕金森患者声纹识别方法的WMFCC提取流程图。图3是本专利技术基于WMFCC和DNN的帕金森患者声纹识别方法的MBGD优化算法的流程图。具体实施方式:步骤一:WMFCC声纹特征提取语音特征参数的提取在声纹识别中是至关重要的。目前声纹识别领域中,提取特征最常用的为MFCC。语音信号是缓慢变化的,当它在短时间内被感知时,一般在10-30ms的时间间隔语音信号被认为是稳定的。因此应通过短时谱分析来计算,并使用Mel尺度来估计人耳的频率感知,是以1000Hz对应于1000Mel的方式计算的。本技术使用时间的语音质量、频谱和倒谱域以便制定更客观的评估来检测语音障碍。这些测量包括声带振动的基频、绝对的声压级、抖动、微光和调和。基于PD患者的发音特点,提取其中的特征参数进行分析。然而特征参数包含的各个分量对语音样本的声纹特征表征能力存在差异,传统的MFCC方法提取的声纹特征高阶倒谱系数小、特征分量对音频的表征能力差,为了增强辨识的敏感分量,则通过计算多维语料的熵值,分析各维特征参数对声纹表征的贡献度,采用熵值加权法提取声纹特征,从而提高系统的辨识精度。具体提取流程如下:步骤11:预加重、分帧:为了消除发声过程中嘴唇和声带造成的效应,补偿语音信号受发音系统所压抑的高频部分并能突显高频的共振峰。所以将一阶差分方程应用到语音样本中来提高高频的幅值。实则是将语音信号通过一个高通滤波器:H(z)=1-kz-1式中k是预加重系数,应在0<k≤1范围,通常取0.97。分帧步骤中,语音信号被划分为N个样本帧。为避免相邻两帧变化过大,因此使两相邻帧之间存在一段重叠区域,该重叠区域包含了M个取样点,其中M<N。步骤12:加窗:加汉明窗的目的是减少信号的不连续性,使两端光滑,足以连接到开始。假设分帧后的信号为是s(n),n为帧的大小。其中{sn,n=1,...,N}。s'n形式如下:步骤13:快速傅立叶变换(FastFourierTransform,FFT):利用FFT将N个样本从时域转换为频域。使用FFT是因为它为一类快速算法,可实现离散傅立叶变换(DFT)。DFT是在N个样本集上定义的,设语音信号的DFT为:式中sk为输入的语音信号,N表示傅立叶变换的点数。步骤14:滤波器组分析:频域存在若干冗余信号,滤波器组可对频域的幅值进行精简。人耳对声音的感知并不是线性的,用log这种非线性关系更好描述,则Mel频率与语音信号的关系:其中Mel(f)表示梅尔频率,单位为mel,f为语音信号频率,单位为Hz。步骤15:离散余弦变换(DCT):该步进行反傅立叶变换,通过低通滤波器获得最后的低频信号,通过DCT对数滤波器组的振幅(mj)计算:其中N是滤波器组信道的个数。步骤16:加权:倒谱系数和系数的主要优点为彼此不相关,但高阶倒谱系数非常小,呈现的敏感分量不明显进而降低了提取有效特征的识别率和后续的分类识别率。故在MFCC的基础上使用了熵值法提高特征分量对声纹特征的表征能力,该方法计算简便且考虑了特征分量间的相互影响。熵值法是一种适合相互独立的变量之间计算权重的客观赋权方法,是根据计算分量的信息熵决定分量的权重。熵的值越大,则代表携带的信息越少,分量的权重也越小,反之结论仍然成立。因此,它是改变这些倒谱系数至关重要的一步。是通过以下方程实现:在PDdatabase语音样本的声纹特征中,MFCC=(M1,M2,M3,...,Mi,...,MN),其中Mi=(meli(1),...,meli(j),...,meli(D))为声纹特征的第i帧的特征向量,D为特征参数维数,N为语音样本的帧数,meli(j)为声纹特征第i帧的第j个本文档来自技高网...

【技术保护点】
1.一种基于WMFCC和DNN的帕金森患者声纹识别方法,其特征在于包括以下步骤:步骤一:WMFCC声纹特征提取具体步骤如下:步骤11:预加重、分帧:将语音信号通过一个高通滤波器:H(z)=1‑kz‑1,其中k是预加重系数,应在0<k≤1范围,通常取0.97;分帧步骤中,语音信号被划分为N个样本帧;该重叠区域包含M个取样点,其中M<N;步骤12:加窗:设分帧后的信号为s(n),n为帧的大小,{sn,n=1,...,N};s'n形式为:

【技术特征摘要】
1.一种基于WMFCC和DNN的帕金森患者声纹识别方法,其特征在于包括以下步骤:步骤一:WMFCC声纹特征提取具体步骤如下:步骤11:预加重、分帧:将语音信号通过一个高通滤波器:H(z)=1-kz-1,其中k是预加重系数,应在0<k≤1范围,通常取0.97;分帧步骤中,语音信号被划分为N个样本帧;该重叠区域包含M个取样点,其中M<N;步骤12:加窗:设分帧后的信号为s(n),n为帧的大小,{sn,n=1,...,N};s'n形式为:步骤13:FFT:利用FFT将N个样本从时域转换为频域;使用FFT实现DFT;设语音信号的DFT为:sk为输入的语音信号,N表示傅立叶变换的点数;步骤14:滤波器组分析:Mel频率与语音信号的关系:Mel(f)表示梅尔频率,f为语音信号频率;步骤15:DCT:通过DCT对数滤波器组的振幅mj计算:N是滤波器组信道的个数;步骤16:加权:PDdatabase的声纹特征,MFCC=(M1,M2,M3,...,Mi,...,MN),Mi=(meli(1),...,meli(j),...,meli(D))为声纹特征的第i帧的特征向量,D为特征参数维数,N为语音样本的帧数,meli(j)为声纹特征第i帧的第j个特征向量值;首先,将特征矩阵标准化:定义熵其中得特征分量的熵权:将MFCC各个分量的权重加权后,新参数:wMi=(w1·meli(1),...,wD·meli(D));接着,提取PD患者前20梅尔频率倒谱系数,其中系数范围为1~20,对应的特征值后利用熵值法加权方法计算其特征分量的权重;最后,用计算所有帧的平均值来得到每个人声纹的方式提取对应的声纹;步骤二:步骤21:DNN预训练的参数预训练算法:具体过程如下:若输入为连续特征,训练一个高斯-伯努利分布的RBM,若输入为二项分布特征,训练一个伯努利-伯努利分布的RB...

【专利技术属性】
技术研发人员:张颖徐志京
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1