基于WMFCC和DNN的帕金森患者声纹识别方法技术

技术编号:20244466 阅读:40 留言:0更新日期:2019-01-29 23:54
本发明专利技术提出了一种利用WMFCC提取人们的声纹特征、DNN识别并分类的方法,用于区分帕金森患者和健康人。WMFCC通过计算患者声纹中倒谱系数的加权和系数,解决高阶倒谱系数小、特征分量对音频的表征能力差等问题。DNN训练并分类识别有效地提高系统精度,使用MBGD优化算法降低损失函数的计算量进而提高系统训练速度。利用PD(帕金森)database中样本训练并测试分类,提高了判别帕金森患者的准确率,为帕金森患者早期快速辅助诊断提供了良好的解决方案。

【技术实现步骤摘要】
基于WMFCC和DNN的帕金森患者声纹识别方法
:本专利技术涉及帕金森患者与健康人的声纹特征提取和判别分类,具体地说,是一种基于WMFCC和DNN的帕金森患者声纹识别方法,为PD患者早期快速辅助诊断提供了良好的解决方案。
技术介绍
:帕金森病(PD)是仅次于阿尔茨海默病的第二种常见神经系统疾病。声音障碍被认为是最早的疾病征兆之一。早期阶段,声音存在的细微异常对听者来说是不可察觉的,但可将记录的语音信号进行声学分析来客观评估。现有的PD检测是利用PET-CT显像设备检测多巴胺能神经元是否减少,但其价格高且有辐射性等原因使患者接受度较低。20世纪90年代,各种浅层机器学习模型相继被提出,其中支持向量机(SVM)最为突出。2015年Benba等人提出了梅尔倒谱系数(MFCC)和SVM用于PD患者的声纹分析来区分PD患者和健康人。2016年Benba等人进一步研究了SVM的多层感知器(MLP)核函数与其他核函数的对比情况,但利用MFCC提取特征存在高阶倒谱系数非常小等问题,核函数分类器计算量大、训练时间长,且判别准确性也有待提高。SVM等多数分类为浅层结构算法,局限性在于有限样本和计算单元情本文档来自技高网...

【技术保护点】
1.一种基于WMFCC和DNN的帕金森患者声纹识别方法,其特征在于包括以下步骤:步骤一:WMFCC声纹特征提取具体步骤如下:步骤11:预加重、分帧:将语音信号通过一个高通滤波器:H(z)=1‑kz‑1,其中k是预加重系数,应在0<k≤1范围,通常取0.97;分帧步骤中,语音信号被划分为N个样本帧;该重叠区域包含M个取样点,其中M<N;步骤12:加窗:设分帧后的信号为s(n),n为帧的大小,{sn,n=1,...,N};s'n形式为:

【技术特征摘要】
1.一种基于WMFCC和DNN的帕金森患者声纹识别方法,其特征在于包括以下步骤:步骤一:WMFCC声纹特征提取具体步骤如下:步骤11:预加重、分帧:将语音信号通过一个高通滤波器:H(z)=1-kz-1,其中k是预加重系数,应在0<k≤1范围,通常取0.97;分帧步骤中,语音信号被划分为N个样本帧;该重叠区域包含M个取样点,其中M<N;步骤12:加窗:设分帧后的信号为s(n),n为帧的大小,{sn,n=1,...,N};s'n形式为:步骤13:FFT:利用FFT将N个样本从时域转换为频域;使用FFT实现DFT;设语音信号的DFT为:sk为输入的语音信号,N表示傅立叶变换的点数;步骤14:滤波器组分析:Mel频率与语音信号的关系:Mel(f)表示梅尔频率,f为语音信号频率;步骤15:DCT:通过DCT对数滤波器组的振幅mj计算:N是滤波器组信道的个数;步骤16:加权:PDdatabase的声纹特征,MFCC=(M1,M2,M3,...,Mi,...,MN),Mi=(meli(1),...,meli(j),...,meli(D))为声纹特征的第i帧的特征向量,D为特征参数维数,N为语音样本的帧数,meli(j)为声纹特征第i帧的第j个特征向量值;首先,将特征矩阵标准化:定义熵其中得特征分量的熵权:将MFCC各个分量的权重加权后,新参数:wMi=(w1·meli(1),...,wD·meli(D));接着,提取PD患者前20梅尔频率倒谱系数,其中系数范围为1~20,对应的特征值后利用熵值法加权方法计算其特征分量的权重;最后,用计算所有帧的平均值来得到每个人声纹的方式提取对应的声纹;步骤二:步骤21:DNN预训练的参数预训练算法:具体过程如下:若输入为连续特征,训练一个高斯-伯努利分布的RBM,若输入为二项分布特征,训练一个伯努利-伯努利分布的RB...

【专利技术属性】
技术研发人员:张颖徐志京
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1