基于WMFCC和DNN的帕金森患者声纹识别方法技术

技术编号：20244466 阅读：40 留言：0更新日期：2019-01-29 23:54

本发明专利技术提出了一种利用WMFCC提取人们的声纹特征、DNN识别并分类的方法,用于区分帕金森患者和健康人。WMFCC通过计算患者声纹中倒谱系数的加权和系数，解决高阶倒谱系数小、特征分量对音频的表征能力差等问题。DNN训练并分类识别有效地提高系统精度，使用MBGD优化算法降低损失函数的计算量进而提高系统训练速度。利用PD(帕金森)database中样本训练并测试分类，提高了判别帕金森患者的准确率，为帕金森患者早期快速辅助诊断提供了良好的解决方案。

全部详细技术资料下载

【技术实现步骤摘要】
基于WMFCC和DNN的帕金森患者声纹识别方法
：本专利技术涉及帕金森患者与健康人的声纹特征提取和判别分类，具体地说，是一种基于WMFCC和DNN的帕金森患者声纹识别方法,为PD患者早期快速辅助诊断提供了良好的解决方案。
技术介绍
：帕金森病(PD)是仅次于阿尔茨海默病的第二种常见神经系统疾病。声音障碍被认为是最早的疾病征兆之一。早期阶段，声音存在的细微异常对听者来说是不可察觉的，但可将记录的语音信号进行声学分析来客观评估。现有的PD检测是利用PET-CT显像设备检测多巴胺能神经元是否减少，但其价格高且有辐射性等原因使患者接受度较低。20世纪90年代，各种浅层机器学习模型相继被提出，其中支持向量机(SVM)最为突出。2015年Benba等人提出了梅尔倒谱系数(MFCC)和SVM用于PD患者的声纹分析来区分PD患者和健康人。2016年Benba等人进一步研究了SVM的多层感知器(MLP)核函数与其他核函数的对比情况，但利用MFCC提取特征存在高阶倒谱系数非常小等问题，核函数分类器计算量大、训练时间长，且判别准确性也有待提高。SVM等多数分类为浅层结构算法，局限性在于...

【技术保护点】
1.一种基于WMFCC和DNN的帕金森患者声纹识别方法，其特征在于包括以下步骤：步骤一：WMFCC声纹特征提取具体步骤如下：步骤11：预加重、分帧：将语音信号通过一个高通滤波器：H(z)＝1‑kz‑1，其中k是预加重系数，应在0＜k≤1范围，通常取0.97；分帧步骤中，语音信号被划分为N个样本帧；该重叠区域包含M个取样点，其中M＜N；步骤12：加窗：设分帧后的信号为s(n)，n为帧的大小，{sn,n＝1,...,N}；s'n形式为：

【技术特征摘要】
1.一种基于WMFCC和DNN的帕金森患者声纹识别方法，其特征在于包括以下步骤：步骤一：WMFCC声纹特征提取具体步骤如下：步骤11：预加重、分帧：将语音信号通过一个高通滤波器：H(z)＝1-kz-1，其中k是预加重系数，应在0＜k≤1范围，通常取0.97；分帧步骤中，语音信号被划分为N个样本帧；该重叠区域包含M个取样点，其中M＜N；步骤12：加窗：设分帧后的信号为s(n)，n为帧的大小，{sn,n＝1,...,N}；s'n形式为：步骤13：FFT：利用FFT将N个样本从时域转换为频域；使用FFT实现DFT；设语音信号的DFT为：sk为输入的语音信号，N表示傅立叶变换的点数；步骤14：滤波器组分析：Mel频率与语音信号的关系：Mel(f)表示梅尔频率，f为语音信号频率；步骤15：DCT：通过DCT对数滤波器组的振幅mj计算：N是滤波器组信道的个数；步骤16：加权：PDdatabase的声纹特征，MFCC＝(M1,M2,M3,...,Mi,...,MN)，Mi＝(meli(1),...,meli(j),...,meli(D))为声纹特征的第i帧的特征向量，D为特征参数维数，N为语音样本的帧数，meli(j)为声纹特征第i帧的第j个特征向量值；首先，将特征矩阵标准化：定义熵其中得特征分量的熵权：将MFCC各个分量的权重加权后，新参数：wMi＝(w1·meli(1),...,wD·meli(D))；接着，提取PD患者前20梅尔频率倒谱系数，其中系数范围为1～20，对应的特征值后利用熵值法加权方法计算其特征分量的权重；最后，用计算所有帧的平均值来得到每个人声纹的方式提取对应的声纹；步骤二：步骤21：DNN预训练的参数预训练算法：具体过程如下：若输入为连续特征，训练一个高斯-伯努利分布的RBM，若输入为二项分布特征，训练一个伯努利-伯努利分布的RB...

【专利技术属性】
技术研发人员：张颖，徐志京，
申请(专利权)人：上海海事大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人