The invention discloses an abnormal speech distinguishing method based on deep learning, which includes the following steps: acquiring input speech, resampling input speech, pre-emphasis, frame-by-frame windowing pre-processing, obtaining pre-processed speech, extracting characteristic vector of Mel frequency cepstrum coefficient for pre-processed speech, and adding different number of frames to speech. Segments are regularized to a fixed number of frames, and each voice segment gets a corresponding Mel frequency cepstrum coefficient characteristic matrix; a convolution depth confidence network is established; the Mel frequency cepstrum coefficient characteristic matrix is input into the convolution depth confidence network for training, and the input voice state is classified; according to the classification results, hidden voice is invoked. The Markov model matches the template to get the speech recognition result; The method maps the input MFCC features into higher dimension space by using multiple non-linear transformation layers of convolution depth confidence network, and uses hidden Markov model to model the speech of different states respectively, so as to improve the accuracy of speech recognition.
【技术实现步骤摘要】
一种基于深度学习的非常态语音区别方法
本专利技术涉及智能语音处理研究领域,特别涉及一种基于深度学习的非常态语音区别方法。
技术介绍
语音是人类和机器交互的重要方式之一,经过几十年的研究,语音识别技术得到很大的发展,已经深入到我们的日常生活中,然而,现有语音识别的研究有以下问题:现实生活中,说话人健康状况异常或者其他原因会导致其输入语音由常态语音向非常态语音转移,并且会带来较多噪声干扰。非常态语音一般指复杂背景噪声的语音、故意改变说话方式或习惯的语音、发育器官病变的语音等。另一个问题是,传统的语音识别系统往往采用线性预测倒谱系数和梅尔频率倒谱系数,这些底层声学特征中主要的信息是发音本文特征,说话人信息很容易受到本信息、信道和噪声信息的干扰,从而使系统的识别性能下降。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于深度学习的非常态语音区分方法,利用深度神经网络的非线性变换能力,将较低维的MFCC、LPCC参数映射到高维空间,更好的表征语音信号高层次抽象信息,并对常态语音和非常态语音分别建模,有效区分常态语音和非常态语音。本专利技术的目的通过以下的技术方案实现:一种基于深度学习的非常态语音区分方法,包括以下步骤:S1、获取输入语音,并对输入语音进行重采样、预加重、分帧加窗预处理,得到预处理语音;S2、利用梅尔频率滤波器组和傅里叶变换对预处理语音的每一帧语音提取梅尔频率倒谱系数特征矢量;S3、将具有不同帧数的语音段规整到固定帧数,每个语音段得到一个对应的梅尔频率倒谱系数特征矩阵;S4、建立卷积深度置信网络;S5、将梅尔频率倒谱系数特征矩阵 ...
【技术保护点】
1.一种基于深度学习的非常态语音区分方法,其特征在于,包括以下步骤:S1、获取输入语音,并对输入语音进行预处理,得到预处理语音,所述预处理包含重采样、预加重、分帧加窗;S2、利用梅尔频率滤波器组和傅里叶变换对预处理语音的每一帧语音提取梅尔频率倒谱系数特征矢量;S3、将具有不同帧数的语音段规整到固定帧数,每个语音段得到一个对应的梅尔频率倒谱系数特征矩阵;S4、建立卷积深度置信网络;S5、将梅尔频率倒谱系数特征矩阵输入卷积深度置信网络,进行训练,并对输入语音的状态进行分类;S6、根据分类结果,调用隐马尔可夫模型进行模板匹配,得到语音识别结果。
【技术特征摘要】
1.一种基于深度学习的非常态语音区分方法,其特征在于,包括以下步骤:S1、获取输入语音,并对输入语音进行预处理,得到预处理语音,所述预处理包含重采样、预加重、分帧加窗;S2、利用梅尔频率滤波器组和傅里叶变换对预处理语音的每一帧语音提取梅尔频率倒谱系数特征矢量;S3、将具有不同帧数的语音段规整到固定帧数,每个语音段得到一个对应的梅尔频率倒谱系数特征矩阵;S4、建立卷积深度置信网络;S5、将梅尔频率倒谱系数特征矩阵输入卷积深度置信网络,进行训练,并对输入语音的状态进行分类;S6、根据分类结果,调用隐马尔可夫模型进行模板匹配,得到语音识别结果。2.根据权利要求1所述的一种基于深度学习的非常态语音区分方法,其特征在于,步骤S1中,所述重采样其采样频率为22.05kHz,编码方式为wav格式;所述预加重采用一阶FIR高通滤波器,其传输函数为:H(z)=1-az-1,其中,a为高通滤波器系数,取值为0.93;预加重后的语音信号为:y(n)=sp(n)-sp(n-1),n=0,1,…,Length-1;其中,y(n)为预加重后的语音信号,sp(n)为预加重前的语音信号,sp(n-1)为语音信号的时移,Length为语音信号长度;所述分帧加窗具体为:将语音进行切片处理,每隔固定的时间截取输入语音中固定长度的音频信号为一帧,采用帧长为25ms,帧移为10ms的汉明窗进行分帧加窗处理。3.根据权利要求1所述的一种基于深度学习的非常态语音区分方法,其特征在于,所述步骤S2,具体为:V1、设计L个三角形形状的梅尔频率滤波器组,设Wl为第l个梅尔频率滤波器的频率响应,l=1,2,..,L,Fs为语音信号的重采样频率,Q为某帧语音信号的帧长,Q也为傅里叶变换的点数,fl,fh分别为语音信号的下限和上限截止频率,帧长为Q的某帧语音信号进行Q点快速傅里叶变换后得到Q个频率分量,o(l),c(l),h(l)分别为第l个梅尔频率滤波器的下限、中心及上限频率在Q个频率分量中的下标值;o(l),c(l),h(l)存在以下关系:c(l-1)=o(l),o(l+1)=c(l),h(l)=c(l+1),即,当前滤波器中心频率的位置在下一个滤波器的旁瓣衰减位置;同时有,o(l)|l=1=fl,h(l)|l=L=fh,因此,第l个梅尔频率滤波器的中心频率在Q个频率分量中的下标值表示为:其中,Mel(f1)为将实际频率映射到梅尔频率的函数,而Mel-1(f2)为Mel(f1)反函数,f1为实际频率,f2为梅尔频率:第l个梅尔频率滤波器的频率响应为:其中,k为第个频率分量在Q个频率分量中的下标值;V2、对经过重采样、预加重、分帧加窗后的某帧语音信号x(n),n=0,1,...,Q-1,Q<Length,进行Q点快速傅里叶变换,求得其频谱X(k)和幅度谱|X(k)|:V3、将某帧语音信号通过梅尔频率滤波器组,得到每个滤波器的输出幅度谱:V4、对所有滤波器的输出幅度谱做对数运算,再进一步做离散余弦变换即可得梅尔频率倒谱系数:取L个系数中的第2到第M+1共M个系数构成每帧的M维梅尔频率倒谱系数特征矢量C={cmfcc(2),cmfcc(3),...,cmfcc(M+1)}。4.根据权利要求1所述的一种基于深度学习的非常态语音区分方法,其特征在于,步骤S2中,所述梅尔频率倒谱系数特征矢量矩阵,维度是N×M,N是该段语音时间规整的目标帧数,M是每帧语音的M阶梅尔频率倒谱系数,所述梅尔频率倒谱系数为12维,即M=12。5.根据权利要求1所述的一种基于深度学习的非常态语音区分方法,其特征在于,步骤S3中,所述规整具体为:Y1、搭建一个n-N+1层的时间规整网络,其中N为时间规整的目标帧数,第一层的帧数为n,最后一层的帧数为N;时间规整网络第i层具有n-(i-1)帧,每帧对应一个特征矢量,构成n-(i-1)个特征矢量组:其中,为网络第i层第k帧语音的梅尔频率倒谱系数特征矢量;特别地,网络第一层的特征矢量组,即输入网络的特征矢量组:以表示矢量代表的语音帧的权重,当i=1时有:Y2、设表示和的距离,即对第i层,寻找j,使得对任意k≠j,有Y3、将距离最近的两帧合并,帧数减一,即:其中,表示网络第i+1层第j帧语音的梅尔频率倒谱系数特征矢量;表示网络第i层第j+1帧语音的梅尔频率倒谱系数特征矢量;表示网络第i+1层第k帧语音的梅尔频率倒谱系数特征矢量;表示网络第i层第k+1帧语音的梅尔频率倒谱系数特征矢量;表示网络第i层第j帧语音的权重;表示网络第i层第j+1帧语音的权重;表示网络第i+1层第j帧语音的权重;表示网络第i层第j帧语音和第j+1帧语音的梅尔频率倒谱系数特征矢量的距离;Y4、求解即:重复i=1到i=n-N+1,每执行完一次,帧数减一,最终将n帧的语音信号规整到固定的N帧。6.根据权利要求1所述的一种基于深度学习的非常态语音区分方法,其特征在于,步骤S4中,所述卷积深度置信网络由一个以上卷积受限波尔兹曼机自上而下堆积而成,输出层采用Softmax分类器;所述卷积受限玻尔兹曼机由一层输入层V和一层卷积层H构成。7.根据权利要求6所述的一种基于深度学习的非常态语音区分方法,其特征在于,所述卷积受限玻尔兹曼机,每个卷积受限玻尔兹曼机的卷积层H后加入池化层,进行池化操作,池化尺寸为E′...
【专利技术属性】
技术研发人员:奉小慧,陈光科,贺前华,巫小兰,李艳雄,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。