一种基于深度学习的非常态语音区别方法技术

技术编号:19347752 阅读:29 留言:0更新日期:2018-11-07 15:57
本发明专利技术公开了一种基于深度学习的非常态语音区分方法,包括以下步骤,获取输入语音,并对输入语音进行重采样、预加重、分帧加窗预处理,得到预处理语音;对预处理语音提取梅尔频率倒谱系数特征矢量;将不同帧数的语音段规整到固定帧数,每个语音段得到一个对应的梅尔频率倒谱系数特征矩阵;建立卷积深度置信网络;将梅尔频率倒谱系数特征矩阵输入卷积深度置信网络,进行训练,并对输入语音的状态进行分类;根据分类结果,调用隐马尔可夫模型进行模板匹配,得到语音识别结果;本发明专利技术利用卷积深度置信网络的多个非线性变换层、将输入的MFCC特征映射到更高维空间,并用隐马尔科夫模型对不同状态的语音分别建模,提高了语音的识别准确性。

A method of abnormal voice discrimination based on deep learning

The invention discloses an abnormal speech distinguishing method based on deep learning, which includes the following steps: acquiring input speech, resampling input speech, pre-emphasis, frame-by-frame windowing pre-processing, obtaining pre-processed speech, extracting characteristic vector of Mel frequency cepstrum coefficient for pre-processed speech, and adding different number of frames to speech. Segments are regularized to a fixed number of frames, and each voice segment gets a corresponding Mel frequency cepstrum coefficient characteristic matrix; a convolution depth confidence network is established; the Mel frequency cepstrum coefficient characteristic matrix is input into the convolution depth confidence network for training, and the input voice state is classified; according to the classification results, hidden voice is invoked. The Markov model matches the template to get the speech recognition result; The method maps the input MFCC features into higher dimension space by using multiple non-linear transformation layers of convolution depth confidence network, and uses hidden Markov model to model the speech of different states respectively, so as to improve the accuracy of speech recognition.

【技术实现步骤摘要】
一种基于深度学习的非常态语音区别方法
本专利技术涉及智能语音处理研究领域,特别涉及一种基于深度学习的非常态语音区别方法。
技术介绍
语音是人类和机器交互的重要方式之一,经过几十年的研究,语音识别技术得到很大的发展,已经深入到我们的日常生活中,然而,现有语音识别的研究有以下问题:现实生活中,说话人健康状况异常或者其他原因会导致其输入语音由常态语音向非常态语音转移,并且会带来较多噪声干扰。非常态语音一般指复杂背景噪声的语音、故意改变说话方式或习惯的语音、发育器官病变的语音等。另一个问题是,传统的语音识别系统往往采用线性预测倒谱系数和梅尔频率倒谱系数,这些底层声学特征中主要的信息是发音本文特征,说话人信息很容易受到本信息、信道和噪声信息的干扰,从而使系统的识别性能下降。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于深度学习的非常态语音区分方法,利用深度神经网络的非线性变换能力,将较低维的MFCC、LPCC参数映射到高维空间,更好的表征语音信号高层次抽象信息,并对常态语音和非常态语音分别建模,有效区分常态语音和非常态语音。本专利技术的目的通过以下的技术方案实现:一种基于深度学习的非常态语音区分方法,包括以下步骤:S1、获取输入语音,并对输入语音进行重采样、预加重、分帧加窗预处理,得到预处理语音;S2、利用梅尔频率滤波器组和傅里叶变换对预处理语音的每一帧语音提取梅尔频率倒谱系数特征矢量;S3、将具有不同帧数的语音段规整到固定帧数,每个语音段得到一个对应的梅尔频率倒谱系数特征矩阵;S4、建立卷积深度置信网络;S5、将梅尔频率倒谱系数特征矩阵输入卷积深度置信网络,进行训练,并对输入语音的状态进行分类;S6、根据分类结果,调用隐马尔可夫模型进行模板匹配,得到语音识别结果。在步骤S1中,重采样其采样频率为22.05kHz,编码方式为wav格式;预加重采用一阶FIR高通滤波器,其传输函数为:H(z)=1-az-1,其中,a为高通滤波器系数,取值为0.93;预加重后的语音信号为:y(n)=sp(n)-sp(n-1),n=0,1,…,Length-1其中,y(n)为预加重后的语音信号,sp(n)为预加重前的语音信号,sp(n-1)为语音信号的时移,Length为语音信号长度;分帧加窗具体为:将语音进行切片处理,每隔固定的时间截取输入语音中固定长度的音频信号为一帧,采用帧长为25ms,帧移为10ms的汉明窗进行分帧加窗处理。在步骤S2中,具体过程如下:V1、设计L个三角形形状的梅尔频率滤波器组,设Wl为第l个梅尔频率滤波器的频率响应,l=1,2,..,L,Fs为语音信号的重采样频率,Q为某帧语音信号的帧长,Q也为傅里叶变换的点数,fl,fh分别为语音信号的下限和上限截止频率,帧长为Q的某帧语音信号进行Q点快速傅里叶变换后得到Q个频率分量,o(l),c(l),h(l)分别为第l个梅尔频率滤波器的下限、中心及上限频率在Q个频率分量中的下标值;o(l),c(l),h(l)存在以下关系:c(l-1)=o(l),o(l+1)=c(l),h(l)=c(l+1),即,当前滤波器中心频率的位置在下一个滤波器的旁瓣衰减位置;同时有,o(l)|l=1=fl,h(l)|l=L=fh,因此,第l个梅尔频率滤波器的中心频率在Q个频率分量中的下标值表示为:其中,Mel(f1)为将实际频率映射到梅尔频率的函数,而Mel-1(f2)为Mel(f1)反函数,f1为实际频率,f2为梅尔频率:第l个梅尔频率滤波器的频率响应为:V2、对经过重采样、预加重、分帧加窗后的某帧语音信号x(n),n=0,1,...,Q-1,Q<Length,进行Q点快速傅里叶变换,求得其频谱X(k)和幅度谱|X(k)|:V3、将某帧语音信号通过梅尔频率滤波器组,得到每个滤波器的输出幅度谱:V4、对所有滤波器的输出幅度谱做对数运算,再进一步做离散余弦变换即可得梅尔频率倒谱系数:取L个系数中的第2到第M+1共M个系数构成每帧的M维梅尔频率倒谱系数特征矢量C={cmfcc(2),cmfcc(3),...,cmfcc(M+1)}。步骤S2中,所述梅尔频率倒谱系数特征矢量矩阵,其维度是N×M,N是该段语音规整后的固定帧数,即时间规整的目标帧数,M是每帧语音的M阶梅尔频率倒谱系数,所述梅尔频率倒谱系数为12维,即M=12。在步骤S3中,由于不同语音段的时间长度不同,因此不同语音段可能含有的帧数不一致,而又由于神经网络的输入必须是固定维数的,因此需要对语音信号进行时间规整,使得神经网络的输入是固定大小的;采用表征点序列法进行时间规整,规整具体为:Y1、搭建一个n-N+1层的时间规整网络,其中N为时间规整后的目标帧数,第一层的帧数为n,最后一层的帧数为N;时间规整网络第i层具有n-(i-1)帧,每帧对应一个特征矢量,构成n-(i-1)个特征矢量组:其中,i=0,1,…n-N+1,k=1,2…n-(i-1),表示网络第i层第k帧语音的梅尔频率倒谱系数特征矢量;特别地,网络第一层的特征矢量组,即输入网络的特征矢量组:以表示矢量代表的语音帧的权重,当i=1时有:Y2、设表示和的距离,即对第i层,寻找j,使得对任意k≠j,有Y3、将距离最近的两帧合并,帧数减一,即:其中,表示网络第i+1层第j帧语音的梅尔频率倒谱系数特征矢量;表示网络第i层第j+1帧语音的梅尔频率倒谱系数特征矢量;表示网络第i+1层第k帧语音的梅尔频率倒谱系数特征矢量;表示网络第i层第k+1帧语音的梅尔频率倒谱系数特征矢量;表示网络第i层第j帧语音的权重;表示网络第i层第j+1帧语音的权重;表示网络第i+1层第j帧语音的权重;表示网络第i层第j帧语音和第j+1帧语音的梅尔频率倒谱系数特征矢量的距离;Y4、求解即:重复i=1到i=n-N+1,每执行完一次,帧数减一,最终将n帧的语音信号规整到固定的N帧。步骤S4中,所述卷积深度置信网络由多个卷积受限波尔兹曼机自上而下堆积而成,输出层采用Softmax分类器;所述卷积受限玻尔兹曼机由一层输入层V和一层卷积层H构成。卷积受限玻尔兹曼机,每个卷积受限玻尔兹曼机的卷积层H后加入池化层,进行池化操作,池化尺寸为E′×F′,池化步长s3×s4,s3=s4=2,因此,下一卷积受限玻尔兹曼机的池化层是上一卷积受限玻尔兹曼机的输入层。步骤S5,先对底层的卷积受限玻尔兹曼机进行训练,再对顶层的卷积受限玻尔兹曼机进行训练,具体为:Z1、设卷积受限玻尔兹曼机的输入通道数为I,每一个通道对应大小为y×s的二维矩阵,即:V={v1,v2,...,vI},vi∈Ry×s,i=1,2,...,I,其中,V为卷积受限波尔兹曼机的输入层,vi∈Ry×s为输入层的第i个通道;特别地,底层的卷积受限玻尔兹曼机中,I=1,y=N,s=M,即底层的卷积受限玻尔兹曼机的输入通道数为1,对应输入卷积深度置信网络的大小为N×M的二维梅尔频率倒谱系数特征矩阵,N为时间规整的目标帧数,M是每帧语音的M阶梅尔频率倒谱系数;Z2、卷积过程使用O个卷积核,每个卷积核是三维权值矩阵I×E×F,即卷积核W={w1,w2,...,wO},其中wj∈RI×E×F,j=1,2,...,O,wj为第个卷积核;因此卷积受限玻尔兹曼机的输出通道本文档来自技高网...

【技术保护点】
1.一种基于深度学习的非常态语音区分方法,其特征在于,包括以下步骤:S1、获取输入语音,并对输入语音进行预处理,得到预处理语音,所述预处理包含重采样、预加重、分帧加窗;S2、利用梅尔频率滤波器组和傅里叶变换对预处理语音的每一帧语音提取梅尔频率倒谱系数特征矢量;S3、将具有不同帧数的语音段规整到固定帧数,每个语音段得到一个对应的梅尔频率倒谱系数特征矩阵;S4、建立卷积深度置信网络;S5、将梅尔频率倒谱系数特征矩阵输入卷积深度置信网络,进行训练,并对输入语音的状态进行分类;S6、根据分类结果,调用隐马尔可夫模型进行模板匹配,得到语音识别结果。

【技术特征摘要】
1.一种基于深度学习的非常态语音区分方法,其特征在于,包括以下步骤:S1、获取输入语音,并对输入语音进行预处理,得到预处理语音,所述预处理包含重采样、预加重、分帧加窗;S2、利用梅尔频率滤波器组和傅里叶变换对预处理语音的每一帧语音提取梅尔频率倒谱系数特征矢量;S3、将具有不同帧数的语音段规整到固定帧数,每个语音段得到一个对应的梅尔频率倒谱系数特征矩阵;S4、建立卷积深度置信网络;S5、将梅尔频率倒谱系数特征矩阵输入卷积深度置信网络,进行训练,并对输入语音的状态进行分类;S6、根据分类结果,调用隐马尔可夫模型进行模板匹配,得到语音识别结果。2.根据权利要求1所述的一种基于深度学习的非常态语音区分方法,其特征在于,步骤S1中,所述重采样其采样频率为22.05kHz,编码方式为wav格式;所述预加重采用一阶FIR高通滤波器,其传输函数为:H(z)=1-az-1,其中,a为高通滤波器系数,取值为0.93;预加重后的语音信号为:y(n)=sp(n)-sp(n-1),n=0,1,…,Length-1;其中,y(n)为预加重后的语音信号,sp(n)为预加重前的语音信号,sp(n-1)为语音信号的时移,Length为语音信号长度;所述分帧加窗具体为:将语音进行切片处理,每隔固定的时间截取输入语音中固定长度的音频信号为一帧,采用帧长为25ms,帧移为10ms的汉明窗进行分帧加窗处理。3.根据权利要求1所述的一种基于深度学习的非常态语音区分方法,其特征在于,所述步骤S2,具体为:V1、设计L个三角形形状的梅尔频率滤波器组,设Wl为第l个梅尔频率滤波器的频率响应,l=1,2,..,L,Fs为语音信号的重采样频率,Q为某帧语音信号的帧长,Q也为傅里叶变换的点数,fl,fh分别为语音信号的下限和上限截止频率,帧长为Q的某帧语音信号进行Q点快速傅里叶变换后得到Q个频率分量,o(l),c(l),h(l)分别为第l个梅尔频率滤波器的下限、中心及上限频率在Q个频率分量中的下标值;o(l),c(l),h(l)存在以下关系:c(l-1)=o(l),o(l+1)=c(l),h(l)=c(l+1),即,当前滤波器中心频率的位置在下一个滤波器的旁瓣衰减位置;同时有,o(l)|l=1=fl,h(l)|l=L=fh,因此,第l个梅尔频率滤波器的中心频率在Q个频率分量中的下标值表示为:其中,Mel(f1)为将实际频率映射到梅尔频率的函数,而Mel-1(f2)为Mel(f1)反函数,f1为实际频率,f2为梅尔频率:第l个梅尔频率滤波器的频率响应为:其中,k为第个频率分量在Q个频率分量中的下标值;V2、对经过重采样、预加重、分帧加窗后的某帧语音信号x(n),n=0,1,...,Q-1,Q<Length,进行Q点快速傅里叶变换,求得其频谱X(k)和幅度谱|X(k)|:V3、将某帧语音信号通过梅尔频率滤波器组,得到每个滤波器的输出幅度谱:V4、对所有滤波器的输出幅度谱做对数运算,再进一步做离散余弦变换即可得梅尔频率倒谱系数:取L个系数中的第2到第M+1共M个系数构成每帧的M维梅尔频率倒谱系数特征矢量C={cmfcc(2),cmfcc(3),...,cmfcc(M+1)}。4.根据权利要求1所述的一种基于深度学习的非常态语音区分方法,其特征在于,步骤S2中,所述梅尔频率倒谱系数特征矢量矩阵,维度是N×M,N是该段语音时间规整的目标帧数,M是每帧语音的M阶梅尔频率倒谱系数,所述梅尔频率倒谱系数为12维,即M=12。5.根据权利要求1所述的一种基于深度学习的非常态语音区分方法,其特征在于,步骤S3中,所述规整具体为:Y1、搭建一个n-N+1层的时间规整网络,其中N为时间规整的目标帧数,第一层的帧数为n,最后一层的帧数为N;时间规整网络第i层具有n-(i-1)帧,每帧对应一个特征矢量,构成n-(i-1)个特征矢量组:其中,为网络第i层第k帧语音的梅尔频率倒谱系数特征矢量;特别地,网络第一层的特征矢量组,即输入网络的特征矢量组:以表示矢量代表的语音帧的权重,当i=1时有:Y2、设表示和的距离,即对第i层,寻找j,使得对任意k≠j,有Y3、将距离最近的两帧合并,帧数减一,即:其中,表示网络第i+1层第j帧语音的梅尔频率倒谱系数特征矢量;表示网络第i层第j+1帧语音的梅尔频率倒谱系数特征矢量;表示网络第i+1层第k帧语音的梅尔频率倒谱系数特征矢量;表示网络第i层第k+1帧语音的梅尔频率倒谱系数特征矢量;表示网络第i层第j帧语音的权重;表示网络第i层第j+1帧语音的权重;表示网络第i+1层第j帧语音的权重;表示网络第i层第j帧语音和第j+1帧语音的梅尔频率倒谱系数特征矢量的距离;Y4、求解即:重复i=1到i=n-N+1,每执行完一次,帧数减一,最终将n帧的语音信号规整到固定的N帧。6.根据权利要求1所述的一种基于深度学习的非常态语音区分方法,其特征在于,步骤S4中,所述卷积深度置信网络由一个以上卷积受限波尔兹曼机自上而下堆积而成,输出层采用Softmax分类器;所述卷积受限玻尔兹曼机由一层输入层V和一层卷积层H构成。7.根据权利要求6所述的一种基于深度学习的非常态语音区分方法,其特征在于,所述卷积受限玻尔兹曼机,每个卷积受限玻尔兹曼机的卷积层H后加入池化层,进行池化操作,池化尺寸为E′...

【专利技术属性】
技术研发人员:奉小慧陈光科贺前华巫小兰李艳雄
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1