一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法技术

技术编号:21402135 阅读:27 留言:0更新日期:2019-06-19 07:52
本发明专利技术公开了一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法,包括以下步骤:对各元音语音样本进行预处理:预加重、加窗分帧;从每个元音语音样本提取梅尔频率倒谱系数特征;为异常说话人和正常说话人的每个元音构建一个高斯混合模型;将各元音高斯混合模型的均值向量拼接成一个行矢量,计算元音谱空间衰减率;如果说话人测试样本的所有元音谱空间衰减率均值小于设定的阈值,则该说话人为异常说话人,否则为正常说话人。本发明专利技术利用异常说话人与正常说话人的元音谱空间分布特性差异,在特征层面区分异常说话人与正常说话人,无需构建复杂分类器,与传统区分方法相比,速度更快。

【技术实现步骤摘要】
一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法
本专利技术涉及语音信号处理
,具体涉及一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法。
技术介绍
异常说话人是指发音器官出现病变或受损或严重疲劳,不能发出正常语音的说话人。异常说话人的语音表现为含混不清晰、各个元音之间的差异性变小,谱空间分布明显缩小。因此,基于元音谱空间上的差异性分析,可以有效区分正常说话人和异常说话人,还可以对异常说话人语音的变异程度进行估计、估计异常变化可能的原因。另外,分析正常说话人和异常说话人的语音谱空间分布差异,也是提升异常说话人语音识别率的有效途径之一。目前常规的异常说话人与正常说话人的区分方法一般是:首先提取语音样本的各种音频特征,再训练复杂分类器进行判决。分类器的训练需要人工采集并标注大量的语音样本,费时费力。另外,分类器的性能与训练样本的特性及数量有关,当测试样本与训练样本特性差异较大时,分类器性能会急剧下降,区分效果差。因此,目前常规的区分方法存在以下不足:需要构建复杂分类器、分类器性能受训练样本影响、分类器训练时间长。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,利用异常语音和正常语音谱空间分布的差异性,提供一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法。本专利技术的目的可以通过采取如下技术方案达到:一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法,所述的区分方法包括以下步骤:S1、预处理:读入元音语音样本,并进行预加重、加窗分帧等处理;S2、提取梅尔频率倒谱系数特征:对每一帧语音进行傅里叶变换,利用梅尔滤波器组将傅里叶变换的线性谱转换为梅尔谱,获取每一帧语音的梅尔频率倒谱系数特征;S3、构建高斯混合模型:为异常说话人和正常说话人的每个元音构建一个高斯混合模型;S4、计算元音谱空间衰减率:将各个元音高斯混合模型的均值向量拼接成一个行矢量,计算元音谱空间衰减率;S5、异常说话人与正常说话人判决:如果说话人测试样本的所有元音谱空间衰减率均值小于设定的阈值,则该说话人为异常说话人,否则为正常说话人。进一步地,所述的步骤S1具体包括:S1.1、采用一阶高通滤波器进行预加重,一阶高通滤波器的传输函数为:H(z)=1-az-1式中,a为预加重系数,取值为0.98,经过预加重处理后的结果为:x(n)=y(n)-ay(n-1)其中x(n)为预加重处理后的语音信号,y(n)为预加重前的语音信号;S1.2、分帧:将预加重后的语音信号进行分帧处理,帧长25ms,帧移10ms;S1.3、加窗:将第t帧语音信号xt(n)与汉明窗函数相乘,实现加窗操作。进一步地,所述的步骤S2具体包括:S2.1、对预处理后的语音信号xt(n)进行快速傅里叶变换,得到每帧信号的线性频谱:式中,N为傅里叶变换的采样点数;S2.2、将上述线性频谱Xt(k)通过一组梅尔尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组,每个滤波器的中心频率记为f(m),0≤m≤M,f(m)之间的间隔随着m的增大而变宽,第m个三角形滤波器的频率响应定义为:式中,S2.3、计算每个滤波器组输出的对数能量:S2.4、经过离散余弦变换得到梅尔频率倒谱系数:式中,ct(p)表示第t帧语音信号的第p阶梅尔频率倒谱系数,这里M取13,加上13维一阶差分、13维二阶差分和帧能量,构成40维的梅尔频率倒谱系数特征。进一步地,所述的步骤S3中,异常说话人和正常说话人的语音样本包括五个元音/a/、/e/、/i/、/o/、/u/的发音,为每个元音构建一个高斯混合模型,并采用期望最大化算法迭代更新高斯混合模型参数,具体过程如下:S3.1、对于某组样本的梅尔频率倒谱系数特征C={ct,t=1,2,...,T},ct为第t帧梅尔频率倒谱系数,ct满足独立同分布,C输入高斯混合模型θ的输出概率为:式中,p(ct|θ)表示ct输入高斯混合模型θ的输出概率;S3.2、引入隐含变量z,通过期望最大化算法求解θ,对于每个样本,用Qt表示该样本隐含变量z服从某种分布,且满足:那么有:利用Jensen不等式,有:要使等号成立,必须使A为常数,又由于∑iQt(zi)=1,则∑ip(ct,zk|θ)=A,因此Qt(zk)满足:S3.3、执行期望最大化算法的E-step,对每个ct计算:Qt(zk),然后执行M-step,调整θ,极大化L(C|θ)的下界:反复迭代,直至收敛,即可求得最终的参数θ。S3.4、求解高斯混合模型的参数θ={wk,μk,Σk},则式中,wk表示权重,uk表示均值,∑k表示方差,且对密度函数取对数,并执行E-step后,得到第k个高斯成分的生成概率:执行M-step,引入拉格朗日乘子算法,得到参数θ={wk,μk,Σk}为:S3.5、对于异常说话人或正常说话人的某个元音v,其第k个高斯混合分量的均值矢量表示该元音梅尔频率倒谱系数特征在第k个高斯混合分量上的均值,表示该元音的第k个高斯混合分量所占总体的权重。进一步地,所述的步骤S4中,元音谱空间衰减率定义为:式中,r(v)表示待判决元音v的谱空间衰减率,表示待判决元音v的均值行矢量,表示正常说话人元音v的均值行矢量,Av[μp]表示待判决的五个元音的均值行矢量的均值:Av[μh]表示正常说话人五个元音的均值行矢量的均值:进一步地,所述的步骤S5中,由于异常说话人语音的异常程度不同,在谱空间上有不同程度的衰减,对于轻度异常说话人语音,衰减率一般在0.8至0.9,而对于重度异常说话人语音,衰减率可低至0.6左右;因此,通过设定合适阈值,可以区分正常说话人和异常说话人;谱空间衰减率的阈值设为thr(0<thr<1),若某个说话人的五个元音的谱空间衰减率均值大于thr,则判定为正常说话人,若小于thr,则判定为异常说话人。本专利技术相对于现有技术具有如下的优点及效果:本专利技术从异常说话人和正常说话人的元音谱空间分布差异特性出发,提出了一种区分异常说话人和正常说话人的指标——谱空间衰减率,在特征层面区分异常说话人与正常说话人,无需构建复杂分类器,与传统区分方法相比,速度更快。附图说明图1是本专利技术公开的一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法的流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例如图1所示,本实施例公开了一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法,包括以下步骤:步骤S1、读入元音语音样本,并进行预加重、加窗分帧等处理。具体为:步骤S1.1、预加重采用的滤波器为一阶高通滤波器,其传输函数为:H(z)=1-az-1式中,a为预加重系数,取值为0.98,经过预加重处理后的结果为:x(n)=y(n)-ay(n-1)其中,x(n)为预加重处理后的语音信号,y(n)为原始语音信号。步骤S1.2、加窗分帧处理是在预加重之后,将一整段语音信号分割成若干短段进行处理,通过移动有限长的窗口实现分帧,采用汉本文档来自技高网...

【技术保护点】
1.一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法,其特征在于,所述的区分方法包括以下步骤:S1、预处理:读入元音语音样本,并进行预加重、加窗分帧处理;S2、提取梅尔频率倒谱系数特征:对每一帧语音进行傅里叶变换,利用梅尔滤波器组将傅里叶变换的线性谱转换为梅尔谱,获取每一帧语音的梅尔频率倒谱系数特征;S3、构建高斯混合模型:为异常说话人和正常说话人的每个元音构建一个高斯混合模型;S4、计算元音谱空间衰减率:将各个元音高斯混合模型的均值向量拼接成一个行矢量,计算元音谱空间衰减率;S5、异常说话人与正常说话人判决:如果说话人测试样本的所有元音谱空间衰减率均值小于设定的阈值,则该说话人为异常说话人,否则为正常说话人。

【技术特征摘要】
1.一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法,其特征在于,所述的区分方法包括以下步骤:S1、预处理:读入元音语音样本,并进行预加重、加窗分帧处理;S2、提取梅尔频率倒谱系数特征:对每一帧语音进行傅里叶变换,利用梅尔滤波器组将傅里叶变换的线性谱转换为梅尔谱,获取每一帧语音的梅尔频率倒谱系数特征;S3、构建高斯混合模型:为异常说话人和正常说话人的每个元音构建一个高斯混合模型;S4、计算元音谱空间衰减率:将各个元音高斯混合模型的均值向量拼接成一个行矢量,计算元音谱空间衰减率;S5、异常说话人与正常说话人判决:如果说话人测试样本的所有元音谱空间衰减率均值小于设定的阈值,则该说话人为异常说话人,否则为正常说话人。2.根据权利要求1所述的一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法,其特征在于,所述的步骤S1具体包括:S1.1、采用一阶高通滤波器进行预加重,一阶高通滤波器的传输函数为:H(z)=1-az-1式中,a为预加重系数,经过预加重处理后的结果为:x(n)=y(n)-ay(n-1)其中x(n)为预加重处理后的语音信号,y(n)为预加重前的语音信号;S1.2、分帧:将预加重后的语音信号进行分帧处理,帧长25ms,帧移10ms;S1.3、加窗:将第t帧语音信号xt(n)与汉明窗函数相乘,实现加窗操作。3.根据权利要求1所述的一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法,其特征在于,所述的步骤S2包括:S2.1、对预处理后的语音信号xt(n)进行快速傅里叶变换,得到每帧信号的线性频谱:式中,N为傅里叶变换的采样点数;S2.2、将上述线性频谱Xt(k)通过一组梅尔尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组,每个滤波器的中心频率记为f(m),0≤m≤M,第m个三角形滤波器的频率响应定义为:式中,S2.3、计算每个滤波器组输出的对数能量:S2.4、经过离散余弦变换得到梅尔频率倒谱系数:式中,ct(p)表示第t帧语音信号的第p阶梅尔频率倒谱系数。4.根据权利要求1所述的一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法,其特征在于,所述的步骤S3中,异常说话人和正常说话人的语音样本包括/a/、/e/、/i/、/o/、/u/的发音,为...

【专利技术属性】
技术研发人员:王武城李艳雄刘名乐张聿晗
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1