一种声纹特征识别方法及系统技术方案

技术编号:15507937 阅读:130 留言:0更新日期:2017-06-04 02:25
本发明专利技术实施例提供一种声纹特征识别方法及系统,其中,该方法的具体实现过程为,对经预处理的含噪混合噪声进行基于听觉特性的语音分离处理后,提取信号的频率倒谱系数和感知线性预测系数,并利用噪声背景区分度,在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析完成特征融合,最后在预先建立的声纹特征模板库中,采用高斯混合模型‑通用背景模型对已完成融合的特征进行模式匹配,实现声纹特征识别。该种声纹特征识别方法将人类听觉系统特性与传统声纹识别方法相结合,从仿生学角度解决噪声下声纹识别率降低的问题,有效提升了噪声环境下声纹特征识别的准确率和系统的鲁棒性。

And a system of voiceprint recognition method

The embodiment of the invention provides a system and a voiceprint recognition method, the realization process of this method, based on the separation characteristics of auditory speech processing after the noisy mixed noise after preprocessing, frequency cepstral coefficients and perceptual linear prediction coefficient of signal extraction, and the use of background noise in the dividing area, under the different noise conditions of frequency cepstral coefficients and perceptual linear prediction coefficients for the analysis of the characteristics of fusion, finally in the voiceprint template library of pre built, the Gauss mixed model universal background model has been completed for the integration of the characteristics of pattern matching, to achieve voiceprint recognition. The voiceprint feature recognition method combining the characteristics of human auditory system and traditional voiceprint recognition methods, from the perspective of bionics to solve the problem of noise reduction of voiceprint recognition rate, effectively improve the accuracy and robustness of the system of voiceprint recognition in noisy environment.

【技术实现步骤摘要】
一种声纹特征识别方法及系统
本专利技术涉及声音识别
,具体而言,涉及一种声纹特征识别方法及系统。
技术介绍
早在20世纪30年代,声纹识别的研究就已经在信息科研工作者中展开了。在早期研究中,人耳听辨(Aural)实验和听音识别可行性验证是声纹识别领域的重点。随着计算机科技在硬件和算法中的突破,声纹识别的研究不再仅仅局限于单一的人耳听辨。美国Bell实验室在语音识别领域长期处于领先位置,实验室成员LG.Kesta通过对语音频谱图的分析完成识别,并由他首先提出了“声纹识别”这个概念。随着科研工作者在声纹识别领域不断的探索和创新,使机器自动分析并识别人类语音信号变成可能。但是,目前已有的声纹特征识别方法在噪声环境下的识别准确率都普遍较低,系统鲁棒性差,应用效果不佳。
技术实现思路
本专利技术的目的在于提供一种声纹特征识别方法及系统,以改善上述问题。本专利技术较佳实施例提供一种声纹特征识别方法,该方法包括:对输入的原始语音信号进行预处理,所述预处理包括预加重、分帧加窗以及端点检测;对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理;提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数;利用噪声背景区分度,在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合;及在预先建立的声纹特征模板库中,采用高斯混合模型-通用背景模型对已完成融合的特征进行模式匹配,实现声纹特征识别。本专利技术另一实施例提供一种声纹特征识别系统,该系统包括:预处理模块,用于对输入的原始语音信号进行预处理,所述预处理包括预加重、分帧加窗以及端点检测;语音分离模块,用于对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理;特征提取模块,用于提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数;特征融合模块,用于利用噪声背景区分度,在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合;及特征识别模块,用于在预先建立的声纹特征模板库中,采用高斯混合模型-通用背景模型对已完成融合的特征进行模式匹配,实现声纹特征识别。本专利技术实施例提供的声纹特征识别方法及系统,将人类听觉系统特性与传统声纹识别方法相结合,从仿生学角度解决噪声下声纹识别率降低的问题,有效提升了噪声环境下声纹识别的准确率和系统的鲁棒性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例提供的一种语音识别设备的方框示意图;图2为本专利技术实施例提供的一种声纹特征识别方法的流程图;图3为本专利技术实施例提供的双耳时间差的几何原理图;图4为本专利技术实施例提供的一种声纹特征识别系统的功能模块框图。图标:100-语音识别设备;110-声纹特征识别系统;120-存储器;130-处理器;1102-预处理模块;1104-语音分离模块;1106-特征提取模块;1108-特征融合模块;1110-特征识别模块。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,是本专利技术实施例提供的一种语音识别设备100的方框示意图。所述语音识别设备100包括声纹特征识别系统110、存储器120以及处理器130。其中,所述存储器120与处理器130之间直接或间接地电性连接,以进行数据传输或交互。所述声纹特征识别系统110包括至少一个可以软件或固件的形式存储于所述存储器120中或固化在所述语音识别设备100的操作系统中的软件功能模块。所述处理器130在存储控制器的控制下访问所述存储器120,以用于执行所述存储器120中存储的可执行模块,例如所述声纹特征识别系统110所包括的软件功能模块及计算机程序等。如图2所示,是本专利技术实施例提供的一种应用于图1所示的语音识别设备100中的声纹特征识别方法的流程示意图。所应说明的是,本专利技术提供的方法不以图2及以下所述的具体顺序为限制。下面将对图2所示的各步骤进行详细阐述。步骤S101,对输入的原始语音信号进行预处理,所述预处理包括预加重、分帧加窗以及端点检测。本实施例中,输入所述语音识别设备100的原始语音信号,首先过一阶FIR高通数字滤波器实现预加重,其传递函数为:H(Z)=1-μZ-1其中,系数μ取值为0至1之间,其取值可根据先验规律确定,通常可取0.94。然后,将预加重后得到的语音信号进行分帧,并乘以幅度为k的移动窗w(n-m)。k可以按一定函数取值,对分帧的各个取样值将有一定的加成。经分帧加窗处理后,得到的语音信号可表示为:其中,T[·]代表一种函数变换,x(m)表示语音信号序列,Q(n)表示各段经过处理后得到的时间序列。最后,检测语音信号的端点。本实施例中,主要通过短时能量和短时过零率实现语音信号的端点检测。具体地,短时能量表示为:其中,N表示分析窗宽度,S(n)表示第t帧语音信号中的第n个点的信号取样值。短时过零率表示为:其中,Sgn[·]表示过零率函数。步骤S103,对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理。本实施例中,对语音信号进行基于听觉特性的仿生分离处理的过程为,基于外围听觉模型将含噪混合信号进行分解处理得到时频单元后,依据语音分离线索对时频单元聚类,最终通过语音重构模型输出分离后的语音。语音重构模型完成时频单元的聚类和语音流合成,主要包括二值掩码聚类和重组合模型两部分。对于第i频率通道与第j时间帧的掩蔽模型可定义为下式:其中,fc=1500Hz表示高频和中低频的临界频率,fi表示第i频率通道的频率,τ(i,j)表示第i频率通道与第j时间帧的一个分离线索,L(i,j)表示第i频率通道与第j时间帧的另一个分离线索,Tτ(i,j)和Tl(i,j)分别表示上述两个分离线索的阈值。为了提高重构语音的还原度,首先要对待合成的信号进行韵律调整。所述韵律调整包括对语音的幅度、长度、基音等信息的调整。其中,对语音信号的幅度调整可通过加权的方式实现,权值公式表示为:式中的τ为信号帧长,n为帧移。重构公式为:式中的为得到的重组合信号,tj为重组合的同步标志,hj(n)为外围听觉模型中的窗函数,为短时语音信号,幅度的调整则由上述权值公式中的权值g实现。另外,本实施例中,所述语音分离线索可以是两耳时差(InterauralTimeDifference,ITD)或两耳声级差(InterauralLevelDifference,ILD)。从人耳听声辨位的角度出发,模拟人耳分辨声音的过程,将反映声音空间方位信息的语音分离线索ITD和ILD用于语音分离本文档来自技高网...
一种声纹特征识别方法及系统

【技术保护点】
一种声纹特征识别方法,其特征在于,该方法包括:对输入的原始语音信号进行预处理,所述预处理包括预加重、分帧加窗以及端点检测;对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理;提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数;利用噪声背景区分度,在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合;在预先建立的声纹特征模板库中,采用高斯混合模型‑通用背景模型对已完成融合的特征进行模式匹配,实现声纹特征识别。

【技术特征摘要】
1.一种声纹特征识别方法,其特征在于,该方法包括:对输入的原始语音信号进行预处理,所述预处理包括预加重、分帧加窗以及端点检测;对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理;提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数;利用噪声背景区分度,在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合;在预先建立的声纹特征模板库中,采用高斯混合模型-通用背景模型对已完成融合的特征进行模式匹配,实现声纹特征识别。2.根据权利要求1所述的声纹特征识别方法,其特征在于,对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理的步骤包括:将所述含噪混合信号进行分解,得到多个时频单元;依据语音分离线索对分解得到的所述多个时频单元进行聚类;对聚类后的待合成信号进行语音重构,输出分离后的语音。3.根据权利要求2所述的声纹特征识别方法,其特征在于,所述语音分离线索包括两耳时差和两耳声级差。4.根据权利要求2或3所述的声纹特征识别方法,其特征在于,依据语音分离线索对分解得到的所述多个时频单元进行聚类的步骤包括:依据掩蔽模型对所述多个时频单元进行二值掩码聚类,其中,fi表示第i频率通道的频率,fc表示高频与中低频间的临界频率,τ(i,j)表示第i频率通道与第j时间帧的一个分离线索,L(i,j)表示第i频率通道与第j时间帧的另一个分离线索,Tτ(i,j)和Tl(i,j)分别表示两个分离线索的阈值。5.根据权利要求2所述的声纹特征识别方法,其特征在于,对聚类后的待合成信号进行语音重构的步骤包括:对所述待合成信号进行韵律调整,所述韵律包括幅度、长度和基音;依据重构公式:对经韵律调整后的信号进行语音重构,其中,tj表示重构的同步标志,hj(n)表示窗函数,表示短时语音信号,gj表示幅度调整的权值。6.根据权利要求1所述的声纹特征识别方法,其特征在于,提取经语音分离...

【专利技术属性】
技术研发人员:徐晓东张程张毅
申请(专利权)人:重庆重智机器人研究院有限公司
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1