当前位置: 首页 > 专利查询>重庆大学专利>正文

基于多类型组合特征参数的声纹识别方法技术

技术编号:11870582 阅读:94 留言:0更新日期:2015-08-12 20:53
本发明专利技术提供了一种基于多类型组合特征参数的声纹识别方法,包括以下步骤:语音信号的采集输入、语音信号预处理、语音信号组合特征参数提取:即提取MFCC、LPCC、ΔMFCC、ΔLPCC、能量、能量的一阶差分、GFCC特征参数共同组成多维特征向量、采用遗传算法对多维特征参数进行筛选、引入通用背景模型UBM训练得到说话人的声音模型、最后利用GMM-UBM模型对测试语音进行识别。与单一的语音信号特征参数进行声纹识别相比,采用组合特征参数并使用GMM-UBM模型的声纹识别系统,有效地提高了声纹识别的识别准确率和系统稳定性。

【技术实现步骤摘要】

本专利技术涉及语音信号处理领域,具体涉及一种基于多类型组合特征参数的声纹识 别方法。
技术介绍
在当今信息时代的前提下,作为信息安全的重要组成部分之一的身份识别技术引 来了新的挑战。传统的密码识别由于算法的局限性与硬软件解密技术的上升已经展现出了 它的弊端。作为身份识别的新技术之一,声纹识别技术,因其独特的方便性、经济性及准确 性等优点,受到人们越来越多的重视。 声纹识别,就是从说话人的一段语音中提取出说话人的个性特征,通过对个人特 征的分析与识别,从而达到对说话人进行辨认或者确认的目的。说话人识别并不注意语音 信号的内容,而是希望从语音信号中提取个人的特征,由于每个人独特的声道特性和发音 特点,使得说话人的语音信号具有区别于其他说话人的特征,这就是声纹识别的基本依据。 声纹识别的关键技术,主要是语音信号的特征参数提取和识别模型的建立。最常 用的语音信号的特征参数有两种:一种是根据人耳对不同频率的语音信号的敏感程度提取 的梅尔频率倒谱系数(MFCC),反映了说话人语音的听觉频率的非线性特性,在噪声中环境 中能体现优势;另一种是根据语音信号的全极点模型得到的线性预测倒谱系数(LPCC),反 映了说话人声道的生理结构差异。MFCC分析着眼于人耳的听觉特性,MEL频率尺度更符合 人耳的听觉特性,能很好的反映语音的特性。LPCC特征参数提取,是基于语音信号为自回归 信号的假设,利用线性预测分析从而获得倒谱参数。LPCC参数的最大优点是它能够极为精 确地估计语音参数,用很少的参数有效而又正确地表现语音波形机器频谱的性质,而且计 算效率高,且对元音有较好的表示能力,它缺点在于不能体现辅音的个性特征,抗噪声性能 较差,识别率容易受环境的影响。GFCC参数是根据人耳耳蜗的听觉响应特性模拟而来,通过 Gammatone滤波器模拟人耳处理声音的过程,即Gammatone滤波器倒谱系数,在说话人识别 系统中的表现要优于MFCC和LPCC。因此,采用MFCC、LPCC、GFCC组合特征参数,能够有效 地取长补短,使得声纹识别系统具有较好的识别率和稳定性。 目前声纹识别系统中的模式匹配方法主要有概率统计方法、动态时间规整(DTW)、 矢量量化(VQ)、隐马尔可夫模型(HMM)、人工神经网络方法(ANN)、支持向量机(SVM)、动态 贝叶斯网络(DBN)技术以及这些方法的组合技术等。 目前在文本无关说话人识别中,概率统计方法使用较为普遍,特别是高斯混合模 型(GMM),利用语音中的说话人信息在短时间内较为平稳,通过对稳态特征如基音、声门增 益等的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判决。但是训练语 音不足时,基于GMM的声纹识别系统的识别率急剧下降。为了克服因训练语音不够的而不 能够很好的刻画说话人的语音特征的缺陷,而引入了通用背景模型(UBM),从而产生了基于 GMM-UBM的说话人识别。
技术实现思路
本申请通过提供一种,包括以下步骤: 语音信号的采集输入、语音信号预处理、语音信号组合特征参数提取:即提取MFCC、LPCC、 Λ MFCC、Λ LPCC、能量、能量的一阶差分、GFCC特征参数共同组成多维特征向量、采用遗传 算法对多维特征参数进行筛选、引入通用背景模型UBM训练得到说话人的声音模型、最后 利用GMM-UBM模型对测试语音进行识别,以解决现有技术中利用单一语音参数进行声纹识 别的识别准确率不高以及声纹识别系统不稳定的技术问题。 为解决上述技术问题,本申请采用以下技术方案予以实现: 一种,包括如下步骤: Sl :语音信号的采集输入; S2 :语音信号的预处理,主要包括预加重、分帧和加窗处理; S3 :语音信号组合特征参数提取:提取MFCC、LPCC、AMFCC、A LPCC、能量、能量 的一阶差分以及GFCC特征参数共同组成多维特征向量,其中:MFCC为梅尔频率倒谱系数, LPCC为线性预测倒谱系数,Λ MFCC为MFCC的一阶差分,Λ LPCC为LPCC的一阶差分,GFCC 为Gammatone滤波器倒谱系数; S4 :利用遗传算法对步骤S3中的多维特征向量进行筛选,将GMM-UBM识别过程中 等错误率作为评价函数,选取使得等错误率最小的特征向量作为声纹识别的特征向量,其 中所述GMM-UBM为高斯混合模型与通用背景模型相结合的说话人识别模型; S5 :使用GMM-UBM训练得到说话人的声音模型,即将语音库随机选取相应数量的 语音训练得到UBM,然后利用最大后验准则自适应得到不同说话人的声音模型; S6:提取经遗传算法筛选后的测试语音的特征参数,利用步骤S5训练得到的 GMM-UBM模型,计算出对数概率得分,选择概率得分最大者,即为目标说话人。 其中步骤Sl中利用录音软件Cool Edit录制小语音库,去除静音段,并将噪声衰 减10dB,其中采用频率为16KHz,量化比特为16bit的wav文件,语音与文本无关的连续语 音。 步骤S2中的语音信号的预处理,主要包括预加重、分帧和加窗处理。 1、预加重:由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高倍频大 约在800Hz以上按6dB/倍频跌落,所以求语音信号频谱,频率越高对应的成分越小,高频部 分的频谱也越难求,为此要进行预加重处理。其目的是要提升高频部分,使信号的频谱变得 平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。预加重一般在语音信号 数字化之后,且预加重滤波器是一阶的,其滤波器的实现形式:H(Z) = 其中u-般 在(0.9,1)之间。截取一段语音信号,其中采样频率为16Khz,量化比特位为16,随意选取 256个采样值。 2、分帧、加窗:由于语音信号具有短时平稳当前第1页1 2 本文档来自技高网
...

【技术保护点】
一种基于多类型组合特征参数的声纹识别方法,其特征在于,包括如下步骤:S1:语音信号的采集输入;S2:语音信号的预处理,主要包括预加重、分帧和加窗处理;S3:语音信号组合特征参数提取:提取MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC特征参数共同组成多维特征向量,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;S4:利用遗传算法对步骤S3中的多维特征向量进行筛选,将GMM‑UBM识别过程中等错误率作为评价函数,选取使得等错误率最小的特征向量作为声纹识别的特征向量,其中所述GMM‑UBM为高斯混合模型与通用背景模型相结合的说话人识别模型;S5:使用GMM‑UBM训练得到说话人的声音模型,即将语音库随机选取相应数量的语音训练得到UBM,然后利用最大后验准则自适应得到不同说话人的声音模型;S6:提取经遗传算法筛选后的测试语音的特征参数,利用步骤S5训练得到的GMM‑UBM模型,计算出对数概率得分,选择概率得分最大者,即为目标说话人。

【技术特征摘要】

【专利技术属性】
技术研发人员:李勇明谢文宾王品刘玉川徐莎
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1