一种面向智能移动设备的声纹识别方法技术

技术编号:11203631 阅读:124 留言:0更新日期:2015-03-26 11:37
本发明专利技术公开了一种面向智能移动设备的声纹识别方法,以智能手机等计算资源相对有限的移动设备上的声纹识别为应用场景,方法的目的在于在不影响辨认准确度的前提下尽可能降低声纹识别方法的时间复杂度,具体包括说话人模型训练和目标说话人识别两个阶段。在说话人模型训练阶段,通过将每个说话人VQ码本中码字的重要性反应在权值的分配上;在声纹识别阶段,仅将提取出的特征向量与权值最大的K个码字进行匹配,从而有效地降低了系统的计算复杂度,提高了系统的识别速率。

【技术实现步骤摘要】

本专利技术属于声纹识别领域,具体涉及一种面向智能移动设备的声纹识别方法
技术介绍
声纹识别(也称说话人识别)技术是一项根据语音波形中反映说话人生理和行为特征的语音参数,来识别待测语音话者身份的技术。对声纹识别的研究始于20世纪30年代,早期的工作主要集中在用人耳进行听辨语音的实验和探讨听音识别的可能性方面。随着电子技术和计算机技术的发展,通过机器自动识别人的语音成为可能。Bell实验室的Pruzansky提出了一种基于模式匹配和概率统计方差分析的声纹识别方法,从而引起信号处理领域许多学者的注意,形成了说话人识别研究的一个热潮。这期间主要工作集中在各种识别参数的提取、选择和实验上。20世纪70年代至今,声纹识别的研究重点主要在对各种声学特征参数的线性或非线性处理以及新的模式匹配方法上。声纹识别技术有着十分广阔的应用前景:在刑侦领域,可以用于协助确认犯罪嫌疑人信息;在银行等重要部门的安全系统中,可以用于身份核查的一种手段;在日常活动中,可以用于个人身份认证,如声纹锁、声纹门禁系统等。与其它采用同样采用人体生物特征的识别技术(如指纹识别技术、人脸识别技术等)相比,声纹识别显得更加直接友好,同时也更不容易被模仿。声纹识别的研究自其诞生以来就获得了较为广泛的关注,同时也取得了很大的成果。九十年代,D.Reynolds首次将高斯混合模型(Gaussian Mixture Model,GMM)应用到声纹识别领域,并取得了很明显的效果。作为生成性模型(Generative Model)的代表,GMM以其简单灵活和较好的鲁棒性,迅速成为当今与文本无关的说话人识别的主流技术,将说话人识别技术带到了一个新的阶段。此外,区分性模型(Discriminative Model)如人工神经网络(Artificial Neural Networks,ANNs)、支持向量机(Support Vector Machine,SVM)在说话人识别中也有不错的表现。进入21世纪以来,D.Reynolds在说话人确认任务中提出了UBM-MAP(Universal Background Model,Maximum a Posteriori)模型,为说话人识别从实验室走向实用做出了重要贡献。与此同时,各种新的说话人识别技术也层出不穷,如图匹配方法(Graph Matching)、SVM与GMM结合、以及针对信道失配问题的说话人模型合成技术(Speaker Model Synthesis,SMS)等。近年来,超矢量(Supervector)技术成为说话人识别新的研究热点和发展方向。随着深度学习(Deep Learning)的兴起,面向说话人识别的深度学习算法也取得了较大的进展。但上述方法大都着眼于提高说话人识别系统的识别精度,所有这些识别算法计算复杂度都相对较高,难以直接应用在智能手机等计算资源有限的移动设备上。而目前常用的矢量量化(VQ)算法虽然计算复杂度比上述方法低,但同时算法识别的准确率也相对较低。所以,目前的声纹识别算法均不能很好地应用到实际的智能移动设备上。
技术实现思路
本专利技术针对目前现有的声纹识别技术在识别过程中计算复杂度过高、不适合直接应用在智能手机等计算资源相对有限的移动设备的问题,提出了一种面向智能移动设备的声纹识别方法。一种面向智能移动设备的声纹识别方法,具体包括说话人模型训练和目标说话人识别两个阶段,具体为:第一、说话人模型训练阶段;第二、说话人辨认阶段。本专利技术的优点与积极性在于:(1)对自适应后的每个簇引入了权重的思想,并将其与每个人语音特征点的重要性相关联,权重越大,对应的语音特征点越重要;(2)在说话人模型训练阶段取每个说话人的K个最明显的特征点自适应得到说话人的码本V,在识别阶段仅需将每帧语音的特征向量与说话人模型中的K个码字进行比较,相对传统的VQ-UBM模型而言,在很大程度上降低了识别过程的复杂度。K为常量,其取值与每个说话人的生理特征有关。实验表明,K>=10时能取得较好的识别效果。附图说明图1为本专利技术的声纹识别算法与GMM和VQ-UBM算法在K=16、采用16维特征向量时的识别准确率对比示意图;图2为本专利技术的声纹识别算法与GMM和VQ-UBM算法在K=16、采用12维特征向量时的识别准确率对比示意图;图3为本专利技术的声纹识别算法与GMM和VQ-UBM算法在K=12、采用16维特征向量时的识别准确率对比示意图;图4为本专利技术的声纹识别算法与GMM和VQ-UBM算法在K=12、采用12维特征向量时的识别准确率对比示意图;图5为本专利技术K-UBM模型训练过程;图6为本专利技术K-UBM说话人辨认过程。具体实施方式下面将结合附图对本专利技术作进一步的详细说明。本专利技术的一种面向智能移动设备的声纹识别方法(简称K-UBM),以智能手机等计算资源相对有限的移动设备上的声纹识别为应用场景,方法的目的在于在不影响辨认准确度的前提下尽可能降低声纹识别算法的时间复杂度,具体包括说话人模型训练和目标说话人识别两个阶段。第一、说话人模型训练阶段如图5所示,本专利技术方法使用的UBM(Universal Background Model)模型是由大量的包含各种类型的说话人的背景语音数据训练而来的与说话人无关的高阶VQ(Vector Quantization)模型。主要包括对背景语音进行预处理、特征提取,以及对提取后的特征进行聚类生成背景语音的码本三个过程。其中,预处理主要为对语音进行分帧、加窗和静音处理等操作,特征提取主要是对语音提取MFCC(Mel Frequency Cepstrum Coefficient)特征参数;在码本生成的过程中,主要采用的是LBG聚类算法。步骤1主要为预处理和特征提取,步骤2-5主要为本专利技术算法设计的MAP自适应权重最大的K个特征的过程,模型训练具体通过下面步骤实现:步骤1:对每个说话人的语音信号预处理,并提取每个说话人的特征参数MFCC作为训练样本,形成一个M*N的矩阵X,其中,M为语音的帧数,N为特征参数的维数。步骤2:对每一个特征矢量xm(m<=M),寻找在UBM模型中与其距离最近的特征向量ci的索引,记为indexm,其中,UBM模型为V*N的矩阵,V为模型的阶数,N为特征参数的维数,具体计算方式为:indexm=argmin1≤i≤V||xm-ci||2]]>步骤3:设第j簇为Sj={xm∈X|indexm=j本文档来自技高网
...
一种面向智能移动设备的声纹识别方法

【技术保护点】
一种面向智能移动设备的声纹识别方法,具体包括说话人模型训练和目标说话人识别两个阶段,具体为:第一、说话人模型训练阶段模型训练具体通过下面步骤实现:步骤1:对每个说话人的语音信号预处理,并提取每个说话人的特征参数MFCC作为训练样本,形成M*N的矩阵X,其中,M为语音的帧数,N为特征参数的维数;步骤2:对每一个特征矢量xm,寻找在UBM模型中与其距离最近的特征向量ci的索引,记为indexm,其中,m<=M,UBM模型为V*N的矩阵,V为模型的阶数,N为特征参数的维数,具体为:indexm=argmin1≤i≤V||xm-ci||2]]>步骤3:设第j簇为Sj={xm∈X|indexm=j},||Sj||为簇Sj中所包含的特征向量的个数;将||Sj||按从大到小的顺序排序,取最大的K个簇,记为:S′={Sm1,Sm2,...,Smk}]]>其对应的UBM模型中的特征向量集为:C′={Cm1,Cm2,...,Cmk}]]>步骤4:计算S'中每个簇的中心:ri=1||Smi||Σxj∈Smixj]]>设B为所有中心的集合:B={r1,r2,...,rk};步骤5:结合C'中每个特征向量,更新自适应后的说话人特征向量:vi=ωi*ri+(1-ωi)*cmi]]>其中:R是常量;V={ν1,ν2,...,νk}为说话人码本,即为目标说话人模型;C'为对应的UBM特征向量集;第二、说话人辨认阶段首先对待识别语音进行预处理,并提取出待识别说话人语音的MFCC特征向量,形成P*N的矩阵T,其中,P为语音帧数,N为特征向量的维数;将待识别说话人的特征向量与目标说话人模型库中所有说话人码本V及其对应的UBM特征向量集C'进行比对,取得分最高者码本表示的说话人即为待识别语音的测试结果,具体为:score=-Dist(T,V)-(-Dist(T,C′))=Dist(T,C′)-Dist(T,V)]]>其中,取score最大值所对应的说话人为待识别语音的识别结果。...

【技术特征摘要】
1.一种面向智能移动设备的声纹识别方法,具体包括说话人模型训练和目标说话人识别
两个阶段,具体为:
第一、说话人模型训练阶段
模型训练具体通过下面步骤实现:
步骤1:对每个说话人的语音信号预处理,并提取每个说话人的特征参数MFCC作为训
练样本,形成M*N的矩阵X,其中,M为语音的帧数,N为特征参数的维数;<...

【专利技术属性】
技术研发人员:牛建伟刘闯王磊王博伟
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1