基于多元核logistic回归模型的说话人辨别实现方法技术

技术编号:3915198 阅读:563 留言:0更新日期:2012-04-11 18:40
一种基于多元核logistic回归模型的说话人辨别实现方法,包括以下步骤:A)说话人语音特征提取:采集待识别说话人语音信号,进行预处理;再提取梅尔倒谱参数;B)说话人模型构建:采用多元核logistic回归模型作为说话人辨别模型;C)说话人辨别模型训练:将步骤A所提取的特征向量作为输入训练样本,通过最小序列优化算法进行迭代训练,使模型参数达到最优;D)说话人辨别:提取待辨别说话人语音信号的特征向量,并输入经过训练的说话人辨别模型,多元核logistic回归模型会给出每个说话人的后验概率,概率值最高者为识别结果。本发明专利技术识别率高、模型构建简单、具有良好的快速性。

【技术实现步骤摘要】

本专利技术涉及信号处理、机器学习和模式识别领域,尤其是一种说话人辨别实现方法。
技术介绍
说话人辨别是指通过对有限集合内的说话人语音信号进行分析处理及特征提取,自动辨认说话人是否在指定的话者集合中,继之确认说话人的具体身份。说话人辨别的基本原理是为每个说话人建立一个能描述其个性特征的分类模型。因此,优秀的模型构建是说话人辨别的关键技术之一。 传统的说话人辨识模型包括混合高斯模型(GMM)、隐马尔可夫模型(HMM)等产生性模型。这些模型虽然能获得不错的识别效率,但是在模型训练阶段需要大量的训练样本来优化模型参数,而在模型识别应用阶段也需要不少的语音数据来表征待识别人的个性特征。 经专利查新统计,国内外已有不少说话人识别方面的专利;例如,基于内嵌GMM核的支持向量机模型的说话人识别方法(200510061953.X)、利用基频包络剔除情感语音的说话人识别方法(200710157134.4)、基于中性和情感声纹模型转换的说话人识别方法(200710157133.X)、基于混合支持向量机的说话人识别方法(200510061954.4)、基于频谱平移的情感说话人识别方法(200810162450.5)、基于混合t模型的说话人识别方法(200810162449.2);基于倒谱特征线性情感补偿的说话人识别方法(200510061360.3)等。
技术实现思路
为了克服已有的说话人辨别实现方法的识别率较低、模型构建复杂、速度慢的不足,本专利技术提供一种识别率高、模型构建简单、具有良好的快速性的。 本专利技术解决其技术问题所采用的技术方案是 一种,包括以下步骤 A)、说话人语音特征提取采集待识别说话人语音信号,进行预处理;再提取梅尔倒谱参数,所述梅尔倒谱参数为13阶倒谱参数,将其中描述说话人个性特征较弱的第零阶系数去除,余下12维特征向量作为说话人辨别输入向量; B)、说话人模型构建采用多元核logistic回归模型作为说话人辨别模型, k=1,2,…K 其中,K为需辨别说话人数目,x为12维特征向量,β=,β∈R12×K为总体模型参数;βk为第k个说话人相应的模型参数,βk0为第k个说话人相应的模型常量参数,ci为第i个语音特征向量相应的说话人目标; C)、说话人辨别模型训练将步骤A所提取的特征向量作为输入训练样本,通过最小序列优化算法进行迭代训练,使模型参数达到最优; D)、说话人辨别提取待辨别说话人语音信号的特征向量,并输入经过训练的说话人辨别模型,多元核logistic回归模型会给出每个说话人的后验概率,概率值最高者为识别结果。 进一步,在步骤C中,所述最小序列优化算法的目标泛函为 其中,βk为第k个说话人相应的模型参数,C为常量惩罚因子,αik是β在高维空间展开的系数向量,cik∈{1,0}是向量ck中的相应索引值,而代表第k个说话人的目标向量; 训练步骤如下 1)给定满足条件的初始化α向量,迭代Iter=1; 2)如果存在不同索引对(i,i′),使得Hi,k≠Hi′,k则选出相应的 k=1,2,…,K-1以及 k=1,2,…,K-1; 其中 K(x,y)为满足Merser条件的核函数。 3)寻找最优变更参数t*,更新αupper(k),k,αlower(k),k如下 αupper(k),kIter+1=αupper(k),kIter+t* αlower(k),kIter+1=αlower(k),kIter-t* αi,kIter+1=αi,kIter,for other i,k 4)以αIter+1重新计算Hik,并选出新的upper(k)以及lower(k); 5)如果对于不同的k∈{1,2,…,K-1},任意的(i,i′)索引值对总是满足Hik=Hi′k,则迭代停止,否则转入步骤2)继续,直到停止条件满足为止。 再进一步,在所述步骤D中,所述的说话人辨别方式为 对于新的语音输入向量x,取后验概率最高的第k个说话人为识别结果,其中 k=1,2,…K。 更进一步,在所述步骤A中,所述预处理包括采样量化、中心削波、高频提升和加窗分帧。 本专利技术的技术构思为核logistic回归是有效的辨别性分类模型,主要用于生成分类判别中的后验概率,已经成功应用于基因病理选择、信用卡风险度分类、孤立字识别等场合。核logistic回归具有天然的后验概率输出,以及对多元分类良好的扩展性,使得它能很自然地应用于说话人辨别这些多分类判别场合。已有的核logistic回归应用于说话人辨别技术,仅仅对二元模型进行简单应用,虽然识别率优于经典算法,但模型构建复杂,且没有体现logistic回归多元化扩展应用的优势。 多元核logistic回归说话人辨别方法,是为若干个说话人构建一个多元核logistic回归模型,当有新的未知语音特征参数输入时,该模型能够输出各个说话人的后验概率,其中概率最高的那个人为辨别结果。首先将传统logistic回归模型进行多元化扩展,再利用核技巧,将原线性模型转化为非线性模型以适应说话人辨别场合。在模型训练阶段,将每个说话人的训练语音数据进行预处理并提取特征参数作为模型的输入特征向量,模型参数通过最小序列快速优化算法迭代更新。在识别阶段,对待识别说话人语句进行相同的预处理,提取相同的特征参数,通过训练所得的多元核logistic回归模型输出每个说话人的后验概率,以获得辨别结果。 本专利技术解决其技术问题所采用的技术方案还可以进一步完善。所述的多元核logistic回归模型训练算法为最小序列优化,先将原多元核logistic回归模型的目标泛函转换为对偶形式,并推导出最优化条件,在每次迭代过程中只对两个参数进行更新优化,避免多个参数同时更新时的矩阵逆操作,使模型训练速度更快。 本专利技术有益的效果是1、采用多元核logistic回归模型作为说话人辨别模型,识别率高于传统产生性模型(如高斯混合模型),与其他辨别性模型(如支持向量机)相比识别率相似,但支持向量机是二元分类器,只能通过“一对多”或“一对一”方式构建多个模型进行投票式多分类,而多元核logistic回归模型能直接进行多分类,模型构建更加直观快捷;2、多元核logistic回归模型训练过程采用最小序列优化算法,使训练速度更快,符合说话人辨别这类大训练样本情况。 具体实施例方式 下面对本专利技术作进一步描述。 一种,包括以下步骤 A)、说话人语音特征提取采集待识别说话人语音信号,进行预处理;再提取梅尔倒谱参数,所述梅尔倒谱参数为13阶倒谱参数,将其中描述说话人个性特征较弱的第零阶系数去除,余下12维特征向量作为说话人辨别输入向量; B)、说话人模型构建采用多元核logistic回归模型作为说话人辨别模型, k=1,2,…K 其中,K为需辨别说话人数目,x为12维特征向量,β={β1,β2,…,βK}T为总体模型参数;βk为第k个说话人相应的模型参数,βk0为第k个说话人相应的模型常量参数,ci为第i个语音特征向量相应的说话人目标。 C)、说话人辨别模型训练将步骤A所提取的特征向量作为输入训练样本,通过最小序列优化算本文档来自技高网...

【技术保护点】
一种基于多元核logistic回归模型的说话人辨别实现方法,其特征在于:所述说话人辨别实现方法包括以下步骤: A)、说话人语音特征提取:采集待识别说话人语音信号,进行预处理;再提取梅尔倒谱参数,所述梅尔倒谱参数为13阶倒谱参数,将其中 描述说话人个性特征较弱的第零阶系数去除,余下12维特征向量作为说话人辨别输入向量; B)、说话人模型构建:采用多元核logistic回归模型作为说话人辨别模型, p(c↓[i]=k|*;β)=exp(β↓[k]↑[T]*+β↓[ k0])/*exp(β↓[j]↑[T]*+β↓[j0]),k=1,2,…K 其中,K为需辨别说话人数目,*为12维输入特征向量,β={β↓[1],β↓[2],…,β↓[K]}↑[T]为总体模型参数;β↓[k]为第k个说话人相应的模型参 数,β↓[k0]为第k个说话人相应的模型常量参数,c↓[i]为第i个语音特征向量相应的说话人目标; C)、说话人辨别模型训练:将步骤A所提取的特征向量作为输入训练样本,通过最小序列优化算法进行迭代训练,使模型参数达到最优; D) 、说话人辨别:提取待辨别说话人语音信号的特征向量,并输入经过训练的说话人辨别模型,多元核logistic回归模型会给出每个说话人的后验概率,概率值最高者为识别结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王万良郑建炜郑泽萍韩姗姗蒋一波王震宇王磊陈胜勇
申请(专利权)人:浙江工业大学
类型:发明
国别省市:86[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1