基于保类内核Fisher判别法的说话人辨别实现方法技术

技术编号:3915197 阅读:304 留言:0更新日期:2012-04-11 18:40
一种基于保类内核Fisher判别法的说话人辨别实现方法,包括以下步骤:①语音信号的预处理;②特征参数提取:语音信号完成分帧处理和端点检测后,提取梅尔倒谱参数作为说话人特征向量;③说话人辨别模型构建;④模型最佳投影向量计算:采用LWFD方法的最优解,计算得到最佳投影向量组;⑤说话人辨别:依最优投影分类向量φ将原数据x↓[i]投影为y↓[i]∈R↑[r](1≤r≤d),其中r是削减后的维度,原c类数据空间的最佳分类投影维度为c-1,之后求取每一类投影后数据的中心值并规范化,将待分类数据投影到子空间并规范化后,计算其与子空间中的每一类数据中心点的欧氏距离,最近者判为识别结果。本发明专利技术识别率高、模型构建简单、具有良好的快速性。

【技术实现步骤摘要】

本专利技术涉及信号处理、机器学习和模式识别领域,尤其是一种说话人辨别实现方法。
技术介绍
说话人识别(Speaker Recognition,SR)又称话者识别,是指通过对说话人语音信号的分析处理并自动确认说话人的技术。本专利技术涉及的说话人辨别是说话人识别的一个重要分支。说话人辨别系统必须辨认出待识别的语音是来自待考察的个人中的哪一个,有时还要对这个人以外的语音作出拒绝的判别。说话人辩别是一个模式匹配的过程,在这个过程中,计算机首先要根据说话人的语音特点建立语音模型;即对输入的语音信号进行分析,并抽取说话人的个性特征,在此基础上建立说话人辨别所需的模型。一个说话人辩别系统可以分为语音的预处理、特征参数的选择与提取、识别模型的训练和匹配等几个部分。 目前比较成熟的算法主要有矢量量化(Vector Quantization,VQ)、支持向量机(Support Vector Machine,SVM)、隐马尔科夫模型(Hidden Markov Model,HMM)、混合高斯模型(Gaussian Mixture Model,GMM)等。其中VQ方法只针对文本相关的说话人辨别场合。GMM与HMM方法应用的前提是需要大量的训练语音数据进行模型参数的优化。SVM虽然能获得较好的识别效率,但是非概率输出以及多类扩展弱的本质限制了它的应用范围。 经专利查新统计,国内外已有不少说话人识别方面的专利;例如,基于内嵌GMM核的支持向量机模型的说话人识别方法(200510061953.X)、利用基频包络剔除情感语音的说话人识别方法(200710157134.4)、基于中性和情感声纹模型转换的说话人识别方法(200710157133.X)、基于混合支持向量机的说话人识别方法(200510061954.4)、基于频谱平移的情感说话人识别方法(200810162450.5)、基于混合t模型的说话人识别方法(200810162449.2);基于倒谱特征线性情感补偿的说话人识别方法(200510061360.3)等。
技术实现思路
为了克服已有的说话人辨别实现方法的识别率较低、模型构建复杂、速度慢的不足,本专利技术提供一种识别率高、模型构建简单、具有良好的快速性的。 本专利技术解决其技术问题所采用的技术方案是 一种,包括以下步骤 ①、语音信号的预处理对语音信号进行预处理; ②、特征参数提取语音信号完成分帧处理和端点检测后,提取梅尔倒谱参数作为说话人特征向量,所述梅尔倒谱参数为13阶倒谱参数,去除其中对说话人特征描述较少的第0阶参数,将每帧语音信号转换为12维梅尔倒谱特征向量; ③、说话人辨别模型构建 设定xi∈Rd(i=1,2,...,N)是d维样本数据,yi∈{1,2,...,c}是相应的类别标签,其中N是样本总数,c是类别总数,cl是第l类的样本数,则 X是样本矩阵,即 X≡(x1|x2|…|xn|) 基于上述基本条件,建立说话人辨别模型为 其中是类内散度矩阵,是类内散度矩阵,亲和矩阵其中σ为可调整常数因子, 即为待求的最佳投影分类向量; ④、模型最佳投影向量计算 采用LWFD方法的最优解,即依式 计算得到最佳投影向量组,假设nullB与 分别代表Sb与 的零空间,则上式的最佳鉴别子空间取自其中nullB⊥为nullB的正交补,首先将Sb投影到nullB⊥,得到nullB⊥空间后,再将类间散度矩阵与类内散度矩阵投影进 子空间,所得的子空间中的向量即为最优判别特征向量; ⑤、说话人辨别 依最优投影分类向量 将原数据xi投影为yi∈Rr(1≤r≤d),其中r是削减后的维度,采用变换矩阵T的投影公式 原c类数据空间的最佳分类投影维度为c-1,之后求取每一类投影后数据的中心值并规范化,将待分类数据投影到子空间并规范化后,计算其与子空间中的每一类数据中心点的欧氏距离,最近者判为识别结果。 进一步,在所述步骤④中,所述最优判别特征向量的求取过程为 首先将Sb投影到nullB⊥,改写Sb表达式为 其中矩阵Sb的秩为c-1,ΦbΦbT与ΦbTΦb有相同的非零特征值,滤除零特征值所对应的特征子空间即为Sb的零空间;用ΦbTΦb替代ΦbΦbT并采取核技巧进行推导; 其中 将上式中每一项利用核函数转换为矩阵,得 其中1LC是一个所有元素为1的L×C矩阵,是一个L×C分块对角矩阵,块 是一个所有元素为 的ci×1列向量; 设λi与ei(i=1…c)是ΦbTΦb第i个特征值与特征向量,并以特征值降序排列;则vi=Φbei是原类间散度矩阵Sb的特征向量;去除Sb的零空间,即摒弃特征值为零的相应特征向量,保留vi中前c-1个特征向量V==ΦbEm=Φb,则VTSbV=Λb,Λb=diag是一个(c-1)×(c-1)对角矩阵; 得到nullB⊥空间后,将类间散度矩阵与类内散度矩阵依投影进子空间,其中UTSbU=I,利用核矩阵K,将 进行核化转换 其中 第一项 第二项 上式中W=diag是一个N×N分块矩阵,wi是一个元素为 的ci×ci矩阵,因此也是一个c×c矩阵。则 是一个维度为(c-1)×(c-1)的简单矩阵,计算其特征向量pi与特征值λ′i并以升序排列,提取前m个向量得特征变换矩阵Q=UP=U,其中1≤m≤c-1,可得Λw=diag是一个m×m对角矩阵; 类内保持Fisher判别的最优判别特征向量为变换后特征构成H空间中的一个低维子空间。 更进一步,在所述步骤⑤中,对任意待分类的说话人语音输入模式z,依Γ投影到特征子空间,计算如下 其中 由于可得 其中是一个N×1核向量,特征向量取值为 计算y与子空间中的每一类数据中心点的欧氏距离,最近者判为识别结果。 再进一步,在所述步骤①中,所述预处理包括采样、去除噪音、端点检测、预加重、分帧和加窗。 本专利技术的技术构思为Fisher判别分析(Fisher Discriminant Analysis,FDA)是将d维输入空间的样本数据投影到一条直线上,使在这条直线上,样本的投影区分度最佳。说话人音高,音色,音量在不同时期呈现出丰富多彩的表现形式,语音特征参数往往具有非线性、多态性,直接应用Fisher判别分析方法无法获得理想的识别结果。 核Fisher判别法(Kernel Fisher Discriminant Analysis,KFDA)是将核学习方法的思想与Fisher判决法相结合的产物。KFDA算法的思路是首先通过一个非线性映射,将输入数据影射到一个高维核空间中;然后,在这个高维核空间中再进行线形Fisher判决分析,从而实现相对于原空间为非线性判决分析。虽然核Fisher判别法符合说话人辩别非线性的特点,但是核Fisher判别法只考虑分类数据的全局区分度最大投影,没有考虑同一说话人语音向量的类内多态分布特征,而且还需本文档来自技高网
...

【技术保护点】
一种基于保类内核Fisher判别法的说话人辨别实现方法,其特征在于:所述说话人辨别实现方法包括以下步骤: ①、语音信号的预处理:对语音信号进行预处理; ②、特征参数提取:语音信号完成分帧处理和端点检测后,提取梅尔倒谱参数作为说话 人特征向量,所述梅尔倒谱参数为13阶倒谱参数,去除其中对说话人特征描述较少的第0阶参数,将每帧语音信号转换为12维梅尔倒谱特征向量; ③、说话人辨别模型构建: 设定x↓[i]∈R↑[d](i=1,2,...,N)是d维样本数据, y↓[i]∈{1,2,...,c}是相应的类别标签,其中N是样本总数,c是类别总数,c↓[l]是第l类的样本数,则: *c↓[l]=N X是样本矩阵,即: X≡(x↓[1]|x↓[2]|…|x↓[n]|) 基于上述基 本条件,建立说话人辨别模型为: J(φ)=φ↑[T]S↓[b]φ/φ↑[T]S↓[w]φ,φ≠0 其中:S↓[b]↑[Φ]=1/N*c↓[l](***)(***)↑[T]是类间散度矩阵,***是类内散度矩阵,亲和矩阵A↓[i,j ]=exp(-║x↓[i]-x↓[j]║↑[2]/σ↑[2]),其中σ为可调整常数因子,*是第i类样本的平均值,*代表所有样本的平均值,φ即为待求的最佳投影分类向量; ④、模型最佳投影向量计算 采用LWFD方法的最优解,即依式:  J(φ)=φ↑[T]S↓[b]φ/φ↑[T]*↓[w]φ,φ≠0 计算得到最佳投影向量组,假设nullB与null*分别代表S↓[b]与*↓[w]的零空间,则上式的最佳鉴别子空间取自nullB↑[⊥]∩null*,其中null B↑[⊥]为nullB的正交补,首先将S↓[b]投影到nullB↑[⊥],得到nullB↑[⊥]空间后,再将类间散度矩阵与类内散度矩阵投影进null*子空间,所得的子空间中的向量即为最优判别特征向量; ⑤、说话人辨别: 依最优投 影分类向量φ将原数据x↓[i]投影为y↓[i]∈R↑[r](1≤r≤d),其中r是削减后的维度,采用变换矩阵T的投影公式: y↓[i]=φ↑[T]x↓[i] 原c类数据空间的最佳分类投影维度为c-1,之后求取每一类投影后数据的中 心值并规范化,将待分类数据投影到子空间并规范化后,计算其与子空间中的每一类数据中心点的欧氏距离,最近者判为识别结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王万良郑建炜王震宇韩姗姗蒋一波郑泽萍王磊陈胜勇
申请(专利权)人:浙江工业大学
类型:发明
国别省市:86[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1