一种说话人识别方法及系统技术方案

技术编号:8656492 阅读:168 留言:0更新日期:2013-05-02 00:14
本发明专利技术涉及一种说话人识别方法,所述方法包括:通过训练得到邻域保持嵌入空间矩阵;基于所述邻域保持嵌入空间矩阵进行说话人识别;所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。本发明专利技术实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术,能够有效地克服现有总变化因子分析技术存在的不足,进一步提高说话人识别性能。

【技术实现步骤摘要】

本专利技术属于语音识别
,具体地说,本专利技术涉及一种说话人识别方法及系统
技术介绍
说话人识别技术,简单来说,就是根据语音来自动对说话人进行区分,从而进行说话人身份鉴别与认证的技术。说话人识别在国家安全方面一直有着重要的意义。另外,随着通信以及互联网技术的发展,说话人识别技术在多媒体信息处理及检索方面也开始得到应用。当前在实验室环境中,由于语音的传输信道比较单一、信噪比较高,在这种情况下,说话人识别系统可以取得良好的识别性能。但是在实际应用中,语音环境的复杂多变,例如环境噪声以及信道调制的干扰等,使系统的识别性能急剧下降,这对说话人识别系统的鲁棒性提出了很大的挑战。因此,如何有效地减弱或去除环境噪声以及信道干扰等对系统的负面影响,从而提高说话人识别系统的鲁棒性,成为了该领域研究的热点及重点之一。近年来,复杂信道下基于高斯混合模型GMM-通用背景模型UBM的总变化因子分析方法得到了广泛的应用。总变化因子分析技术在建模过程中用一个单独的总变化空间来代替说话人空间和信道空间,即不区分GMM超向量空间中说话人的影响以及信道的影响。但是,总变化因子分析技术存在一定的不足,一方面在总变化空间的训练过程中没有考虑训练数据中说话人的标注信息;另一方面总变化因子技术实质是主成分分析的一种,只能够反映数据的整体结构。
技术实现思路
针对上述问题,本专利技术实施例提出一种说话人识别方法及系统。在第一方面,本专利技术实施例提出一种说话人识别方法,所述方法包括通过训练得到邻域保持嵌入空间矩阵(Neighborhood-Preserving Embedding, NPE);基于所述邻域保持嵌入空间矩阵进行说话人识别;所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括对于每一个高斯混合模型GMM均值超向量X进行主成分分析PCA降维得到向量w ;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’ ;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。在第二方面,本专利技术实施例提出一种说话人识别系统,所述系统包括空间矩阵生成模块,用于通过训练得到邻域保持嵌入空间矩阵;识别模块,用于基于所述邻域保持嵌入空间矩阵进行说话人识别;其中,所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括对于每一个高斯混合模型GMM均值超向量X进行主成分分析PCA降维得到向量w ;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’ ;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。本专利技术实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术,能够有效地克服现有总变化因子分析技术存在的不足,可以进一步提高说话人识别性能。附图说明以下,结合附图来详细说明本专利技术实施例,其中:图1是基于邻域保持嵌入因子分析的说话人识别算法框图;图2是基于邻域保持嵌入因子分析一种实施例的说话人识别详细流程图;图3是本专利技术实施例的说话人识别方法示意图;图4是本专利技术实施例的说话人识别系统示意图。具体实施例方式图1是基于邻域保持嵌入因子分析的说话人识别算法框图,它描述了基于邻域保持嵌入因子分析说话人识别算法的核心组成成分,主要由几个部分构成:GMM均值超向量、主成分分析(PCA)、邻域保持嵌入(NPE)因子分析、支持向量机(SVM)建模和打分。图2是基于邻域保持嵌入因子分析一种实施例的说话人识别详细流程图。下面结合图1以及图2对本专利技术实施例的具体实施方式做进一步详细描述:邻域保持嵌入空间矩阵的训练过程包括如下步骤:I)对主成分分析和空间矩阵的训练语音数据进行特征提取,并通过最大后验概率(Maximum a posteriori, MAP)说话人自适应得到对应的GMM超向量本文档来自技高网...

【技术保护点】
一种说话人识别方法,其特征在于,所述方法包括:通过训练得到邻域保持嵌入空间矩阵;基于所述邻域保持嵌入空间矩阵进行说话人识别;所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。

【技术特征摘要】
1.一种说话人识别方法,其特征在于,所述方法包括: 通过训练得到邻域保持嵌入空间矩阵; 基于所述邻域保持嵌入空间矩阵进行说话人识别; 所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括: 对于每一个高斯混合模型GMM均值超向量X进行主成分分析PCA降维得到向量W ; 使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’ ; 将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模; 借助支持向量机SVM打分,根据打分结果识别说话人。2.如权利要求1所述的说话人识别方法,其特征在于,所述通过训练得到邻域保持嵌入空间矩阵具体为: 选择多句包含说话人标注信息的训练语句,生成对应于每一训练语句的向量,并根据所述对应于训练语句的向量得到训练数据集W ; 根据所述对应于训练语句的向量构建邻接图,为不同的向量设置不同的顶点,不同顶点之间设置边; 计算邻接图边的权重,得到权值矩阵E ; 根据所述训练数据集和所述权值矩阵构建特征矩阵,求解所述特征矩阵的特征值,以及多个最大特征值对应的特征向量,根据所述特征向量得到所述的邻域保持嵌入空间矩阵。3.如权利要求2所述的说话人识别方法,其特征在于,所述计算邻接图边的权重,包括:将来自同一说话人的不同向量对应的顶点之间的边的权重设置为1,将来自不同说话人的不同向量对应的顶点之间的边的权重设置为O。4.如权利要求2所述的说话人识别方法,其特征在于,所述根据所述训练数据集和所述权值矩阵构建特征矩阵,求解所述特征矩阵的特征值,以及多个最大特征值对应的特征向量,根据所述特征向量得到所述的邻域保持嵌入空间矩阵,具体为: 根据所述训练数据集W和所述权值矩阵E构建特征矩阵WNWTa, 其中,N = (1-E)T(1-E),I为对角元素均为1、其余元素均为O的对角矩阵,根据WNWTa =AffffTa,求解特征值λ以及特征向量a,根据前K个最大特征值对应的特征向量ai,a2,...aK得到邻域保持嵌入空间矩阵Anpe = (a1; a2,...aK)T。5.如权利要求1所述的说话人识别方法,其特征在于,所述对于每一个高斯混合模型GMM均值超向量X进行主成分分析PCA降维得到向量W,具体为:根据主成分分析PCA矩阵对于每一个高斯混合模型GMM均值超向量X进行主成分分析PCA降维得到向量W。6.一种说话人识别系统...

【专利技术属性】
技术研发人员:周若华颜永红梁春燕杨琳
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利