一种说话人识别方法及系统技术方案

技术编号：8656492 阅读：193 留言：0更新日期：2013-05-02 00:14

本发明专利技术涉及一种说话人识别方法，所述方法包括：通过训练得到邻域保持嵌入空间矩阵；基于所述邻域保持嵌入空间矩阵进行说话人识别；所述基于所述邻域保持嵌入空间矩阵进行说话人识别，包括：对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w；使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’；将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模；借助支持向量机SVM打分，根据打分结果识别说话人。本发明专利技术实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术，能够有效地克服现有总变化因子分析技术存在的不足，进一步提高说话人识别性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音识别
，具体地说，本专利技术涉及一种说话人识别方法及系统。
技术介绍
说话人识别技术，简单来说，就是根据语音来自动对说话人进行区分，从而进行说话人身份鉴别与认证的技术。说话人识别在国家安全方面一直有着重要的意义。另外，随着通信以及互联网技术的发展，说话人识别技术在多媒体信息处理及检索方面也开始得到应用。当前在实验室环境中，由于语音的传输信道比较单一、信噪比较高，在这种情况下，说话人识别系统可以取得良好的识别性能。但是在实际应用中，语音环境的复杂多变，例如环境噪声以及信道调制的干扰等，使系统的识别性能急剧下降，这对说话人识别系统的鲁棒性提出了很大的挑战。因此，如何有效地减弱或去除环境噪声以及信道干扰等对系统的负面影响，从而提高说话人识别系统的鲁棒性，成为了该领域研究的热点及重点之一。近年来，复杂信道下基于高斯混合模型GMM-通用背景模型UBM的总变化因子分析方法得到了广泛的应用。总变化因子分析技术在建模过程中用一个单独的总变化空间来代替说话人空间和信道空间，即不区分GMM超向量空间中说话人的影响以及信道的影响。但是，总变化因子分析技术存在一...

【技术保护点】
一种说话人识别方法，其特征在于，所述方法包括：通过训练得到邻域保持嵌入空间矩阵；基于所述邻域保持嵌入空间矩阵进行说话人识别；所述基于所述邻域保持嵌入空间矩阵进行说话人识别，包括：对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w；使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’；将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模；借助支持向量机SVM打分，根据打分结果识别说话人。

【技术特征摘要】
1.一种说话人识别方法，其特征在于，所述方法包括: 通过训练得到邻域保持嵌入空间矩阵；基于所述邻域保持嵌入空间矩阵进行说话人识别；所述基于所述邻域保持嵌入空间矩阵进行说话人识别，包括: 对于每一个高斯混合模型GMM均值超向量X进行主成分分析PCA降维得到向量W ; 使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’ ；将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模；借助支持向量机SVM打分，根据打分结果识别说话人。2.如权利要求1所述的说话人识别方法，其特征在于，所述通过训练得到邻域保持嵌入空间矩阵具体为: 选择多句包含说话人标注信息的训练语句，生成对应于每一训练语句的向量，并根据所述对应于训练语句的向量得到训练数据集W ; 根据所述对应于训练语句的向量构建邻接图，为不同的向量设置不同的顶点，不同顶点之间设置边；计算邻接图边的权重，得到权值矩阵E ; 根据所述训练数据集和所述权值矩阵构建特征矩阵，求解所述特征矩阵的特征值，以及多个最大特征值对应的特征向量，根据所述特征向量得到所述的邻域保持嵌入空间矩阵。3.如权利要求2所述的说话人识别方法，其特征在于，所述计算邻接图边的权重，包括:将来自同一说话人的不同向量对应的顶点之间的边的权重设置为1，将来自不同说话人的不同向量对应的顶点之间的边的权重设置为O。4.如权利要求2所述的说话人识别方法，其特征在于，所述根据所述训练数据集和所述权值矩阵构建特征矩阵，求解所述特征矩阵的特征值，以及多个最大特征值对应的特征向量，根据所述特征向量得到所述的邻域保持嵌入空间矩阵，具体为: 根据所述训练数据集W和所述权值矩阵E构建特征矩阵WNWTa，其中，N = (1-E)T(1-E)，I为对角元素均为1、其余元素均为O的对角矩阵，根据WNWTa =AffffTa，求解特征值λ以及特征向量a，根据前K个最大特征值对应的特征向量ai，a2，...aK得到邻域保持嵌入空间矩阵Anpe = (a1； a2,...aK)T。5.如权利要求1所述的说话人识别方法，其特征在于，所述对于每一个高斯混合模型GMM均值超向量X进行主成分分析PCA降维得到向量W，具体为:根据主成分分析PCA矩阵对于每一个高斯混合模型GMM均值超向量X进行主成分分析PCA降维得到向量W。6.一种说话人识别系统...

【专利技术属性】
技术研发人员：周若华，颜永红，梁春燕，杨琳，
申请(专利权)人：中国科学院声学研究所，北京中科信利技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人