一种基于字典学习和低秩矩阵分解的说话人识别方法技术

技术编号：22170700 阅读：26 留言：0更新日期：2019-09-21 12:12

本发明专利技术提出了一种基于字典学习和低秩矩阵分解的说话人识别方法，包括以下步骤：步骤1，对说话人音频进行预加重、分帧、加窗、端点检测等处理；步骤2，提取出对应每个说话人语句的MFCC特征，并训练GMM‑UBM模型；步骤3，通过联合因子分析（JFA）估算全局差异空间矩阵T，全局差异空间因子w；步骤4，得到对应每个说话人语句的i‑vector；步骤5，从训练集中提取M维度的i‑vector并生成特征矩阵，根据训练集和测试集，对判别字典进行生成，得到的字典将作为i‑vector后端处理和打分模块，为最终判别提供依据；适应字典学习准则的编码系数可以有效提升识别力，并通过结构化稀疏来进行最优分类。

A Speaker Recognition Method Based on Dictionary Learning and Low Rank Matrix Decomposition

全部详细技术资料下载

【技术实现步骤摘要】
一种基于字典学习和低秩矩阵分解的说话人识别方法
本专利技术涉及说话人识别领域，具体的说是一种用于用于对说话人识别系统的后端i-vector字典判别方法。
技术介绍
话人识别(SpeakerRecognition，SR)又称声纹识别，是利用语音信号中含有的特定说话人信息来识别说话者身份的一种生物认证技术。近年来，基于因子分析的身份认证矢量(identityvector,i-vector)说话人建模方法的引入使得说话人识别系统的性能有了明显的提升。实验表明，在对说话人语音的因子分析中，通常信道子空间中会包含说话人的信息。因此，i-vector用一个低维的总变量空间来表示说话人子空间和信道子空间，并将说话人语音映射到该空间得到一个固定长度的矢量表征(即i-vector)。在过去的几年里，稀疏信号表示已广泛应用于数字信号处理领域，例如：压缩感知和图像恢复。近年来，人们发现基于分类的稀疏表示的实验结果比较好，因此被广泛使用。稀疏编码是通过构建过完备字典对任意一个信号进行最紧凑的线性表示。构建稀疏编码字典的方法有两种，分别是标准的数据模型法和和数据驱动方法。进入21世纪以来，稀疏信号表示在信号处理方向得到了较为广泛的运用，典型的使用案例包括压缩感知、损坏图像恢复。近年来人们又发现稀疏编码在分类方面有很大的拓展空间，它通过建立一个过完备字典，以达到对每个待分类信号做线性表示的目的。稀疏表示已经在语音处理的部分研究领域起到一些显著的作用，例如互联网环境下基于移动终端的语音接入中采用稀疏表示的方法，可以大大节省通信传输的特征数据，除此之外，稀疏分解对语音信号去噪也有着一定的...

【技术保护点】
1.一种基于字典学习和低秩矩阵分解的说话人识别方法，其特征在于：包括以下步骤：步骤1，对说话人音频进行预加重、分帧、加窗、端点检测等处理；步骤2，提取出对应每个说话人语句的MFCC特征，并训练GMM‑UBM模型；步骤3，通过联合因子分析(JFA)估算全局差异空间矩阵T，全局差异空间因子w；步骤4，得到对应每个说话人语句的i‑vector；步骤5，从训练集中提取M维度的i‑vector并生成特征矩阵，根据训练集和测试集，对判别字典进行生成，得到的字典将作为i‑vector后端处理和打分模块，为最终判别提供依据。

【技术特征摘要】
1.一种基于字典学习和低秩矩阵分解的说话人识别方法，其特征在于：包括以下步骤：步骤1，对说话人音频进行预加重、分帧、加窗、端点检测等处理；步骤2，提取出对应每个说话人语句的MFCC特征，并训练GMM-UBM模型；步骤3，通过联合因子分析(JFA)估算全局差异空间矩阵T，全局差异空间因子w；步骤4，得到对应每个说话人语句的i-vector；步骤5，从训练集中提取M维度的i-vector并生成特征矩阵，根据训练集和测试集，对判别字典进行生成，得到的字典将作为i-vector后端处理和打分模块，为最终判别提供依据。2.根据权利要求1所述的一种基于字典学习和低秩矩阵分解的说话人识别方法，其特征在于：所述步骤5的具体内容如下：设测试集的i-vector样本集合为Y，矩阵C含有说话人共性部分E和说话人个性部分DX，即Y＝DX+E，那么对于训练样本Y，其在字典D上的最优稀疏表示系数应为一块对角阵，如下所示：字典D包含c个类别的子字典，X是训练样本Y在字典D上的稀疏稀疏，其中Xi是对应子字典Di的稀疏系数；字典D具备可识别和重建的能力，从而低秩和稀疏稀疏表示，子字典Di为第i类训练样本的转悠字典，达到最好的识别率；第i类i-vector样本被第i类的子字典D很好表示；字典Di(i≠j)对应的编码系数为0；结构化稀疏对应为Q＝[q1,q2,.....,qi]∈RN×L,其中qi表示对应于训练样本yi的编码，N表示字典的尺寸大小，L表示训练样本总数；设训练样本yi属于第M类，，结构化稀疏系数Q满足qi对应子字典Di的所有系数都为1，其余均为0，结构化系数系数Q与低秩矩阵的结合，可以对样本进行最优的分类。3.根据权利要求2所述的一种基于字典学习和低秩矩阵分解的说话人识别方法，其特征在于：所述步骤5的算法流程包括如下内容：给定训练样本，其中样本Y＝[Y1,Y2,.....,Yi],包含c个类别的n个样本；表示第i类的样本，d表示每个样本向量的维数，ni表示第i类...

【专利技术属性】
技术研发人员：王昕，李宗晏，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人