一种说话人识别方法和装置制造方法及图纸

技术编号:10676708 阅读:147 留言:0更新日期:2014-11-26 11:46
本发明专利技术适用于说话人识别领域,提供了一种说话人识别方法和装置,该方法包括:提取JFA说话人超向量,所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量;对所提取的JFA说话人超向量进行分段,将JFA说话人超向量划分为多个子向量集;根据分段所得到的多个子向量集,对每个子向量集进行非参数区分分析,建立子空间说话人模型;根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量进行说话人识别。和现有技术相比,本发明专利技术运算量小;而且测试数据收集简单,提高识别性能。

【技术实现步骤摘要】
一种说话人识别方法和装置
本专利技术属于语音识别领域,尤其涉及一种说话人识别方法和装置。
技术介绍
随着计算机技术及互联网技术的不断进步,智能设备在人们的生活中已经变得越来越不可或缺。而作为人与智能设备之间交互方式之一的语音交互,由于其具有采集简便、易于存储、难于模仿、语音获取的成本低廉等特性,也成为了研究领域的热点。目前的智能语音处理方式,根据所利用的语音信息的不同,主要分为:语音识别(SpeechRecognition)、语种识别(LanguageRecognition)以及说话人识别(SpeakerRecognition)等。其中,语音识别的目标在于判断出语音信号中所传递的是何种语义信息;语种识别的目标是识别出语音信号所属的语言种类或者方言类型;说话人识别则是通过提取表征说话人的个性特征,识别出说话人的身份。由于语音是身份信息的重要载体,与人脸、指纹等其他生物特征相比,语音的获取成本低廉,使用简单,便于远程数据采集,且基于语音的人机交流界面更为友好,因此说话人识别技术成为重要的自动身份认证技术。目前经常使用的说话人识别的方法包括基于高斯混合模型-通用背景模型GMM-UBM进行说话人语音识别,虽然GMM-UBM模型具有一定的噪声鲁棒性,但是由于该模型在训练时没有考虑到信道的影响,当训练语音和测试语音来自不同的信道时,导致其识别性能急剧下降。为克服信道失配时所带来的识别性能的降低,现有技术提出了一种基于GMM-UBM模型的联合因子分析(JointFactorAnalysis,JFA))方式,来进行说话人识别。但是,由于JFA理论建立在GMM-UBM模型的框架基础上,假设说话人的GMM均值超向量所包含的主要信息可以映射到两个相互独立的低维子空间中,采用EM迭代算法对基于GMM模型框架的空间载荷矩阵进行估计,在计算过程中无法脱离GMM模型框架。基于JFA理论的说话人确认方法是在测试过程中根据已估计好的参数对说话人模型进行了信道补偿,测试性能差。
技术实现思路
本专利技术实施例的目的在于提供一种基于JFA说话人超向量的非参数区分的说话人识别方法,以解决现有技术基于GMM-UBM模型的联合因子分析方式,来进行说话人识别时测试性能差的问题。本专利技术所述说话人识别方法,包括下述实施步骤:提取JFA说话人超向量,所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量;对所提取的JFA说话人超向量进行分段,将JFA说话人超向量划分为多个子向量集;根据分段所得到的多个子向量集,对每个子向量集进行非参数区分分析,建立子空间说话人模型;根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量,根据预设的计算规则,以及所述待识别说话人的参考向量以及所述训练样本说话人的参考向量进行说话人识别。本专利技术实施例的另一目的在于提供一种说话人识别装置,其特征在于,所述装置包括:提取单元,用于提取JFA说话人超向量,所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量;分段单元,用于对所提取的JFA说话人超向量进行分段,将JFA说话人超向量划分为多个子向量集;建模单元,用于根据分段所得到的多个子向量集,对每个子向量集进行非参数区分分析,建立子空间说话人模型;识别单元,用于根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量,根据预设的计算规则,以及所述待识别说话人的参考向量以及所述训练样本说话人的参考向量进行说话人识别。在本专利技术中,提取了说话人的去除信道信息影响的GMM超向量作为JFA说话人超向量,既能够详细描述说话人的个性特征,又去除了通信信息的影响,通过对JFA说话人超向量进行分段后,再进行非参数区分分析,建立子空间说话人模型,由训练好的子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量,根据预设的计算规则进行识别。和现有技术相比,由于对JFA超向量进行了非参数区分分析,进而提取了类别边界的区分信息,从而提高说话人识别系统性能。附图说明图1是本专利技术实施例提供的说话人识别方法的实现流程图;图2是本专利技术实施例提供的采用平均划分方法,将所述JFA说话人超向量划分为多个子向量集的流程示意图;图3示出了采用非平均划分方法,将所述JFA说话人超向量划分为多个子向量集的流程示意图;图4示出了对每个子向量集进行非参数区分分析,建立子空间说话人模型的流程示意图;图5为本专利技术实施例提供的说话人识别的流程示意图;图6为本专利技术实施例提供的R-NDA系统的5组实验结果;图7为本专利技术基于GMM算法聚类分段的非参数区分说话人确认系统的5组实验结果;图8为本专利技术基于GMM均值向量维度分段的F-NDA和FD-NDA系统的实验结果;图9本专利技术实施例提供的说话人识别装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实例仅仅用以解释本专利技术,并不用于限定本专利技术。鉴于联合因子分析JFA理论作用于高斯混合模型-通用背景模型GMM-UBM系统中能够取得很好的失配补偿效果,所以,本申请将将基于联合因子分析的失配补偿方法应用到基于非参数区分分析技术的说话人确认系统中。我们提取了说话人的去除部分信道信息影响的GMM超向量即JFA说话人超向量,以此作为代表说话人信息的新的特征表达,通过这种方式将每个说话人不同长度的语音转换成具有相同维度的高维特征向量。JFA说话人超向量具有GMM超向量的特点,即能够详细描述说话人个性特征,又去除了信道信息的影响,所以可直接用于说话人确认系统的特征输入。但是JFA说话人超向量具有很高的维度,也包含了较多的冗余信息。针对这个问题,本申请通过采用基于非参数区分分析的子空间说话人建模方法,首先对JFA说话人超向量进行压缩规整,再采用非参数分析的方法构造分类面,最后建立子空间说话人模型。在NIST2008核心评测任务上的实验表明,该方法获得了比JFA系统更好的性能。下面结合附图进行详细说明:图1示出了本专利技术实施例提供的说话人识别方法的实现流程,详述如下:在步骤S101中,提取JFA说话人超向量,所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量。具体的,所述提取JFA说话人超向量步骤为:获取说话人声音所对应的高斯混合模型GMM,所述高斯混合模型包括C个高斯成分,语音特征向量的维度为F;根据联合因子分析,去除信道信息后,得到由GMM模型中的各个高斯成分的均值向量按顺序拼接起来的对每句话s的超向量Jh,s的表达式:Jh,s=m+Vyh,s+Dzh,s其中,m代表的是GMM模型中的均值超向量;V是说话人本征音载荷矩阵,是一个(C×F)×Rv的矩阵,Rv为说话人因子数;U是本征信道载荷矩阵,是一个(C×F)×Ru的矩阵,Ru是信道因子数;D是残差载荷矩阵,是一个(C×F)×(C×F)的对角矩阵,代表的是用V空间无法拟合的每次说话形成的与说话人信息相关的一个空间;y,z分别是对应的说话人因子、残差因子,它们均服从标准正态分布。联合因子分析理论认为,在基于GMM-UBM模型说话人确认框架中,通过最大后验概率本文档来自技高网
...
一种说话人识别方法和装置

【技术保护点】
一种说话人识别方法,其特征在于,所述方法包括:提取JFA说话人超向量,所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量;对所提取的JFA说话人超向量进行分段,将JFA说话人超向量划分为多个子向量集;根据分段所得到的多个子向量集,对每个子向量集进行非参数区分分析,建立子空间说话人模型;根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量,根据预设的计算规则,以及所述待识别说话人的参考向量以及所述训练样本说话人的参考向量进行说话人识别。

【技术特征摘要】
1.一种说话人识别方法,其特征在于,所述方法包括:提取JFA说话人超向量,所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量;对所提取的JFA说话人超向量进行分段,将JFA说话人超向量划分为多个子向量集;根据分段所得到的多个子向量集,对每个子向量集进行非参数区分分析,建立子空间说话人模型;根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量,根据预设的计算规则,以及所述待识别说话人的参考向量以及所述训练样本说话人的参考向量进行说话人识别;所述根据分段所得到的多个子向量集,对每个子向量集进行非参数区分分析,建立子空间说话人模型步骤包括:采用主成分分析PCA方法去除包含在子向量集中的冗余信息,得到每个子向量集的降维后的投影矩阵;采用类内协方差规整WCCN方法作用于所述降维后的投影矩阵,得到每个子向量集相应的子空间投影矩阵;采用非参数线性区分分析方法提取所述子空间投影矩阵的类边界的区分信息,得到每个子向量集中的非参数线性性区分分析投影矩阵;将主要成分分析PCA降维后的投影矩阵、类内协方差规整WCCN后的子空间投影矩阵以及非参数线性区分分析投影矩阵按照顺序依次拼接,得到总的子空间投影矩阵。2.根据权利要求1所述方法,其特征在于,所述提取JFA说话人超向量步骤具体为:获取说话人声音所对应的高斯混合模型GMM,所述高斯混合模型包括C个高斯成分,语音特征向量的维度为F;根据联合因子分析,去除信道信息后,得到由GMM模型中的各个高斯成分的均值向量按顺序拼接起来的对每句话s的超向量Jh,s的表达式:Jh,s=m+Vyh,s+Dzh,s其中,m代表的是GMM模型中的均值超向量;V是说话人本征音载荷矩阵,是一个(C×F)×Rv的矩阵,Rv为说话人因子数;U是本征信道载荷矩阵,是一个(C×F)×Ru的矩阵,Ru是信道因子数;D是残差载荷矩阵,是一个(C×F)×(C×F)的对角矩阵,代表的是用V空间无法拟合的每次说话形成的与说话人信息相关的一个空间;y,z分别是对应的说话人因子、残差因子,它们均服从标准正态分布。3.根据权利要求1所述方法,其特征在于,所述对所提取的JFA说话人超向量进行分段,将JFA说话人超向量划分为多个子向量集步骤具体为:采用GMM算法对UBM模型的所有高斯均值向量进行聚类,根据聚类结果,使用平均划分或者非平均划分,将所述JFA说话人超向量划分为多个子向量集。4.根据权利要求3所述方法,其特征在于,所述采用GMM算法对UBM模型的所有高斯均值向量进行聚类,根据聚类结果,使用平均划分,将所述JFA说话人超向量划分为多个子向量集步骤包括:给定一个具有M个混合高斯成分的UBM模型,将M个高斯成分的均值向量mj,(j=1,2,...,M)作为训练样本来训练一个具有K个混合高斯成分的GMM模型;对于UBM模型中的每个高斯成分的均值向量,计算其在所述GMM模型中每个混合高斯成分的占有率,即所述高斯成分的均值向量属于所述每个混合高斯成分的后验概率,这样对于每个高斯成分的均值向量,可以得到K个后验概率;如果某一高斯成分的均值向量mj对应于GMM模型中的第k个高斯成分的后验概率取得最大值那么就将mj划分到第k类;按照上述方式,将所有M个高斯成分的均值向量mj划分到K个类别中去;对于第k个类别中的高斯成分的均值向量取其在UBM模型中的高斯成分的顺序值进行升序排列,得到对于每个类别k,按照的顺序从训练样品中各个JFA说话人超向量中依次取出相应的均值成分进行拼接,形成JFA说话人超向量的第k个子向量集合。5.根据权利要求3所述方法,其特征在于,所述采用GMM算法对UBM模型的所有高斯均值向量进行聚类,根据聚类结果,使用非平均划分,将所述JFA说话人超向量划分为多个子向量集步骤包括:给定一个具有M个混合高斯成分的UBM模型,将M个高斯成分的均值向量mj,(j=1,2,...,M)作为训练样本来训练一个具有K个混合高斯成分的GMM模型;对于UBM模型中的每个高斯成分的均值向量,计算其在所述GMM模型中每个混合高斯成分的占有率,即所述高斯成分的均值...

【专利技术属性】
技术研发人员:李志锋李娜乔宇
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1