【技术实现步骤摘要】
一种说话人识别方法和装置
本专利技术属于语音识别领域,尤其涉及一种说话人识别方法和装置。
技术介绍
随着计算机技术及互联网技术的不断进步,智能设备在人们的生活中已经变得越来越不可或缺。而作为人与智能设备之间交互方式之一的语音交互,由于其具有采集简便、易于存储、难于模仿、语音获取的成本低廉等特性,也成为了研究领域的热点。目前的智能语音处理方式,根据所利用的语音信息的不同,主要分为:语音识别(SpeechRecognition)、语种识别(LanguageRecognition)以及说话人识别(SpeakerRecognition)等。其中,语音识别的目标在于判断出语音信号中所传递的是何种语义信息;语种识别的目标是识别出语音信号所属的语言种类或者方言类型;说话人识别则是通过提取表征说话人的个性特征,识别出说话人的身份。由于语音是身份信息的重要载体,与人脸、指纹等其他生物特征相比,语音的获取成本低廉,使用简单,便于远程数据采集,且基于语音的人机交流界面更为友好,因此说话人识别技术成为重要的自动身份认证技术。目前经常使用的说话人识别的方法包括基于高斯混合模型-通用背景模型GMM-UBM进行说话人语音识别,虽然GMM-UBM模型具有一定的噪声鲁棒性,但是由于该模型在训练时没有考虑到信道的影响,当训练语音和测试语音来自不同的信道时,导致其识别性能急剧下降。为克服信道失配时所带来的识别性能的降低,现有技术提出了一种基于GMM-UBM模型的联合因子分析(JointFactorAnalysis,JFA))方式,来进行说话人识别。但是,由于JFA理论建立在GMM-UBM模型的 ...
【技术保护点】
一种说话人识别方法,其特征在于,所述方法包括:提取JFA说话人超向量,所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量;对所提取的JFA说话人超向量进行分段,将JFA说话人超向量划分为多个子向量集;根据分段所得到的多个子向量集,对每个子向量集进行非参数区分分析,建立子空间说话人模型;根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量,根据预设的计算规则,以及所述待识别说话人的参考向量以及所述训练样本说话人的参考向量进行说话人识别。
【技术特征摘要】
1.一种说话人识别方法,其特征在于,所述方法包括:提取JFA说话人超向量,所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量;对所提取的JFA说话人超向量进行分段,将JFA说话人超向量划分为多个子向量集;根据分段所得到的多个子向量集,对每个子向量集进行非参数区分分析,建立子空间说话人模型;根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量,根据预设的计算规则,以及所述待识别说话人的参考向量以及所述训练样本说话人的参考向量进行说话人识别;所述根据分段所得到的多个子向量集,对每个子向量集进行非参数区分分析,建立子空间说话人模型步骤包括:采用主成分分析PCA方法去除包含在子向量集中的冗余信息,得到每个子向量集的降维后的投影矩阵;采用类内协方差规整WCCN方法作用于所述降维后的投影矩阵,得到每个子向量集相应的子空间投影矩阵;采用非参数线性区分分析方法提取所述子空间投影矩阵的类边界的区分信息,得到每个子向量集中的非参数线性性区分分析投影矩阵;将主要成分分析PCA降维后的投影矩阵、类内协方差规整WCCN后的子空间投影矩阵以及非参数线性区分分析投影矩阵按照顺序依次拼接,得到总的子空间投影矩阵。2.根据权利要求1所述方法,其特征在于,所述提取JFA说话人超向量步骤具体为:获取说话人声音所对应的高斯混合模型GMM,所述高斯混合模型包括C个高斯成分,语音特征向量的维度为F;根据联合因子分析,去除信道信息后,得到由GMM模型中的各个高斯成分的均值向量按顺序拼接起来的对每句话s的超向量Jh,s的表达式:Jh,s=m+Vyh,s+Dzh,s其中,m代表的是GMM模型中的均值超向量;V是说话人本征音载荷矩阵,是一个(C×F)×Rv的矩阵,Rv为说话人因子数;U是本征信道载荷矩阵,是一个(C×F)×Ru的矩阵,Ru是信道因子数;D是残差载荷矩阵,是一个(C×F)×(C×F)的对角矩阵,代表的是用V空间无法拟合的每次说话形成的与说话人信息相关的一个空间;y,z分别是对应的说话人因子、残差因子,它们均服从标准正态分布。3.根据权利要求1所述方法,其特征在于,所述对所提取的JFA说话人超向量进行分段,将JFA说话人超向量划分为多个子向量集步骤具体为:采用GMM算法对UBM模型的所有高斯均值向量进行聚类,根据聚类结果,使用平均划分或者非平均划分,将所述JFA说话人超向量划分为多个子向量集。4.根据权利要求3所述方法,其特征在于,所述采用GMM算法对UBM模型的所有高斯均值向量进行聚类,根据聚类结果,使用平均划分,将所述JFA说话人超向量划分为多个子向量集步骤包括:给定一个具有M个混合高斯成分的UBM模型,将M个高斯成分的均值向量mj,(j=1,2,...,M)作为训练样本来训练一个具有K个混合高斯成分的GMM模型;对于UBM模型中的每个高斯成分的均值向量,计算其在所述GMM模型中每个混合高斯成分的占有率,即所述高斯成分的均值向量属于所述每个混合高斯成分的后验概率,这样对于每个高斯成分的均值向量,可以得到K个后验概率;如果某一高斯成分的均值向量mj对应于GMM模型中的第k个高斯成分的后验概率取得最大值那么就将mj划分到第k类;按照上述方式,将所有M个高斯成分的均值向量mj划分到K个类别中去;对于第k个类别中的高斯成分的均值向量取其在UBM模型中的高斯成分的顺序值进行升序排列,得到对于每个类别k,按照的顺序从训练样品中各个JFA说话人超向量中依次取出相应的均值成分进行拼接,形成JFA说话人超向量的第k个子向量集合。5.根据权利要求3所述方法,其特征在于,所述采用GMM算法对UBM模型的所有高斯均值向量进行聚类,根据聚类结果,使用非平均划分,将所述JFA说话人超向量划分为多个子向量集步骤包括:给定一个具有M个混合高斯成分的UBM模型,将M个高斯成分的均值向量mj,(j=1,2,...,M)作为训练样本来训练一个具有K个混合高斯成分的GMM模型;对于UBM模型中的每个高斯成分的均值向量,计算其在所述GMM模型中每个混合高斯成分的占有率,即所述高斯成分的均值...
【专利技术属性】
技术研发人员:李志锋,李娜,乔宇,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。