一种基于因子分析的说话人分段聚类方法及系统技术方案

技术编号:16548556 阅读:61 留言:0更新日期:2017-11-11 12:45
本发明专利技术涉及一种基于因子分析的说话人分段聚类方法及系统。该方法包括:1)提取训练语音的声学特征,训练高斯混合通用背景模型,进而训练总变化因子模型和高斯概率线性判别分析模型;2)对测试语音进行分段并提取语音片段的声学特征;3)依据高斯混合通用背景模型和总变化因子模型将提取的声学特征映射为总变化量因子,加载高斯概率线性判别分析模型,根据总变化量因子计算任意两语音片段之间的对数似然比得分;4)选择得分最高的两类进行合并,根据层次聚类的方法逐步迭代至收敛,最终输出说话人分段聚类结果。本发明专利技术将总变化因子的不确定性引入到高斯概率线性判别分析模型进行训练和打分,能够提升短时语音片段上的基于因子分析的系统性能。

A speaker segmentation clustering method and system based on factor analysis

The present invention relates to a speaker segmentation clustering method and system based on factor analysis. The method comprises the following steps: 1) extracting acoustic features of speech training, training Gauss mixed universal background model, and then the total training change factor model and Gauss probability linear discriminant analysis model; 2) to test speech segmentation and extraction of acoustic characteristics of speech segments; 3) based on Gauss mixture model universal background model and total variation factor model of acoustics feature mapping for the extraction of total variation factor, load the Gauss probability linear discriminant analysis model, according to the total variation factor to calculate the log likelihood between two arbitrary speech segments than the score; 4) with selection of the highest scoring of the two categories, according to the hierarchical clustering method to iterative convergence, the final output of speaker segmentation and clustering results. The uncertainty of the total variation factor is introduced into the Gauss probability linear discriminant analysis model for training and scoring, which can improve the performance of the system based on Factor Analysis on short time speech clips.

【技术实现步骤摘要】
一种基于因子分析的说话人分段聚类方法及系统
本专利技术涉及的领域包括说话人识别、语音识别以及语音信号处理,具体的说,本专利技术采用的是一种基于因子分析的说话人分段聚类方法及系统。
技术介绍
说话人分段聚类技术研究就是自动进行“何人何时说话”分类标注的一种技术,又叫说话人日志。其任务就是把连续的语音流分割成单一说话人的语音片段,然后对相同说话人的语音片段进行聚类,附上相对区别性的标记。它实际上包含了两个过程:说话人分割,即检测说话人身份发生变化的点;说话人聚类,即将说话人身份相同的片段聚成一类。其中,说话人聚类是一个无监督的过程,因为没有音频文档中的说话人数目、说话人身份以及声学条件等先验知识。目前主流的说话人分段聚类系统,根据聚类方式的不同分为基于似然估计的系统、基于说话人特性的系统、基于距离模型的系统。在基于说话人特性的系统中基于因子分析的说话人分段聚类系统是目前主流的分段系统。但是基于总变化因子分析的说话人分段聚类系统,在切割之后的语音片段较短的情况下,提取的总变化因子包含的说话人信息少,且模型估计不准确,偏差较大。在此基础上直接进行打分会影响系统的性能。
技术实现思路
本专利技术的目的是为了解决现有的基于因子分析系统分段之后的语音片段较短,提取的总变化因子包含的说话人信息少,且不确定性大的问题,从而提出了一种基于因子分析的说话人分段聚类方法及系统,将总变化因子的不确定性进行传递,引入到高斯概率线性判别分析模型进行训练和打分,从而提升短时语音片段上的基于因子分析的系统性能。为了实现上述目的,本专利技术提供了一种基于因子分析的说话人分段聚类方法,所述方法包含以下步骤:1)提取训练语音的声学特征,训练高斯混合通用背景模型,进而训练总变化因子模型和高斯概率线性判别分析模型;2)输入测试语音,对测试语音进行分段并提取语音片段的声学特征;3)依据高斯混合通用背景模型、总变化因子模型将提取的声学特征映射为总变化量因子,并加载高斯概率线性判别分析模型,根据总变化量因子计算任意两语音片段之间的对数似然比得分;4)选择得分最高的两类进行合并,根据层次聚类的方法逐步迭代至收敛,最终输出说话人分段聚类结果。进一步地,上述方法中各步骤的具体实施过程如下:1)训练背景模型:A、根据不同测试集选择对应的训练语料,首先提取训练语音的声学特征,对声学特征进行建模,训练与说话人无关的高斯混合通用背景模型(GMM-UBM,GaussianMixtureModel-UniversalBackgroundModel)。B、根据训练好的GMM-UBM模型提取统计量,然后进行高维总变化因子分析,训练T模型,即总变化因子模型。总变化因子模型假设表示为:Mj=m+Twjwj~N(0,I)其中,Mj表示第说话人第j句话的高斯超向量,m表示GMM-UBM模型的均值超向量,wj为第j句话的总变化因子,符合标准的高斯分布,T表示总变化矩阵。C、根据GMM-UBM模型、T模型提取数据集的总变化因子,对总变化因子进行低维因子分析,训练高斯概率线性判别分析模型(ProbabilisticLinearDiscriminantAnalysis,PLDA),模型假设如下:u=m+Uy+e,E~N(0,Λ-1)其中,u表示第i个说话人的第j句话的总变化因子,m是模型的均值,U是本征音矩阵,y是本征因子,服从标准的高斯分布,e是残差因子,E表示残差矢量,Λ表示高斯分布的方差。在该模型假设中,本征因子y可以用来表征一个说话人。2)对测试语音进行静音、背景音乐检测,去掉非语音部分。3)提取测试语音的声学特征,此处提取60维的梅尔频率倒谱系数特征,等分语音段落为N段。加载UBM背景模型,提取统计量,加载T模型,提取每一段语音的总变化因子以及对应的协方差矩阵。4)假定N段语音为基类,采用层次聚类的方式,计算N类中任意两类的类间距离。5)采用全后验高斯概率线性判别分析的打分方式,计算类间距离。本专利技术提出了采用i-vector不确定性传递的PLDA模型,即全后验概率PLDA模型(fullposteriorpldamodels,FP-PLDA)。模型假设如下:其中,ui表示说话人的第i句话的总变化因子,表示第i句话对应的残差因子,Γi-1表示残差矩阵,该模型假设的形式与标准PLDA模型不同,ivector估计的不确定性通过Γi-1传递到PLDA模型中。6)为了防止PLDA打分方式依赖于得分区间的现象,采用改进的层次聚类方式。首先选取N*N矩阵中得分最大的一项,将对应的两基类进行合并。接着在(N-1)*(N-1)的矩阵中找到得分最大的一项,将两基类进行合并,迭代直到所有的类合并为N/2类。7)将N/2类作为基类,重复步骤6)逐步迭代,直到语音收敛到目标类,停止,输出带标注的聚类结果。总之,本专利技术的第一方面,提供了一种基于因子分析的说话人分段聚类方法,包括:对输入的训练语音,提取训练语音的声学特征,根据全局背景模型将声学特征映射为高斯超向量。利用总变化因子模型空间模型将高维的高斯超向量再映射为低维总变化量因子。该空间不区分说话人空间和信道空间,而是将这两个空间合并起来形成一个总变化空间,因为强制分离这两个空间的话可能会因为分离的不正确而丢失重要的信息。对低维总变化因子分析需要进一步的建模,采用了高斯概率线性判别分析建模,该模型能够在去除信道影响的基础上,更好地学习说话人类内及类间的信息,从而达到更好的表征说话人的作用。本专利技术的第二方面,提供了一种基于因子分析的说话人分段聚类系统,包括:前端处理模块,用于检测输入的语音数据中的彩铃、振玲、音乐、静音等非语音部分,只保留有效语音部分;特征提取模块,用于提取每句测试语音的声学特征;总变化量因子提取模块,用于提取包含说话人特性的总变化量因子以及表示不确定性的协方差矩阵。高斯概率线性判别分析打分模块,用于对提取的总变化因子矢量进行打分判断;层次聚类迭代模块,选择得分最高的两类进行合并,根据层次聚类的方法逐步迭代至收敛,最终输出说话人分段聚类结果。总变化因子估计的可靠性受多种因素的影响,其中语音的时长会影响总变化因子估计的不确定性,即总变化因子后验分布协方差矩阵。而语音切割之后的语音片段时长可能只有几秒钟,不同于说话人识别测试集那样有足够的语音时长。此种短语音片段的情况会降低总变化因子估计的准确性,进而影响整个日志系统的性能。传统的标准PLDA模型没有考虑每个总变化因子估计的不确定性,鉴于此,提出了采用总变化因子不确定性传递的PLDA模型,即全后验概率PLDA模型(FP-PLDA)。在该模型上进行打分,用于计算每个语音片段的总变化量因子的在模型上的得分。本专利技术相对于现有的说话人分段聚类系统具有以下有益效果:1、传统的基于因子分析的说话人分段聚类系统直接提取总变化因子,并进行因子分析建模打分。传统的标准PLDA模型没有考虑每个总变化因子估计的不确定性,本专利技术提取包含说话人特性的总变化量因子以及表示不确定性的协方差矩阵,并将不确定性传递到PLDA模型中,这样对于短时的语音片段,能够使总变化因子的估计更准确,更好的提取说话人信息。2、传统的层次聚类方式都是从得分矩阵中选择得分最大项进行类间合并再迭代,迭代过程中语音段落时长分布不均匀,影响得分的准确性。本专利技术选本文档来自技高网...
一种基于因子分析的说话人分段聚类方法及系统

【技术保护点】
一种基于因子分析的说话人分段聚类方法,其步骤包括:1)提取训练语音的声学特征,训练高斯混合通用背景模型,进而训练总变化因子模型和高斯概率线性判别分析模型;2)输入测试语音,对测试语音进行分段并提取语音片段的声学特征;3)依据高斯混合通用背景模型和总变化因子模型,将提取的声学特征映射为总变化量因子,并加载高斯概率线性判别分析模型,根据总变化量因子计算任意两语音片段之间的对数似然比得分;4)选择得分最高的两类进行合并,根据层次聚类的方法逐步迭代至收敛,最终输出说话人分段聚类结果。

【技术特征摘要】
1.一种基于因子分析的说话人分段聚类方法,其步骤包括:1)提取训练语音的声学特征,训练高斯混合通用背景模型,进而训练总变化因子模型和高斯概率线性判别分析模型;2)输入测试语音,对测试语音进行分段并提取语音片段的声学特征;3)依据高斯混合通用背景模型和总变化因子模型,将提取的声学特征映射为总变化量因子,并加载高斯概率线性判别分析模型,根据总变化量因子计算任意两语音片段之间的对数似然比得分;4)选择得分最高的两类进行合并,根据层次聚类的方法逐步迭代至收敛,最终输出说话人分段聚类结果。2.根据权利要求1所述的方法,其特征在于,步骤1)的模型训练过程包括:A、根据不同测试集选择对应的训练语音,提取训练语音的声学特征,对声学特征进行建模,训练与说话人无关的高斯混合通用背景模型;B、根据训练好的高斯混合通用背景模型提取统计量,然后进行高维总变化因子分析,训练总变化因子模型;C、根据高斯混合通用背景模型、总变化因子模型提取数据集的总变化因子,对总变化因子进行低维因子分析,训练高斯概率线性判别分析模型。3.根据权利要求2所述的方法,其特征在于,所述总变化因子模型表示为:其中,Mj表示第说话人第j句话的高斯超向量,m表示高斯混合通用背景模型模型的均值超向量,wj为第j句话的总变化因子,符合标准的高斯分布,T表示总变化矩阵。4.根据权利要求2所述的方法,其特征在于,所述高斯概率线性判别分析模型表示为:u=m+Uy+e,E~N(0,Λ-1),其中,u表示第i个说话人的第j句话的总变化因子,m是模型的均值,U是本征音矩阵,y是本征因子,服从标准的高斯分布,e是残差因子,E表示参差矢量,Λ表示高斯分布的方差。5.根据权利要求1所述的方法,其特征在于,步骤2)对测试语音加固定窗获取语音片段,根据贝叶斯信息准则模型计算相邻两语音片段的间距并合并,从而完成语音分段。6....

【专利技术属性】
技术研发人员:计哲颜永红安茂波陈燕妮苗权李鹏张震万辛
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1