The present invention relates to a speaker segmentation clustering method and system based on factor analysis. The method comprises the following steps: 1) extracting acoustic features of speech training, training Gauss mixed universal background model, and then the total training change factor model and Gauss probability linear discriminant analysis model; 2) to test speech segmentation and extraction of acoustic characteristics of speech segments; 3) based on Gauss mixture model universal background model and total variation factor model of acoustics feature mapping for the extraction of total variation factor, load the Gauss probability linear discriminant analysis model, according to the total variation factor to calculate the log likelihood between two arbitrary speech segments than the score; 4) with selection of the highest scoring of the two categories, according to the hierarchical clustering method to iterative convergence, the final output of speaker segmentation and clustering results. The uncertainty of the total variation factor is introduced into the Gauss probability linear discriminant analysis model for training and scoring, which can improve the performance of the system based on Factor Analysis on short time speech clips.
【技术实现步骤摘要】
一种基于因子分析的说话人分段聚类方法及系统
本专利技术涉及的领域包括说话人识别、语音识别以及语音信号处理,具体的说,本专利技术采用的是一种基于因子分析的说话人分段聚类方法及系统。
技术介绍
说话人分段聚类技术研究就是自动进行“何人何时说话”分类标注的一种技术,又叫说话人日志。其任务就是把连续的语音流分割成单一说话人的语音片段,然后对相同说话人的语音片段进行聚类,附上相对区别性的标记。它实际上包含了两个过程:说话人分割,即检测说话人身份发生变化的点;说话人聚类,即将说话人身份相同的片段聚成一类。其中,说话人聚类是一个无监督的过程,因为没有音频文档中的说话人数目、说话人身份以及声学条件等先验知识。目前主流的说话人分段聚类系统,根据聚类方式的不同分为基于似然估计的系统、基于说话人特性的系统、基于距离模型的系统。在基于说话人特性的系统中基于因子分析的说话人分段聚类系统是目前主流的分段系统。但是基于总变化因子分析的说话人分段聚类系统,在切割之后的语音片段较短的情况下,提取的总变化因子包含的说话人信息少,且模型估计不准确,偏差较大。在此基础上直接进行打分会影响系统的性能。
技术实现思路
本专利技术的目的是为了解决现有的基于因子分析系统分段之后的语音片段较短,提取的总变化因子包含的说话人信息少,且不确定性大的问题,从而提出了一种基于因子分析的说话人分段聚类方法及系统,将总变化因子的不确定性进行传递,引入到高斯概率线性判别分析模型进行训练和打分,从而提升短时语音片段上的基于因子分析的系统性能。为了实现上述目的,本专利技术提供了一种基于因子分析的说话人分段聚类方法,所述方法包含 ...
【技术保护点】
一种基于因子分析的说话人分段聚类方法,其步骤包括:1)提取训练语音的声学特征,训练高斯混合通用背景模型,进而训练总变化因子模型和高斯概率线性判别分析模型;2)输入测试语音,对测试语音进行分段并提取语音片段的声学特征;3)依据高斯混合通用背景模型和总变化因子模型,将提取的声学特征映射为总变化量因子,并加载高斯概率线性判别分析模型,根据总变化量因子计算任意两语音片段之间的对数似然比得分;4)选择得分最高的两类进行合并,根据层次聚类的方法逐步迭代至收敛,最终输出说话人分段聚类结果。
【技术特征摘要】
1.一种基于因子分析的说话人分段聚类方法,其步骤包括:1)提取训练语音的声学特征,训练高斯混合通用背景模型,进而训练总变化因子模型和高斯概率线性判别分析模型;2)输入测试语音,对测试语音进行分段并提取语音片段的声学特征;3)依据高斯混合通用背景模型和总变化因子模型,将提取的声学特征映射为总变化量因子,并加载高斯概率线性判别分析模型,根据总变化量因子计算任意两语音片段之间的对数似然比得分;4)选择得分最高的两类进行合并,根据层次聚类的方法逐步迭代至收敛,最终输出说话人分段聚类结果。2.根据权利要求1所述的方法,其特征在于,步骤1)的模型训练过程包括:A、根据不同测试集选择对应的训练语音,提取训练语音的声学特征,对声学特征进行建模,训练与说话人无关的高斯混合通用背景模型;B、根据训练好的高斯混合通用背景模型提取统计量,然后进行高维总变化因子分析,训练总变化因子模型;C、根据高斯混合通用背景模型、总变化因子模型提取数据集的总变化因子,对总变化因子进行低维因子分析,训练高斯概率线性判别分析模型。3.根据权利要求2所述的方法,其特征在于,所述总变化因子模型表示为:其中,Mj表示第说话人第j句话的高斯超向量,m表示高斯混合通用背景模型模型的均值超向量,wj为第j句话的总变化因子,符合标准的高斯分布,T表示总变化矩阵。4.根据权利要求2所述的方法,其特征在于,所述高斯概率线性判别分析模型表示为:u=m+Uy+e,E~N(0,Λ-1),其中,u表示第i个说话人的第j句话的总变化因子,m是模型的均值,U是本征音矩阵,y是本征因子,服从标准的高斯分布,e是残差因子,E表示参差矢量,Λ表示高斯分布的方差。5.根据权利要求1所述的方法,其特征在于,步骤2)对测试语音加固定窗获取语音片段,根据贝叶斯信息准则模型计算相邻两语音片段的间距并合并,从而完成语音分段。6....
【专利技术属性】
技术研发人员:计哲,颜永红,安茂波,陈燕妮,苗权,李鹏,张震,万辛,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。