一种基于高斯均值超矢量与谱聚类的录音设备聚类方法技术

技术编号:15824074 阅读:51 留言:0更新日期:2017-07-15 05:51
本发明专利技术提供一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,首先,从语音样本中提取刻画录音设备特性的梅尔频率倒谱系数MFCC特征;接着,将全部语音样本的MFCC特征作为输入,采用期望最大化EM算法训练一个通用背景模型UBM;然后以每个语音样本的MFCC特征作为输入,采用最大后验概率MAP算法更新UBM参数,得到每个语音样本的高斯混合模型GMM;将每个GMM的所有高斯分量的均值矢量依次拼接,构成高斯均值超矢量;最后,采用谱聚类算法对所有语音样本的高斯均值超矢量进行聚类,估计录音设备个数并将相同录音设备的语音样本合并。本发明专利技术无需知道录音设备类型、个数等先验知识,就能找出相同录音设备采集的语音样本,适用范围更广。

【技术实现步骤摘要】
一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
本专利技术涉及智能语音信号处理、模式识别与音频取证
,特别是涉及一种基于高斯均值超矢量与谱聚类的录音设备聚类方法。
技术介绍
随着语音取证技术的发展,基于语音样本的录音设备辨识已取得较好效果,在司法取证中具有重要意义。录音设备采集的语音证据已成为常见证据形式之一,被大量递交到法庭或者其他执法机构,对破案具有重要作用。在实际案例中,可能由于录音设备标签信息丢失、设备损坏、设备识别结果不确定等因素,导致录音设备的识别结果受到影响,从而降低其在法庭取证中的认可度;另一方面,当法官面对大量被递交上来的语音样本时,首要关心的可能并不是录音设备所属的类别,而是想知道哪些语音样本来自于相同的录音设备。此时,法官所要面对的问题变为:在未知任何录音设备先验信息的情况下,如何估计用于采集语音样本的录音设备个数并将相同录音设备的语音样本合并在一起。
技术实现思路
本专利技术的目的在于克服现有技术的不足和缺点,提供了一种基于高斯均值超矢量与谱聚类的录音设备聚类方法:对读入的语音样本进行预加重、分帧和加窗等预处理;从每帧语音中提取梅尔频率倒谱系数MFCC特征本文档来自技高网...
一种基于高斯均值超矢量与谱聚类的录音设备聚类方法

【技术保护点】
一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,其特征在于,包括下述步骤:S1、读入语音:读入由不同录音设备采集的语音样本;S2、预处理:对读入的语音样本进行预加重、分帧和加窗处理;S3、提取特征:从每帧语音中提取梅尔频率倒谱系数MFCC特征;S4、训练通用背景模型:以全部语音样本的梅尔频率倒谱系数MFCC特征作为输入,采用期望最大化EM算法训练生成一个通用背景模型UBM;S5、训练高斯混合模型:以某个语音样本的梅尔频率倒谱系数MFCC特征作为输入,采用最大后验概率MAP算法更新通用背景模型UBM参数,得到该语音样本对应的高斯混合模型GMM;S6、构造高斯均值超矢量:将某个高斯混合模型GMM...

【技术特征摘要】
1.一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,其特征在于,包括下述步骤:S1、读入语音:读入由不同录音设备采集的语音样本;S2、预处理:对读入的语音样本进行预加重、分帧和加窗处理;S3、提取特征:从每帧语音中提取梅尔频率倒谱系数MFCC特征;S4、训练通用背景模型:以全部语音样本的梅尔频率倒谱系数MFCC特征作为输入,采用期望最大化EM算法训练生成一个通用背景模型UBM;S5、训练高斯混合模型:以某个语音样本的梅尔频率倒谱系数MFCC特征作为输入,采用最大后验概率MAP算法更新通用背景模型UBM参数,得到该语音样本对应的高斯混合模型GMM;S6、构造高斯均值超矢量:将某个高斯混合模型GMM的所有高斯分量的均值矢量依次拼接,构成该高斯混合模型GMM的高斯均值超矢量;S7、录音设备聚类:采用谱聚类算法对全部语音样本的高斯均值超矢量进行聚类,估计录音设备个数并将相同录音设备的语音样本合并。2.根据权利要求1所述的一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,其特征在于,所述步骤S2中语音预处理包括以下步骤:S2.1、预加重:设置数字滤波器的传递函数为H(z)=1-αz-1,其中α为一个系数且取值为:0.9≤α≤1,读入的语音通过该数字滤波器后实现预加重;S2.2、分帧:设置语音帧的帧长为25毫秒、帧移为10毫秒,帧长和帧移所对应的采样点个数分别为N=0.025×fs和S=0.01×fs,其中fs为语音采样频率,将读入的语音切分成语音帧x′t(n),1≤t≤T,0≤n≤N-1,其中T和N分别表示语音帧数和每帧语音的采样点数;S2.3、加窗:窗函数ω(n)为汉明窗:将每帧语音x′t(n)与汉明窗ω(n)相乘得到加窗后的语音xt(n):xt(n)=ω(n)×x′t(n)n=0,1,...,N-1;t=1,2,...,T。3.根据权利要求1所述的一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,其特征在于,所述步骤S3中提取语音信号特征的步骤如下:S3.1、对第t帧语音xt(n)做离散傅立叶变换得到线性频谱Xt(k):S3.2、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<D,D为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:其中,0≤m<D,f(m)定义如下:其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:B-1(b)=700(eb/1125-1)因此由线性谱Xt(k)到对数谱St(m)的变换为:S3.3、采用离散余弦变换将上述对数频谱St(m)变换到倒谱域,得到第t帧的MFCC特征,即Ct(p):S3.4、对每帧语音重复步骤S3.1-S3.3,得到所有T帧语音的梅尔频率倒谱系数MFCC特征,将它们按帧的顺序组合成一个梅尔频率倒谱系数MFCC特征矩阵。4.根据权利要求1所述的一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,其特征在于,所述步骤S4采用期望最大化EM算法训练通用背景模型UBM的步骤包括:S4.1、包含G个高斯分量的通用背景模型UBM表示为:θ={wi,μi,Σi}1≤i≤G其中wi表示第i个高斯分量的权重系数,μi表示第i个高斯分量的均值矢量,∑i表示第i个高斯分量的协方差矩阵;第t帧语音的特征矩阵Ft输入θ的输出概率为:其中bi(Ft)表示第i个高斯分量的概率分布,表示为:其中D和Ft分别表示特征维数和第t帧语音的特征矩阵,所有T帧语音的特征矩阵F=[F1,…,Ft,…,FT]T,T表示矩阵转置运算,F输入θ的输出概率为:S4.2、求期望:计算函数Q(θ,θ*):Q(θ,θ*)=E{lnP[(F,i)|θ]}整理得:其中θ*表示迭代更新后的通用背景模型,ln(·)表示自然对数函数,P(i|Ft,θ*)表示更新后的UBM的第i个高斯对特征矩阵Ft的输出概率,P(i|Ft,θ)表示更新前的UBM的第i个高斯对特征矩阵Ft的输出概率,P(i|Ft,θ*)与P(i|Ft,θ)的表达式相同,只需用当前迭代后的UBM参数代替当前迭代前的UBM参数即可,根据贝叶斯公式,特征矩阵Ft在第i个高斯的概率为:其中P...

【专利技术属性】
技术研发人员:李艳雄张雪李先苦张聿晗
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1