同时优化深度表征学习与说话人类别估计的说话人聚类方法技术

技术编号:24173660 阅读:65 留言:0更新日期:2020-05-16 03:49
本发明专利技术公开了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,步骤如下:对聚类语音样本进行预处理,提取I‑vector特征,训练卷积自编码网络并提取深度表征特征;根据深度表征特征构造初始类,得到类别数和初始类标签;在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架,Softmax层用于估计说话人类别;将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数,迭代更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本。本发明专利技术能同时得到优化的深度表征特征与说话人聚类结果,获得比传统方法更优的说话人聚类效果。

A speaker clustering method for deep representation learning and speaker specific estimation

【技术实现步骤摘要】
同时优化深度表征学习与说话人类别估计的说话人聚类方法
本专利技术涉及说话人聚类与声纹识别
,具体涉及一种同时优化深度表征学习与说话人类别估计的说话人聚类方法。
技术介绍
近年来,随着深度学习技术的发展,声纹识别技术得到了飞跃进步。从传统的I-vector特征到基于深度特征变换的d-vector和x-vector特征,声纹识别已经从理论研究步入了实际应用,例如网络银行身份认证、犯罪侦查、机器人声纹唤醒、设备声纹解锁等等。但训练一个大型的声纹识别模型除了需要充足的训练数据以外,还需要知道每个样本所对应的说话人是哪一个。在实际应用中,训练数据可能来自于电话录音,视频网站等途径,如果要将从这些途径获得的数据全部进行人工标注,需要非常高的人力成本,且标注结果极有可能存在偏差。因此,在未知样本类别的前提下,对大量未知说话人的样本进行聚类,将说话人聚类结果作为各语音样本的标签,降低人工标注成本。
技术实现思路
本专利技术的目的是为了解决现有说话人聚类方法存在的以下不足:特征提取步骤与说话人聚类步骤独立进行,所提取的特征对聚类算法并不友好,不能得到较优的聚类结果,利用深度卷积自编码网络提取特征的优越性,提供了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法。本专利技术的目的可以通过采取如下技术方案达到:一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,包括以下步骤:S1、对读入的待聚类语音样本进行预处理,提取I-vector特征;S2、训练卷积自编码网络并从各语音样本提取深度表征特征;S3、根据各语音样本的深度表征特征构造初始类;S4、根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架;S5、将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本。进一步地,在步骤S1中,对读入的待聚类语音样本进行预处理,提取I-vector特征的过程如下:S1.1、将信号通过一阶高通滤波器进行预加重,并使用汉明窗进行分帧;S1.2、对经过预处理的时域信号进行傅里叶变换,得到频域信号;S1.3、对频域信号进行梅尔滤波并取对数能量谱,将对数能量谱经过离散余弦变换得到梅尔频率倒谱系数MFCC特征(MelFrequencyCepstralCoefficients,MFCC);S1.4、第t帧语音样本的D维MFCC特征xt对应的似然概率用M个高斯分量加权表示:其中ωm表示第m个高斯分量的权重,pm(xt)表示高斯混合模型第m个高斯分量的分布函数:其中μm和Σm分别表示高斯混合模型中第m个混合成分的均值矢量和协方差矩阵,对于所有语音帧X=[x1,...,xT],输出概率为:用期望最大化算法训练高斯混合模型,获得模型参数λ={ωm,μm,Σm}m=1,2,...,M;S1.5、基于高斯混合模型参数求解估计总变化子空间矩阵T所需要的充分统计量,采用期望最大化算法对T矩阵进行估计,并根据下面的公式得到I-vector特征:M(j)=m+Tw(j),其中,M(j)是基于高斯混合模型最大后验概率计算得到的第j个语音样本均值超矢量,m是高斯混合模型的均值超矢量,w(j)则是第j个语音样本的I-vector特征矢量。进一步地,在步骤S2中,训练卷积自编码网络并从各语音样本提取深度表征特征的过程如下:S2.1、各语音样本表示为[v1,v2,...,vN],提取出的I-vector特征为其中,i=1,2,…,N是K维的I-vector矢量,将N个K维的I-vector特征矢量作为卷积自编码网络的输入,为训练去噪自编码网络,随机选取一定比例的编码器输出层的神经元并使之失活(置零),编码器各层的输出定义为:其中,是第i个语音样本在编码器第h层的深度表征特征,Weh和是编码器第h层的权重和偏置,Dr[·]是随机失活操作,ψ(·)是激活函数,这里使用修正线性整流单元,定义为:ψ(x)=max(0,x),经编码、解码之后的输出记为自编码网络的输入和输出是维度相同的矩阵,自编码网络的训练误差定义为输入和输出之间的均方误差:在训练误差收敛之后退出训练,并保存联合优化框架的参数;S2.2、去掉随机失活操作,将各语音样本的I-vector特征矢量输入训练完毕的自编码网络,在编码器的终端输出对应的深度表征特征。进一步地,在步骤S3中,根据各语音样本的深度表征特征构造初始类的具体过程如下:S3.1、将各语音样本的深度表征特征都作为一类,并计算每两个类之间的欧式距离;S3.2、寻找各个类之间距离最近的两个类,把它们归成一类,并取上述两个类中的深度表征特征的均值作为合并后的新类;S3.3、重新计算上述新类和各个旧类之间的欧式距离;S3.4、重复S3.2和S3.3,直到当前聚类类别数等于给定类别数,获得初始类别估计的结果。进一步地,在步骤S4中,根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架的具体过程为:S4.1、将S个说话人记作S个聚类簇,根据类别估计的结果,将S个簇依次标记为0,1,...,S-1,归属于同一个簇的样本具有相同的标签;S4.2、为了给聚类算法提供更好的深度表征特征,在深度卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层,构成单输入、双输出端的网络结构,如图2所示,其中,深度卷积自编码网络包括依次连接的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1,解码层3的另一输出端依次连接全连接层和Softmax层,特征输入到编码层1,解码层1的输出作为第二输出端口,Softmax层的输出端作为第一输出端口,其中,第一输出端口(即图2中“输出1”)是Softmax层的预测类别输出,第二输出端口(即图2中“输出2”)是解码层1对编码层1的特征输入的重构。进一步地,所述的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1均是卷积层,且编码层1、编码层2、编码层3的输出端都进行随机失活操作。进一步地,步骤S5中,将卷积自编码网络的重构误差与Softmax层的类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本的过程如下:S5.1、联合优化框架的误差函数表达式如下:其中,第一项表示自编码网络重构误差,第二项为聚类误差,α1和α2表示权重系数,调整这两个值使训练目标偏向于优化深度表征学习,为聚类算法生成更优的表征特征,pis和qis分别表示预测结果和标签中第i个样本的特征属于第s个簇的概率,pis定义为:其中,是Softmax层的参数,T表示转置操作,qis定义为:...

【技术保护点】
1.一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,包括以下步骤:/nS1、对读入的待聚类语音样本进行预处理,提取I-vector特征;/nS2、训练卷积自编码网络并从各语音样本提取深度表征特征;/nS3、根据各语音样本的深度表征特征构造初始类;/nS4、根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架;/nS5、将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本。/n

【技术特征摘要】
1.一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,包括以下步骤:
S1、对读入的待聚类语音样本进行预处理,提取I-vector特征;
S2、训练卷积自编码网络并从各语音样本提取深度表征特征;
S3、根据各语音样本的深度表征特征构造初始类;
S4、根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架;
S5、将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本。


2.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,所述的步骤S1中对读入的待聚类语音样本进行预处理,提取I-vector特征的过程如下:
S1.1、将信号通过一阶高通滤波器进行预加重,并使用汉明窗进行分帧;
S1.2、对经过预处理的时域信号进行傅里叶变换,得到频域信号;
S1.3、对频域信号进行梅尔滤波并取对数能量谱,将对数能量谱经过离散余弦变换得到梅尔频率倒谱系数,即MFCC特征;
S1.4、第t帧语音样本的D维MFCC特征xt对应的似然概率用M个高斯分量加权表示:



其中ωm表示第m个高斯分量的权重,pm(xt)表示高斯混合模型第m个高斯分量的分布函数:



其中μm和Σm分别表示高斯混合模型中第m个混合成分的均值矢量和协方差矩阵,对于所有语音帧X=[x1,...,xT],输出概率为:



用期望最大化算法训练高斯混合模型,获得模型参数
λ={ωm,μm,Σm}m=1,2,...,M;
S1.5、基于高斯混合模型参数求解估计总变化子空间矩阵T所需要的充分统计量,采用期望最大化算法对T矩阵进行估计,并根据下面的公式得到I-vector特征:
M(j)=m+Tw(j),
其中,M(j)是基于高斯混合模型最大后验概率计算得到的第j个语音样本均值超矢量,m是高斯混合模型的均值超矢量,w(j)则是第j个语音样本的I-vector特征矢量。


3.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,所述的步骤S2中训练卷积自编码网络并从各语音样本提取深度表征特征的过程如下:
S2.1、各语音样本表示为[v1,v2,...,vN],提取出的I-vector特征为其中,是K维的I-vector矢量,将N个K维的I-vector特征矢量作为卷积自编码网络的输入,为训练去噪自编码网络,随机选取一定比例的编码器输出层的神经元并使之失活,编码器各层的输出定义为:



其中,是第i个语音样本在编码器第h层的深度表征特征,Weh和是编码器第h层的权重和偏置,Dr[·]是随机失活操作,ψ(·)是激活函数,这里使用修正线性整流单元,定义为:
ψ(x)=max(0,x),
经编码、解码之后的输出记为自编码网络的输入和输出是维度相同的矩阵,自编码网络的训练误差定义为输入和输出之间的均方误差:



在训练误差收敛之后退出训练,并保存联合优化框架的参数;
S2.2、去掉随机失活操作,将各语音样本的I-...

【专利技术属性】
技术研发人员:李艳雄王武城刘名乐江钟杰陈昊
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1