同时优化深度表征学习与说话人类别估计的说话人聚类方法技术

技术编号：24173660 阅读：65 留言：0更新日期：2020-05-16 03:49

本发明专利技术公开了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法，步骤如下：对聚类语音样本进行预处理，提取I‑vector特征，训练卷积自编码网络并提取深度表征特征；根据深度表征特征构造初始类，得到类别数和初始类标签；在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架，Softmax层用于估计说话人类别；将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数，迭代更新联合优化框架参数直到满足收敛条件，得到各说话人的语音样本。本发明专利技术能同时得到优化的深度表征特征与说话人聚类结果，获得比传统方法更优的说话人聚类效果。

A speaker clustering method for deep representation learning and speaker specific estimation

全部详细技术资料下载

【技术实现步骤摘要】
同时优化深度表征学习与说话人类别估计的说话人聚类方法
本专利技术涉及说话人聚类与声纹识别
，具体涉及一种同时优化深度表征学习与说话人类别估计的说话人聚类方法。
技术介绍
近年来，随着深度学习技术的发展，声纹识别技术得到了飞跃进步。从传统的I-vector特征到基于深度特征变换的d-vector和x-vector特征，声纹识别已经从理论研究步入了实际应用，例如网络银行身份认证、犯罪侦查、机器人声纹唤醒、设备声纹解锁等等。但训练一个大型的声纹识别模型除了需要充足的训练数据以外，还需要知道每个样本所对应的说话人是哪一个。在实际应用中，训练数据可能来自于电话录音，视频网站等途径，如果要将从这些途径获得的数据全部进行人工标注，需要非常高的人力成本，且标注结果极有可能存在偏差。因此，在未知样本类别的前提下，对大量未知说话人的样本进行聚类，将说话人聚类结果作为各语音样本的标签，降低人工标注成本。
技术实现思路
本专利技术的目的是为了解决现有说话人聚类方法存在的以下不足：特征提取步骤与说话人聚类步骤独立进行，所提取的特征对聚类算法并不友好，不能得到较优的聚类结果，利用深度卷积自编码网络提取特征的优越性，提供了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法。本专利技术的目的可以通过采取如下技术方案达到：一种同时优化深度表征学习与说话人类别估计的说话人聚类方法，包括以下步骤：S1、对读入的待聚类语音样本进行预处理，提取I-vector特征；S2、训练卷积自编码网

【技术保护点】
1.一种同时优化深度表征学习与说话人类别估计的说话人聚类方法，其特征在于，包括以下步骤：/nS1、对读入的待聚类语音样本进行预处理，提取I-vector特征；/nS2、训练卷积自编码网络并从各语音样本提取深度表征特征；/nS3、根据各语音样本的深度表征特征构造初始类；/nS4、根据初始类标签，在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架；/nS5、将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件，得到各说话人的语音样本。/n

【技术特征摘要】
1.一种同时优化深度表征学习与说话人类别估计的说话人聚类方法，其特征在于，包括以下步骤：
S1、对读入的待聚类语音样本进行预处理，提取I-vector特征；
S2、训练卷积自编码网络并从各语音样本提取深度表征特征；
S3、根据各语音样本的深度表征特征构造初始类；
S4、根据初始类标签，在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架；
S5、将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件，得到各说话人的语音样本。

2.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法，其特征在于，所述的步骤S1中对读入的待聚类语音样本进行预处理，提取I-vector特征的过程如下：
S1.1、将信号通过一阶高通滤波器进行预加重，并使用汉明窗进行分帧；
S1.2、对经过预处理的时域信号进行傅里叶变换，得到频域信号；
S1.3、对频域信号进行梅尔滤波并取对数能量谱，将对数能量谱经过离散余弦变换得到梅尔频率倒谱系数，即MFCC特征；
S1.4、第t帧语音样本的D维MFCC特征xt对应的似然概率用M个高斯分量加权表示：

其中ωm表示第m个高斯分量的权重，pm(xt)表示高斯混合模型第m个高斯分量的分布函数：

其中μm和Σm分别表示高斯混合模型中第m个混合成分的均值矢量和协方差矩阵，对于所有语音帧X＝[x1,...,xT]，输出概率为：

用期望最大化算法训练高斯混合模型，获得模型参数
λ＝{ωm,μm,Σm}m＝1,2,...,M；
S1.5、基于高斯混合模型参数求解估计总变化子空间矩阵T所需要的充分统计量，采用期望最大化算法对T矩阵进行估计，并根据下面的公式得到I-vector特征：
M(j)＝m+Tw(j)，
其中，M(j)是基于高斯混合模型最大后验概率计算得到的第j个语音样本均值超矢量，m是高斯混合模型的均值超矢量，w(j)则是第j个语音样本的I-vector特征矢量。

3.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法，其特征在于，所述的步骤S2中训练卷积自编码网络并从各语音样本提取深度表征特征的过程如下：
S2.1、各语音样本表示为[v1,v2,...,vN]，提取出的I-vector特征为其中，是K维的I-vector矢量，将N个K维的I-vector特征矢量作为卷积自编码网络的输入，为训练去噪自编码网络，随机选取一定比例的编码器输出层的神经元并使之失活，编码器各层的输出定义为：

其中，是第i个语音样本在编码器第h层的深度表征特征，Weh和是编码器第h层的权重和偏置，Dr[·]是随机失活操作，ψ(·)是激活函数，这里使用修正线性整流单元，定义为：
ψ(x)＝max(0,x)，
经编码、解码之后的输出记为自编码网络的输入和输出是维度相同的矩阵，自编码网络的训练误差定义为输入和输出之间的均方误差：

在训练误差收敛之后退出训练，并保存联合优化框架的参数；
S2.2、去掉随机失活操作，将各语音样本的I-...

【专利技术属性】
技术研发人员：李艳雄，王武城，刘名乐，江钟杰，陈昊，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人