基于高斯超矢量和深度神经网络的说话人识别方法技术

技术编号：21835899 阅读：40 留言：0更新日期：2019-08-10 19:14

本发明专利技术公开了一种基于高斯超矢量和深度神经网络的说话人识别方法，包括说话人特征提取阶段，深度神经网络设计阶段，说话人识别与决策阶段，本发明专利技术通过深度神经网络与说话人识别系统模型相融合，结合高斯超矢量和深度神经网络的多层结构在提高评价模型的表征能力方面的显著效果，并且本发明专利技术提出的说话人识别方法在背景噪声的环境下能够有效提升系统的识别性能，在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时，优化系统结构，提高了相应说话人识别产品的竞争力。

Speaker Recognition Based on Gauss Supervector and Depth Neural Network

全部详细技术资料下载

【技术实现步骤摘要】
基于高斯超矢量和深度神经网络的说话人识别方法
本专利技术涉及语音识别
，尤其涉及一种基于高斯超矢量和深度神经网络的说话人识别方法。
技术介绍
说话人识别，是一种基于语音信息实现的特殊生物识别技术。经过几十年的发展，目前无噪声干扰条件下说话人识别技术已经较为成熟。目前主流的方法有GMM-UBM、GMM-SVM和i-vector。然而在实际应用环境下，由于背景噪声和信道噪声的存在，说话人识别算法性能会明显下降。因此，如何提高现有说话人识别系统的噪声鲁棒性成为近年来该领域的研究热点。为解决这一问题，研究人员已在语音信号处理的不同层面做出尝试。相关文献证实，在信号处理领域的相关识别算法能否取得好的效果取决于噪声的类型和信噪比的大小。对于语音来说，特征真实的概率分布依赖于特定的说话人并且是多模态的。然而，在实际应用场景中，信道的不匹配和加性噪声等因素会破坏特征真实的概率分布。相关研究通过将具有噪声鲁棒性的语音特征与倒谱均值方差归一化等技术结合，在一定条件下可以调整特征的概率分布，达到降低噪声对系统性能影响的目的。特征弯折算法(featurewarping)是将训练和测试语音的特征向量的分布映射到统一的概率分布中，经过映射后的特征向量的每一维都服从标准正态分布，在一定程度上补偿了信道不匹配和加性噪声对特征分布造成的影响。但是，对基于不同语音特征的识别算法进行比较可以发现，识别性能是否改善与噪声的类型和信噪比也是紧密相关的。当环境中含有少量噪声时，基于特征域的相关算法考虑到噪声对特征分布特性的影响，通过分布映射等方式调整特征分布可以提高系统的噪声鲁棒性。但是，随着...

【技术保护点】
1.一种基于高斯超矢量和深度神经网络的说话人识别方法，应用于说话人识别，其特征在于，所述基于高斯超矢量和深度神经网络的说话人识别方法包括：S1：说话人特征提取；1‑1)采集原始语音信号并依次预加重、分帧、加窗，快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN)；1‑11)预加重：为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分y＝x(n)‑a*x(n‑1)，0.95＜a＜0.97 (1)式中x(n)表示输入信号；1‑12)分帧：将N个采样点集合成一个观测单位，称为帧；1‑13)加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性,x(n)表示分帧之后的信号

【技术特征摘要】
1.一种基于高斯超矢量和深度神经网络的说话人识别方法，应用于说话人识别，其特征在于，所述基于高斯超矢量和深度神经网络的说话人识别方法包括：S1：说话人特征提取；1-1)采集原始语音信号并依次预加重、分帧、加窗，快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN)；1-11)预加重：为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分y＝x(n)-a*x(n-1)，0.95＜a＜0.97(1)式中x(n)表示输入信号；1-12)分帧：将N个采样点集合成一个观测单位，称为帧；1-13)加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性,x(n)表示分帧之后的信号1-14)快速傅里叶变换(FFT)：将时域信号转化到频域进行后续的频率分析式中s(n)表示输入的语音信号，N表示傅里叶变换的帧数；1-15)将能量谱通过一组Mel尺度的三角形滤波器组，定义为一个有M个三角滤波器的滤波器组，中心频率为f(m)，m＝1,2,…,M；各f(m)之间的间隔与m值成正比；1-16)经离散余弦变换(DCT)得到MFCC系数：将上述的对数能量带入离散余弦变换，式中M为三角滤波器的个数；L是MFCC系数的阶数；1-17)差分：为了使特征更能体现时域连续性，可以在特征维度增加前后帧信息的维度，常用的是一阶差分和二阶差分；1-18)倒谱均值和方差归一化可以消除平稳信道影响，提升特征的鲁棒性；1-2)给出一组训练按步骤1-1)提取出MFCC特征，训练通用背景模型(UniversalBackgroundModel，UBM)；1-21)若某条语音数据对应的特征为X，其中X＝{x1,x2,…xT}，且假设其维度为D，用于计算其似然函数的公式为：式中该密度函数由K个单高斯密度函数pk(Xt)加权得到，其中每一个高斯分量的均值μk和协方差∑k的大小分别为：1×D和D×D；其中混合权重wk满足假设λ表示模型参数的集合，则有λ＝{wk,μi,∑k}，k＝1,2,…,K，该模型通过期望最大化(EM)迭代训练得出；1-22)一般用EM算法获取参数λ，先给予λ一个初始值，然后估计出新参数λ′，使得在λ′下的似然度更高，即p(X|λ′)≥p(X|λ)，新参数再作为当前参数进行训练，不断迭代，各参数的重估计公式为：1-3)首先对目标说话人和待识别说话人的语音应用步骤1-1)，提取出MFCC特征，然后应用步骤1-2)中UBM模型对每个特征向量进行最大后验概率(Maximumaposteriori,MAP)操作,提取出高斯超矢量；1-31)传统的GMM-UBM模型在此阶段，首先对S个人的特征向量分别训练得到特定说话人GMM，记为λ1,λ2,…,λs，在识别...

【专利技术属性】
技术研发人员：曾春艳，马超峰，武明虎，朱栋梁，赵楠，朱莉，王娟，
申请(专利权)人：湖北工业大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人