基于深度堆栈自编码网络的说话人识别方法技术

技术编号：20366631 阅读：23 留言：0更新日期：2019-02-16 18:14

本发明专利技术涉及一种基于深度堆栈自编码网络的说话人识别方法，S1：说话人特征提取；S2：堆栈自编码器的网络设计；S3：说话人识别与决策。本发明专利技术与传统说话人识别相比，将深度堆栈自编码网络与说话人识别系统模型相融合，结合堆栈自编码器的多层结构在提高评价模型的表征能力方面的显著效果，本发明专利技术的说话人识别方法在存在背景噪声的环境下能够有限提升系统的识别性能，在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时，优化系统结构，使识别实时性得到有效增强。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度堆栈自编码网络的说话人识别方法
本专利技术计算机视觉
，尤其涉及一种基于深度堆栈自编码网络的说话人识别方法。
技术介绍
说话人识别又称声纹识别，是利用语音信号中含有的特定说话人信息来识别说话人身份的一种生物认证技术。近年来，基于因子分析的身份认证矢量(identityvector,i-vector)说话人建模方法的引入使得说话人识别系统的性能有了明显提升。I-vector用一个低维的总变量空间来表示说话人子空间和信道子空间，并将说话人语音映射到该空间得到一个固定长度的矢量表征(即i-vector)。基于i-vector的说话人识别系统主要包括充分统计量的提取、i-vector映射、似然比得分计算3个步骤。然而，i-vector模型框架中总体变化模型和线性判别分析模型可行性的前提是说话人信息和通道信息线性可分，实际上线性可分难以准确地将两者有效分离，这就限制了模型在复杂实际环境中的性能。近年来，得益于深度学习较强的深层信息抽取和非线性建模能力，深度学习理论在诸多机器学习领域都取得了成功的应用。为了进一步提高文本无关说话人识别的性能和鲁棒性，将深度学习引入到说话人识别的建模框架中，利用深度学习模型具有的深度非线性结构特征，进行了性能评估和分析。
技术实现思路
基于
技术介绍
存在的技术问题，本专利技术提出一种基于深度堆栈自编码网络的说话人识别方法。一种基于深度堆栈自编码网络的说话人识别方法，方法步骤如下：S1：说话人特征提取；S2：堆栈自编码器的网络设计；S3：说话人识别与决策。优选的，所述S1中包括以下步骤：1)采集原始语音信号并依次预加重、分帧、加窗...

【技术保护点】
1.一种基于深度堆栈自编码网络的说话人识别方法，其特征在于，方法步骤如下：S1：说话人特征提取；S2：堆栈自编码器的网络设计；S3：说话人识别与决策。

【技术特征摘要】
1.一种基于深度堆栈自编码网络的说话人识别方法，其特征在于，方法步骤如下：S1：说话人特征提取；S2：堆栈自编码器的网络设计；S3：说话人识别与决策。2.根据权利要求1所述的一种基于深度堆栈自编码网络的说话人识别方法，其特征在于，所述S1中包括以下步骤：1)采集原始语音信号并依次预加重、分帧、加窗，快速傅里叶变换、三角窗滤波、求对数、离散傅里叶变换、差分参数、短时能量，获得MFCC系数；2)给出一组训练按步骤1)提取出MFCC特征，训练高斯混合-通用背景模型；3)将目标说话人和待识别说话人的语音按步骤1)提取出MFCC特征，训练高斯混合-通用背景模型来对语音声学特征进行对准，并计算得到特征的高维充分统计量。3.根据权利要求1所述的一种基于深度堆栈自编码网络的说话人识别方法，其特征在于，所述S2中包括以下步骤：1)将多层稀疏自动编码器组成堆栈式自动编码器；2)加入无监督的预训练和有监督的微调。4.根据权利要求1所述的一种基于深度堆栈自编码网络的说话人识别方法，其特征在于，所述S3中包括以下步骤：1)在后端测试阶段，当给出一条测试语音...

【专利技术属性】
技术研发人员：曾春艳，马超峰，武明虎，叶佳翔，朱莉，王娟，吕松南，朱栋梁，蔡松，
申请(专利权)人：湖北工业大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人