The invention is applicable to the field of identity authentication technology, and provides a device, a voice recognition method comprises the following steps: preprocessing of the input speech, obtaining effective speech in MFCC; voice acoustic feature extraction, the output contains the first and the second characteristic matrix of MFCC dimension and speech frames; when the length of construction of recurrent neural network the model, and the first feature matrix as input; extracting matrix by using the neural network model training parameters and speech feature training feature matrix corresponding to a speaker model to extract each feature; select speaker model matching second feature matrix, the speaker output corresponding to the speaker model, the voiceprint recognition results. The invention adopts a supervised learning approach to training the voiceprint background model, to dig out the acoustic features more suitable from the training speech, which can distinguish the difference of speaker characteristics more accurately, to learn the speaker model more robust, obtain a better recognition effect of voiceprint.
【技术实现步骤摘要】
一种声纹识别方法及装置
本专利技术属于身份认证
,尤其涉及一种声纹识别方法及装置。
技术介绍
声纹识别也称为说话人识别,用于判断某段语音是若干人中的哪一个所说的或者用于确认某段语音是否是指定的某个人所说的,是一项根据语音波形反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。目前,声纹识别广泛应用于互联网、银行系统、公安司法等领域。声纹,是用电声学仪器显示的携带言语信息的声波频谱。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。业界主流的声纹识别方法一般需要先对说话人的声纹进行建模,通常是对全局背景模型预先进行训练。现有的声纹模型中,主要采用混合高斯模型来训练通用的背景模型。由于基于无监督训练的混合高斯背景模型中并没有样本数据的类别信息,仅用以代表说话人空间中所有说话人的特征,是一个单一的说话人无关的背景模型,因此难以准确地辨别说话人的差异性特征,最终导致对说话人的声纹进行识别时,识别准确率低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种声纹识别方法及装置,以解决现有技术难以准确地辨别说话人的差异性特征,从而导致声纹识别准确率较低的问题。第一方面,提供了一种声纹识别方法,包括:分别对输入的K条语音进行预处理,以获取所述每条语音中的有效语音,所述语音包括训练语音及待识别语音;提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵;构建长短时递归神经网络模型,并将所述第一特征矩阵 ...
【技术保护点】
一种声纹识别方法,其特征在于,包括:分别对输入的K条语音进行预处理,以获取所述每条语音中的有效语音,所述语音包括训练语音及待识别语音;提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵;构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数;利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵,所述每个特征提取矩阵对应一个所述训练语音的说话人模型;提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵;在所述N个说话人模型中,根据预设的相似性度量算法,选取出与所述第二特征矩阵相匹配的说话人模型,所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果;其中,所述K和N为大于零的整数,且K大于N。
【技术特征摘要】
1.一种声纹识别方法,其特征在于,包括:分别对输入的K条语音进行预处理,以获取所述每条语音中的有效语音,所述语音包括训练语音及待识别语音;提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵;构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数;利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵,所述每个特征提取矩阵对应一个所述训练语音的说话人模型;提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵;在所述N个说话人模型中,根据预设的相似性度量算法,选取出与所述第二特征矩阵相匹配的说话人模型,所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果;其中,所述K和N为大于零的整数,且K大于N。2.如权利要求1所述的方法,其特征在于,所述分别对输入的K条语音进行预处理,以获取所述每条语音中的有效语音包括:分别对输入的K条语音进行预加重处理,以提升所述每条语音中的高频信号频段;采用分帧加窗算法,分别将所述预加重处理后的每条语音转化为短时平稳信号;基于端点检测算法区分所述短时平稳信号中的噪声与语音,并将所述短时平稳信号中的语音输出为所述每条语音的有效语音。3.如权利要求2所述的方法,其特征在于,所述提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵包括:通过快速傅利叶变换分析所述每条训练语音中的有效语音,获取所述有效语音的功率谱;采用梅尔尺度的滤波器组对所述功率谱进行滤波处理,所述滤波器组包含M个三角滤波器,并获取所述每个三角滤波器输出的对数能量,所述M为大于零的整数;将所述对数能量进行离散余弦变换后,输出所述有效语音的梅尔频率倒谱系数声学特征;根据所述梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。4.如权利要求1所述的方法,其特征在于,所述构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数包括:初始化一个长短时递归神经网络模型,所述神经网络模型包含输入层、含有长短期记忆单元的递归层以及输出层;将所述第一特征矩阵输入所述神经网络模型;采用Softmax分类器对所述第一特征矩阵中的帧特征向量进行分类,并根据分类结果进行状态聚类,得到多类帧特征向量;分别计算所述各类帧特征向量的后验概率,所述各类帧特征向量的后验概率为所述神经网络模型的输出参数。5.如权利要求1所述的方法,其特征在于,所述利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵包括:获取所述神经网络模型的训练参数,所述训练参数为所述输出参数的混合权重、均值及方差;根据所述训练参数及所述训练语音对应的说话人特征,利用前向-后向算法计算所述每条训练语音对应说话人的特征向量;将所述神经网络模型的训练参数及所述每条训练语音对应说话人的特征向量迭代至收敛,得出所述每条训练语...
【专利技术属性】
技术研发人员:王健宗,郭卉,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。