一种说话人识别方法技术

技术编号:25806023 阅读:44 留言:0更新日期:2020-09-29 18:40
一种说话人识别方法,解决了现有说话人模型识别准确率和稳定性不高的问题,属于声纹识别技术领域。本发明专利技术包括:提取说话人语音特征,作为训练集;建立说话人身份识别的网络模型,该网络模型是在融合模型的基础上结合基于附加间隔Softmax损失函数建立的,利用步骤一的训练集对所述网络模型进行训练,利用训练好的网络模型确定待识别的说话人语音特征的类别,所述基于附加间隔Softmax损失函数增加了类别中的决策间隔,使同一类别之间特征向量和权重向量的间隔距离更小,同时增大不同类别特征向量的间隔距离。提高了识别精确度,具有较好的鲁棒性。

【技术实现步骤摘要】
一种说话人识别方法
本专利技术涉及一种基于CNN与GRU融合的说话人识别方法,属于声纹识别

技术介绍
声纹识别(VoiceprintRecognition,VPR)是生物特征识别技术中重要的研究方向之一,它通过计算机识别人特有的生理特征或行为特征,进而实现个人身份鉴定。声纹识别也称为说话人识别(SpeakerRecognition),常被应用于国防安全、远程监视、刑侦犯罪、声控锁等方面。随着互联网行业的蓬勃发展,说话人识别技术已经融入到各个领域之中,人们也在各行各业中追求能应用于海量数据的快速、便捷智能识别方式及方法。随着技术的进步,传统声纹识别方法已经无法满足对大数据的精准处理,伴随终端设备性能的大幅提高,对设备计算能力和内存容量有较高要求的深度学习方法逐渐引起研究人员的关注,因而学术界对说话人识别的研究热点也从传统机器学习转向了深度学习。目前虽已有一些深度学习算法促进了语音识别技术的发展,但说话人识别技术仍然是一项具有挑战性的任务。说话人识别领域早期研究主要聚焦于特征参数的提取与匹配模型的搭建上,传统说话人识别模型大部分由语音信号频率上的短时倒谱特性得到其声学特征,再利用识别算法对说话人身份进行判别。常用倒谱特征如线性预测倒谱系数(Linearpredictioncepstralcoefficents,LPCC)和梅尔倒谱系数(Mel-scalefrequencycepstralcoeffi-cients,MFCC)等,传统匹配模型算法如高斯混合模型(Gaussianmixturemodel,GMM)、隐马尔科夫模型(Hiddenmarkovmodel,HMM)和支持向量机(Supportvectormachine,SVM)等。上述传统方法虽然可以对说话人身份进行有效识别,但当需要识别的类别增多时会导致系统性能降低、计算时间变长及运行效率下降的缺陷。随着深度学习技术的发展,促进了传统说话人识别方法与深度学习方法的结合,有些学者提出了具有针对性的说话人识别网络结构。近年来,卷积神经网络(ConvolutionalNeuralNetwork,CNN)和循环神经网络(RecurrentNeuralNetwork,RNN)在识别
应用效果显著,CNN常用于处理高维图像信息,在图像分类领域受到广泛关注。RNN常用来处理文本和语音数据等具有序列特性的特征,在语音识别、文本分类等领域取得了较好的效果。RNN本身存在长时依赖问题,在训练RNN的过程中可能会出现梯度爆炸和梯度消失现象,为此许多学者对这一问题进行深入研究,并提出了相应的解决方案。此外,也有一些学者将CNN与RNN结合使用,构建融合模型,如使用CNN-RNN混合网络实现手写字的分类识别,基于CNN-LSTM模型对文本进行分类。对于说话人识别任务,由于语音包含的信息是具有前后关联的时序信号,利用CNN结合RNN的方法可以在多维度上对语音信号进行分析,能够让模型学习到更多的说话人特征。真实场景中,说话人识别任务因存在复杂的环境噪声、语言的多样性、不同的发声方式等因素,因此对模型的区分性提出了更高要求。传统说话人识别模型常用hinge-loss、Softmax-loss损失函数,此种函数在注重区分相似度特征任务中效果较好,但对于多类别、类内类间差别不明显的任务效果欠佳。
技术实现思路
针对现有说话人模型识别准确率和稳定性不高的问题,本专利技术提供一种说话人识别方法。本专利技术的一种说话人识别方法,所述方法包括:步骤一、提取说话人语音特征,作为训练集;步骤二、建立说话人身份识别的网络模型,该网络模型是在融合模型的基础上结合基于附加间隔Softmax损失函数建立的,利用步骤一的训练集对所述网络模型进行训练,所述基于附加间隔Softmax损失函数为:其中,LAMS表示分数,s为缩放因子,m为间隔系数,c为训练集中训练类别的总数,n为训练集中训练样本个数,yi为第i个训练样本对应的标签,θj表示第j个训练类别向量间的角度,θyi表示第i个训练样本对应标签的权重向量与输入特征向量间的夹角;Softmax损失函数的输入特征向量和权重向量的决策间隔为ψ(θ)为:ψ(θ)=cosθ-mm表示间隔系数,θ表示输入特征向量与权重向量的夹角;步骤三、利用训练好的网络模型确定待识别的说话人语音特征的类别。作为优选,所述步骤三包括:将待识别的说话人语音特征输入到CNN网络,经卷积最大池化处理后输出特征向量;对CNN网络输出特征向量进行处理,获得时间序列特征,将该时间序列特征输入至GRU网络;使用层归一化方法,计算GRU网络隐藏层所有神经元节点输入的平均值μ和方差σ,并由同一个标准化操作,获得标准化输出特征向量c;将标准化输出特征向量传输到最后一层全连接层,其特征被映射到全连接层的特征空间;使用基于附加间隔Softmax损失函数对特征空间内的说话人特征进行分类并确认其身份。作为优选,平均值其中,K表示输入的维度,hk表示GRU网络中隐藏层输出的第k维向量,γ表示激活函数,g表示待更新的增益,b表示偏置参数,h表示上一层的输出。作为优选,所述步骤一和步骤三中,对说话人的语音进行分帧加窗处理,将每帧的短时平稳信号进行短时傅里叶变换,得到反映信号能量密度的语谱图,作为说话人语音特征。本专利技术的有益效果:本专利技术结合附加间隔Softmax损失函数(AM-Softmax),将CNN与GRU融合的网络结构,构建AM-CNN-GRU网络模型。提取语谱图中深层的说话人身份特征,并对隐藏层的输出运用层归一化方法约束高维特征分布,提高网络训练速度和准确度,为改善基于度量的分类方法,运用附加间隔Softmax损失函数提取相似的声纹特征,并在说话人识别语料库中进行实验验证。本专利技术解决了说话人分类学习类内多样性、类间差异性的问题,提升了模型识别的准确率和稳定性。附图说明图1为CNN模型的原理示意图;图2为门控循环单元的原理示意图;图3为语谱图;图4为Softmax与AM-Softmax决策边界示意图;图5为AM-CNN-GRU网络模型的原理示意图;图6为识别率与GRU网络节点数关系图;图7为本专利技术的AM-CNN-GRU模型的识别率与迭代次数关系曲线;图8为基于欧几里得范数的正则化模型的识别率与迭代次数关系曲线。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面结合附图和具体实施例对本专利技术作进一步说明,但不作为本专利技术的限定。本本文档来自技高网
...

【技术保护点】
1.一种说话人识别方法,其特征在于,所述方法包括:/n步骤一、提取说话人语音特征,作为训练集;/n步骤二、建立说话人身份识别的网络模型,该网络模型是在融合模型的基础上结合基于附加间隔Softmax损失函数建立的,利用步骤一的训练集对所述网络模型进行训练,所述基于附加间隔Softmax损失函数为:/n

【技术特征摘要】
1.一种说话人识别方法,其特征在于,所述方法包括:
步骤一、提取说话人语音特征,作为训练集;
步骤二、建立说话人身份识别的网络模型,该网络模型是在融合模型的基础上结合基于附加间隔Softmax损失函数建立的,利用步骤一的训练集对所述网络模型进行训练,所述基于附加间隔Softmax损失函数为:



其中,LAMS表示分数,s为缩放因子,m为间隔系数,c为训练集中训练类别的总数,n为训练集中训练样本个数,yi为第i个训练样本对应的标签,θj表示第j个训练类别向量间的角度,θyi表示第i个训练样本对应标签的权重向量与输入特征向量间的夹角;
Softmax损失函数的输入特征向量和权重向量的决策间隔为ψ(θ)为:
ψ(θ)=cosθ-m
m表示间隔系数,θ表示输入特征向量与权重向量的夹角;
步骤三、利用训练好的网络模型确定待识别的说话人语音特征的类别。


2.根据权利要求1所述的说话人识别方法,其特征在于,所述步骤三包括:
将待识别的说话人语音特征输入到CNN...

【专利技术属性】
技术研发人员:兰朝凤赵宏运郭思诚陈小艳苏桤木
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1