一种声纹识别方法及装置制造方法及图纸

技术编号:17100463 阅读:27 留言:0更新日期:2018-01-21 11:51
本发明专利技术适用于身份认证技术领域,提供了一种声纹识别方法及装置,包括:对输入的语音进行预处理,获取语音中的有效语音;提取语音的MFCC声学特征,输出包含MFCC维度及语音分帧数的第一和第二特征矩阵;构建长短时递归神经网络模型,并将第一特征矩阵作为输入;利用神经网络模型的训练参数及语音的说话人特征训练特征提取矩阵,每个特征提取矩阵对应一个说话人模型;选取出匹配第二特征矩阵的说话人模型,所述匹配的说话人模型对应的说话人输出为声纹识别结果。本发明专利技术采用监督学习的方式来训练声纹背景模型,能够从训练语音中挖掘出更合适的声学特征,从而能够更准确地辨别说话人的差异性特征,学习到鲁棒性更强的说话人模型,获取更好的声纹识别效果。

Voiceprint recognition method and device

The invention is applicable to the field of identity authentication technology, and provides a device, a voice recognition method comprises the following steps: preprocessing of the input speech, obtaining effective speech in MFCC; voice acoustic feature extraction, the output contains the first and the second characteristic matrix of MFCC dimension and speech frames; when the length of construction of recurrent neural network the model, and the first feature matrix as input; extracting matrix by using the neural network model training parameters and speech feature training feature matrix corresponding to a speaker model to extract each feature; select speaker model matching second feature matrix, the speaker output corresponding to the speaker model, the voiceprint recognition results. The invention adopts a supervised learning approach to training the voiceprint background model, to dig out the acoustic features more suitable from the training speech, which can distinguish the difference of speaker characteristics more accurately, to learn the speaker model more robust, obtain a better recognition effect of voiceprint.

【技术实现步骤摘要】
一种声纹识别方法及装置
本专利技术属于身份认证
,尤其涉及一种声纹识别方法及装置。
技术介绍
声纹识别也称为说话人识别,用于判断某段语音是若干人中的哪一个所说的或者用于确认某段语音是否是指定的某个人所说的,是一项根据语音波形反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。目前,声纹识别广泛应用于互联网、银行系统、公安司法等领域。声纹,是用电声学仪器显示的携带言语信息的声波频谱。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。业界主流的声纹识别方法一般需要先对说话人的声纹进行建模,通常是对全局背景模型预先进行训练。现有的声纹模型中,主要采用混合高斯模型来训练通用的背景模型。由于基于无监督训练的混合高斯背景模型中并没有样本数据的类别信息,仅用以代表说话人空间中所有说话人的特征,是一个单一的说话人无关的背景模型,因此难以准确地辨别说话人的差异性特征,最终导致对说话人的声纹进行识别时,识别准确率低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种声纹识别方法及装置,以解决现有技术难以准确地辨别说话人的差异性特征,从而导致声纹识别准确率较低的问题。第一方面,提供了一种声纹识别方法,包括:分别对输入的K条语音进行预处理,以获取所述每条语音中的有效语音,所述语音包括训练语音及待识别语音;提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵;构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数;利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵,所述每个特征提取矩阵对应一个所述训练语音的说话人模型;提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵;在所述N个说话人模型中,根据预设的相似性度量算法,选取出与所述第二特征矩阵相匹配的说话人模型,所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果;其中,所述K和N为大于零的整数,且K大于N。第二方面,提供了一种声纹识别装置,包括:预处理单元,用于分别对输入的K条语音进行预处理,以获取所述每条语音中的有效语音,所述语音包括训练语音及待识别语音;第一提取单元,用于提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵;构建单元,用于构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数;训练单元,用于利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵,所述每个特征提取矩阵对应一个所述训练语音的说话人模型;第二提取单元,用于提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵;识别单元,用于在所述N个说话人模型中,根据预设的相似性度量算法,选取出与所述第二特征矩阵相匹配的说话人模型,所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果;其中,所述K和N为大于零的整数,且K大于N。在本专利技术实施例中,采用监督学习的方式来训练声纹背景模型,通过结合说话人的特征,能够从原始训练语音数据中挖掘出更合适的声学特征集,从而能够更准确地辨别说话人的差异性特征,在语音交叠的场景下能获取更好的声纹识别效果。由于识别的主要过程是基于深度神经网络模型来实现,因此能够学习到鲁棒性更强的说话人模型,解决现有声纹识别方法识别准确率低的问题。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的声纹识别方法的实现流程图;图2是本专利技术实施例提供的声纹识别方法中步骤S101的具体实现流程图;图3是本专利技术实施例提供的声纹识别方法中步骤S102的具体的实现流程图;图4是本专利技术实施例提供的声纹识别方法中步骤S103的具体的实现流程图;图5是本专利技术实施例提供的声纹识别方法中步骤S104的具体的实现流程图;图6是本专利技术实施例提供的声纹识别装置的结构框图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。本专利技术实施例基于时间递归深度神经网络来实现,对说话人模型的训练依靠训练语音的声学特征来对模型的参数进行估计及优化调整,以不同的说话人模型表示不同的说话人个性特征,获得待识别语音的特征提取矩阵后,依次与多个说话人模型进行匹配对比,将不符合匹配条件的说话人模型淘汰,最终,接收符合匹配条件的说话人模型对应的说话人作为声纹识别的结果。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。图1示出了本专利技术实施例提供的声纹识别方法的实现流程,详述如下:在S101中,分别对输入的K条语音进行预处理,以获取所述每条语音中的有效语音,所述语音包括训练语音及待识别语音。在本实施例中,通过输入数量足够多的训练语音来建立不同的说话人模型,该训练语音为已知说话人身份的标记语音样本,用于调整说话人模型的参数,使该模型能够基于监督学习,在实际应用中达到所要求的识别性能。当需要判断某段语音是若干人中的哪一个所说的或者用于确认某段语音是否是指定的某个人所说的时,该段语音即为待识别语音。训练语音与待识别语音的作用不同,可以是不同或相同的语音数据。当二者相同时,所述待识别语音可用以检验最终得出的说话人模型的性能,测试其是否能够准确地识别出待识别语音的说话人身份。对所述语音进行预处理,以降低每段连续语音信号中的背景噪声水平,输出含有实际分析意义的有效语音,为后续说话人模型训练提供高信噪比的训练集,提高了模型训练的速度,达到更为准确的模型训练效果。作为本专利技术的另一个实施例,图2示出了本专利技术实施例提供的声纹识别方法S101的具体实现流程,详述如下:S201,分别对输入的K条语音进行预加重处理,以提升所述每条语音中的高频信号频段。在本实施例中,为了降低口唇辐射的影响,突出高频的共振峰,分别将每条语音信号通过一个高通滤波器来对语音中的高频部分进行加重,使语音信号的频谱变得更平滑。S202,采用分帧加窗算法,分别将所述预加重处理后的每条语音转化为短时平稳信号。选择适当数量的采样点,对所述预加重处理后的每条语音进行分帧,以使每条语音转化为多帧短时语音信号。其中,每一帧信号可视为一个平稳过程,即统计特性平稳。在本实施例中,所述加窗过程表示将原来的本文档来自技高网...
一种声纹识别方法及装置

【技术保护点】
一种声纹识别方法,其特征在于,包括:分别对输入的K条语音进行预处理,以获取所述每条语音中的有效语音,所述语音包括训练语音及待识别语音;提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵;构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数;利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵,所述每个特征提取矩阵对应一个所述训练语音的说话人模型;提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵;在所述N个说话人模型中,根据预设的相似性度量算法,选取出与所述第二特征矩阵相匹配的说话人模型,所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果;其中,所述K和N为大于零的整数,且K大于N。

【技术特征摘要】
1.一种声纹识别方法,其特征在于,包括:分别对输入的K条语音进行预处理,以获取所述每条语音中的有效语音,所述语音包括训练语音及待识别语音;提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵;构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数;利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵,所述每个特征提取矩阵对应一个所述训练语音的说话人模型;提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵;在所述N个说话人模型中,根据预设的相似性度量算法,选取出与所述第二特征矩阵相匹配的说话人模型,所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果;其中,所述K和N为大于零的整数,且K大于N。2.如权利要求1所述的方法,其特征在于,所述分别对输入的K条语音进行预处理,以获取所述每条语音中的有效语音包括:分别对输入的K条语音进行预加重处理,以提升所述每条语音中的高频信号频段;采用分帧加窗算法,分别将所述预加重处理后的每条语音转化为短时平稳信号;基于端点检测算法区分所述短时平稳信号中的噪声与语音,并将所述短时平稳信号中的语音输出为所述每条语音的有效语音。3.如权利要求2所述的方法,其特征在于,所述提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵包括:通过快速傅利叶变换分析所述每条训练语音中的有效语音,获取所述有效语音的功率谱;采用梅尔尺度的滤波器组对所述功率谱进行滤波处理,所述滤波器组包含M个三角滤波器,并获取所述每个三角滤波器输出的对数能量,所述M为大于零的整数;将所述对数能量进行离散余弦变换后,输出所述有效语音的梅尔频率倒谱系数声学特征;根据所述梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。4.如权利要求1所述的方法,其特征在于,所述构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数包括:初始化一个长短时递归神经网络模型,所述神经网络模型包含输入层、含有长短期记忆单元的递归层以及输出层;将所述第一特征矩阵输入所述神经网络模型;采用Softmax分类器对所述第一特征矩阵中的帧特征向量进行分类,并根据分类结果进行状态聚类,得到多类帧特征向量;分别计算所述各类帧特征向量的后验概率,所述各类帧特征向量的后验概率为所述神经网络模型的输出参数。5.如权利要求1所述的方法,其特征在于,所述利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵包括:获取所述神经网络模型的训练参数,所述训练参数为所述输出参数的混合权重、均值及方差;根据所述训练参数及所述训练语音对应的说话人特征,利用前向-后向算法计算所述每条训练语音对应说话人的特征向量;将所述神经网络模型的训练参数及所述每条训练语音对应说话人的特征向量迭代至收敛,得出所述每条训练语...

【专利技术属性】
技术研发人员:王健宗郭卉肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1