一种文本无关的声纹识别方法、装置及设备制造方法及图纸

技术编号:22818643 阅读:25 留言:0更新日期:2019-12-14 13:42
本申请属于生物识别领域,公开了一种文本无关的声纹识别方法、装置及设备,其中,所述方法包括:获取待识别的语音;利用MFCC对待识别的语音进行特征提取,得到待识别的语音特征;将待识别的语音特征输入神经网络模型进行识别处理;神经网络模型对待识别的语音特征处理后得到对应的待识别的序列,并将待识别的序列与至少一个嵌入序列进行匹配,判断从嵌入序列中是否存在与待识别的序列相匹配的嵌入序列;若存在,确定待识别的语音的发音者是与相匹配的嵌入序列对应的目标发音者,语音识别成功,否则,语音识别失败。利用attention‑LSTM网络结构对语音进行学习训练,降低训练语音的要求,训练得到的神经网络模型能够提高语音识别的速度和效率。

A text independent voiceprint recognition method, device and equipment

【技术实现步骤摘要】
一种文本无关的声纹识别方法、装置及设备
本申请涉及生物识别
,特别是涉及一种文本无关的声纹识别方法、装置及设备。
技术介绍
声纹识别是基于一些语音信号和注册的说话者录音来验证说话者身份的。通常,针对注册和测试语音提取富有说话者信息的低维特征,并使用一些算法操作将其映射到验证分数。变体包括文本相关的声纹识别,其语音内容固定为某个短语,以及文本无关的声纹识别,其语音内容随机。语音识别目前被广泛应用于诸多领域,在银行、非银金融、公安、军队及其他民用安全认证等行业和部门有着广泛的需求。现阶段主流的技术实现方法都是基于i-vector,RNN模型,LSTM模型等这些传统的技术方法需要较大的训练数据规模才能达到理想的训练效果且对噪声的敏感性较高,要求训练数据的录音质量较高,这在实际的生产环境中往往较难达到传统方法训练用数据质量的要求即使达到也会大大提高整体系统的成本。
技术实现思路
有鉴于此,本申请提供了一种文本无关的声纹识别方法、装置及设备。主要目的在于解决目前的声纹识别模型对训练样本要求过高,且训练成本过高的技术问题。本文档来自技高网...

【技术保护点】
1.一种文本无关的声纹识别方法,其特征在于,所述方法包括:/n获取待识别的语音;/n利用MFCC对所述待识别的语音进行特征提取,得到待识别的语音特征;/n将所述待识别的语音特征输入神经网络模型进行识别处理,其中,通过训练attention-LSTM网络结构得到神经网络模型;/n所述神经网络模型对所述待识别的语音特征处理后得到对应的待识别的序列,并将所述待识别的序列与至少一个嵌入序列进行匹配,判断从所述嵌入序列中是否存在与所述待识别的序列相匹配的嵌入序列;/n若存在,确定所述待识别的语音的发音者是与所述相匹配的嵌入序列对应的目标发音者,语音识别成功,否则,语音识别失败。/n

【技术特征摘要】
1.一种文本无关的声纹识别方法,其特征在于,所述方法包括:
获取待识别的语音;
利用MFCC对所述待识别的语音进行特征提取,得到待识别的语音特征;
将所述待识别的语音特征输入神经网络模型进行识别处理,其中,通过训练attention-LSTM网络结构得到神经网络模型;
所述神经网络模型对所述待识别的语音特征处理后得到对应的待识别的序列,并将所述待识别的序列与至少一个嵌入序列进行匹配,判断从所述嵌入序列中是否存在与所述待识别的序列相匹配的嵌入序列;
若存在,确定所述待识别的语音的发音者是与所述相匹配的嵌入序列对应的目标发音者,语音识别成功,否则,语音识别失败。


2.根据权利要求1所述的方法,其特征在于,通过训练attention-LSTM网络结构得到神经网络模型包括:
将attention机制分别嵌入至正反两个LSTM网络中,再将嵌入后的正反两个LSTM网络进行组合,得到attention-LSTM网络结构;
获取至少一个目标发音者的多段语音作为训练语音;
将所述训练语音输入至attention-LSTM网络结构中进行训练,得到至少一个嵌入序列,其中,每个嵌入序列对应一个目标发音者;
将所述至少一个嵌入序列标注对应的目标发音者,并保存至所述attention-LSTM网络结构中得到神经网络模型。


3.根据权利要求2所述的方法,其特征在于,所述将attention机制分别嵌入至正反两个LSTM网络中,再将嵌入后的正反两个LSTM网络进行组合,得到attention-LSTM网络结构,具体包括:
在正LSTM网络和反LSTM网络的输出层之后添加相似性度量计算层,在所述相似度量计算层中设有attention函数;
在所述相似性度量计算层之后添加指数函数比例计算层;
在所述指数函数比例计算层之后添加求和计算层,形成新的正LSTM网络和新的反LSTM网络;
将新的正LSTM网络和新的反LSTM网络进行组合得到attention-LSTM网络结构。


4.根据权利要求3所述的方法,其特征在于,将所述训练语音输入至attention-LSTM网络结构中进行训练,得到至少一个嵌入序列,具体包括:
将MFCC对所述训练语音进行特征提取的语音特征,输入至新的正LSTM网络和新的反LSTM网络中进行处理后,从输出层输出;
将所述输出层输出的结果输入所述相似度量计算层中利用attention函数进行计算;
将所述相似度量计算层输出的结果输入指数函数比例计算层进行指数函数比例计算;
将所述指数函数比例计算层输出的结果输入求和计算层进行求和计算;
将新的正LSTM网络的所述求和计算层输出的结果和新的反LSTM网络的所述求和计算层输出的结果进行结合得到至少一个嵌入序列。


5.根据权利要求4所述的方法,其特征在于,所述将新的正LSTM网络和新的反LSTM网络进行组合得到attention-LSTM网络结构,具体包括:
将新的正LSTM网络的输出层和新的反...

【专利技术属性】
技术研发人员:王健宗赵峰
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1