一种声纹识别方法技术

技术编号：34763203 阅读：19 留言：0更新日期：2022-08-31 19:06

本申请涉及一种结合x

全部详细技术资料下载

【技术实现步骤摘要】
一种声纹识别方法

[0001]本申请涉及通过人类的声纹信息对身份进行鉴别和确认的方法，尤其是涉及一种结合x
‑
vector与i
‑
vector的声纹识别方法。

技术介绍

[0002]声纹识别，即说话人识到，就是要根据人的声音中所蕴涵的说话人的生物特征，识到出说某段语音的人是谁，即所谓“闻声知人”。声纹识别可以在几乎所有需要身份鉴别或确认的安全性保护领域和个性化应用中使用。
[0003]目前声纹识别主要分为经典建模方法和深度学习建模方法两个大类，前者包括诸如模板匹配、高斯混合模型(GMM)、基于高斯混合背景模型的 i
‑
vector方法等。其中，基于高斯混合背景模型的i
‑
vector方法是由kenny等学者提出，由Joint Factor Analysis简化而来，表征了说话人相关的最重要信息，目前i
‑
vector在声纹相关算法中仍然有很广泛的应用，已经是说话人识别的主流技术。虽然i
‑
vector目前仍然是一个研究者热捧的一个方法，但是，不可忽视的是，它的扩展性较差，在大数据背景下，i
‑
vector的优势不能发挥出来；此外，单一的i
‑
vector方法能取得的效果也十分有限。
[0004]2014年，随着谷歌提出了一种基于嵌入向量的识别方法d
‑
vector，深度学习进行声纹识别也进入人们的视线。近年来，人们也更倾向...

【技术保护点】

【技术特征摘要】
1.一种结合x
‑
vector与i
‑
vector的声纹识别方法，其特征在于，包括模型的训练方法和声纹的识别方法两个部分，所述模型的训练方法的步骤包括：S1：获得由多名说话人的音频组成的训练语料，对纯净的训练语料进行加噪处理，在训练语料中加入加噪语音，得到混合训练语料；S2：对所述混合训练语料进行分批训练，对每个批次的每段语音进行分帧，并提取其梅尔频率倒谱系数(MFCC)特征；S3：将所述梅尔频率倒谱系数(MFCC)特征作为输入，输入到声纹向量提取模型中进行训练,形成第一声纹向量；S4：在训练好的模型中抽取所述混合训练语料的i
‑
vector向量，获得第二声纹向量；S5：将所述第一声纹向量、第二声纹向量输入修正器，修正后获得修正声纹向量；S6：将所述修正声纹向量输入归一化指数函数(softmax)，得到分类结果；S7：将所述分类结果输入损失函数计算损失，反向传播，对所述修正器的参数进行更新；S8：重复上述步骤二至步骤七，直至算法收敛；所述声纹的识别方法为：S9：分别对第一待识别语音和第二待识别语音进行分帧，形成相应的第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征；S10：分别将所述第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征放入训练好的所述声纹提取模型中，分别获得第一抽取声纹向量和第二抽取声纹向量；接着再将所述第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征分别放入i
‑
vector模型中，分别获得第一修正声纹向量和第二修正声纹向量；S11：将所述第一抽取声纹向量和第一修正声纹向量放入修正后的所述修正器中进行修正，得到所述第一待识别语音的修正声纹向量；将所述第二抽取声纹向量和第二修正声纹向量放入修正后的所述修正器中进行修正，得到所述第二待识别语音的修正声纹向量；S12：计算所述第一待识别语音的修正声纹向量和第二待识别语音的修正声纹向量的余弦相似度，根据阈值判断所述第一待识别语音和第二待识别语音是否属于同一个人。2.根据权利要求1所述的声纹识别方法，其特征在于，步骤2提取所述梅尔频率倒谱系数特征的方法为：对分批的所述训练语料的每个批次的语音依次经过预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组过滤、取对数、离散余弦变换(DCT)这几个预处理步骤后，将数据集中的所述语音进行特征变换，得到关于一个批次的所述训练语料的梅尔频率倒谱系数特征；在所述预加重的步骤中，所述语音通过一个高通滤波器进行预加重，补偿语音受到发音系统所抑制的高频部分，将变得平坦的频谱保持在低频到高频的整个频带中；在所述分帧、加窗、快速傅里叶变换(FFT)的步骤中，分帧后，将一个窗口函数应用于窗口随时间滑动(Slide)或跳跃(hop)的每个帧，然后对分帧加窗后的各帧信号进行快速傅里叶变换FFT得到各帧的频谱，并对所述语音的频谱取模平方，得到语音信号的功率；在所述梅尔滤波器组过滤、取对数预处理步骤中，将所述各帧的频谱送入所述梅尔滤波器组进行滤波，将线性的自然频谱转换为体现人类听觉特性的Mel频谱，在Mel频谱上面
进行倒谱分析，取对数，通过DCT离散余弦变换...

【专利技术属性】
技术研发人员：陈家俊，宋惕林，周颜云，曹思佳，李井峰，孙清源，赵峻毅，段巍巍，吴曾，张品品，李瑁，陈敏，潘琳，
申请(专利权)人：号百信息服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人