一种声纹识别方法技术

技术编号:34763203 阅读:19 留言:0更新日期:2022-08-31 19:06
本申请涉及一种结合x

【技术实现步骤摘要】
一种声纹识别方法


[0001]本申请涉及通过人类的声纹信息对身份进行鉴别和确认的方法,尤其是 涉及一种结合x

vector与i

vector的声纹识别方法。

技术介绍

[0002]声纹识别,即说话人识到,就是要根据人的声音中所蕴涵的说话人的生 物特征,识到出说某段语音的人是谁,即所谓“闻声知人”。声纹识别可以 在几乎所有需要身份鉴别或确认的安全性保护领域和个性化应用中使用。
[0003]目前声纹识别主要分为经典建模方法和深度学习建模方法两个大类,前 者包括诸如模板匹配、高斯混合模型(GMM)、基于高斯混合背景模型的 i

vector方法等。其中,基于高斯混合背景模型的i

vector方法是由kenny等学 者提出,由Joint Factor Analysis简化而来,表征了说话人相关的最重要信息, 目前i

vector在声纹相关算法中仍然有很广泛的应用,已经是说话人识别的 主流技术。虽然i

vector目前仍然是一个研究者热捧的一个方法,但是,不 可忽视的是,它的扩展性较差,在大数据背景下,i

vector的优势不能发挥 出来;此外,单一的i

vector方法能取得的效果也十分有限。
[0004]2014年,随着谷歌提出了一种基于嵌入向量的识别方法d

vector,深度 学习进行声纹识别也进入人们的视线。近年来,人们也更倾向于使用有监督 的深度学习技术来解决各种问题。在深度学习中的声纹识别包括特征工程 (feature learning)和端到端(endto end)两个大方向。特征工程是指将神 经网络作为一个特征提取器,提取出声音的特征信息,接着对该特征信息进 行声音分类等。主要有d

vector、x

vector等。其中,x

vector是最主流的方 法之一,它以多类别交叉熵去对多个说话者进行比对,根据标签降熵,即使 某些说话者的语料存在时长、信道不匹配的问题,也能保证算法的鲁棒性。 也就是说,x

vector对噪声数据敏感度更低,此外,它还具有训练速度快; 训练集扩展性高,无需特定语种的训练集;识别率高等特点;端到端方法是 指:深度学习算法作为一个黑盒,直接获得结果,比如输入两段语音,直接 得到是否是同一个人的结果。其中值得一提的是是Transformer注意力模型, 因为具有复杂度较低,支持并行计算、结构简单的特点和优点,逐渐成为端 到端深度学习方法的重要组成。
[0005]公开号为CN 1447278A的中国专利技术专利公开了一种声纹识别方法,包 括模型的训练方法和声纹的识别方法两个部分,其特点为:每个说话人构建 声绞模型为M={μ
k

k
,w
k
|1≤k≤K}:待识别的特征矢量序列与 说话人声纹模型M={μ
k

k
,w
k
|1≤k≤K}M的匹配得分(对数似然得分).本发 明可按不同的应用需求调整操作点阔值,使最终准确率达到最高或使错误率 降到最低。本专利技术可用于保安、财经、国防、公安司法等领域通过人类的声 纹信息对身份进行鉴别和确认。但是该技术方案采用的算法复杂,需要的条 件苛刻,没有发挥大数据的优势。
[0006]综上,目前市场上亟需开发出一种在原有系统上有明显改进、顺应大数 据背景的声纹识别方法。

技术实现思路

[0007]本申请要解决的技术问题是目前在大数据背景下,声纹识别的算法中 i

vector的优势不能发挥出来;此外,单一的i

vector方法能取得的效果也十 分有限。
[0008]为解决上述技术问题,本申请提供一种结合x

vector与i

vector的声纹 识别方法,包括模型的训练方法和声纹的识别方法两个部分,模型的训练方 法的步骤包括:S1:获得由多名说话人的音频组成的训练语料,对纯净的训 练语料进行加噪处理,在训练语料中加入加噪语音,得到混合训练语料; S2:对混合训练语料进行分批训练,对每个批次的每段语音进行分帧,并提 取其梅尔频率倒谱系数(MFCC)特征;S3:将梅尔频率倒谱系数(MFCC) 特征作为输入,输入到声纹向量提取模型中进行训练,形成第一声纹向量; S4:在训练好的模型中抽取混合训练语料的i

vector向量,获得第二声纹向 量;S5:将第一声纹向量、第二声纹向量输入修正器,修正后获得修正声纹 向量;S6:将修正声纹向量输入归一化指数函数(softmax),得到分类结果;S7:将分类结果输入损失函数计算损失,反向传播,对修正器的参数进行更 新;S8:重复上述步骤二至步骤七,直至算法收敛。声纹的识别方法为:S9: 分别对第一待识别语音和第二待识别语音进行分帧,形成相应的第一梅尔频 率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征;S10: 分别将第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数 (MFCC)特征放入训练好的声纹提取模型中,分别获得第一抽取声纹向量 和第二抽取声纹向量;接着再将第一梅尔频率倒谱系数(MFCC)特征和第 二梅尔频率倒谱系数(MFCC)特征分别放入i

vector模型中,分别获得第 一修正声纹向量和第二修正声纹向量;S11:将第一抽取声纹向量和第一修 正声纹向量放入修正后的修正器中进行修正,得到第一待识别语音的修正声 纹向量;将第二抽取声纹向量和第二修正声纹向量放入修正后的修正器中进 行修正,得到第二待识别语音的修正声纹向量;S12:计算第一待识别语音 的修正声纹向量和第二待识别语音的修正声纹向量的余弦相似度,根据阈值 判断第一待识别语音和第二待识别语音是否属于同一个人。
[0009]根据本申请的实施例,步骤2提取梅尔频率倒谱系数(MFCC)特征的 方法为:对分批的训练语料的每个批次的语音依次经过预加重、分帧、加窗、 快速傅里叶变换(FFT)、梅尔滤波器组过滤、取对数、离散余弦变换(DCT) 这几个预处理步骤后,将数据集中的语音进行特征变换,得到关于一个批次 的训练语料的梅尔频率倒谱系数(MFCC)特征.
[0010]在预加重的步骤中,所述语音通过一个高通滤波器进行预加重,补偿语 音受到发音系统所抑制的高频部分,将变得平坦的频谱保持在低频到高频的 整个频带中;在分帧、加窗、快速傅里叶变换(FFT)的步骤中,分帧后,将一 个窗口函数应用于窗口随时间滑动(Slide)或跳跃(hop)的每个帧,然后对分帧 加窗后的各帧信号进行快速傅里叶变换FFT得到各帧的频谱,并对所述语音 的频谱取模平方,得到语音信号的功率;在梅尔滤波器组过滤、取对数预处理 步骤中,将各帧的频谱送入梅尔滤波器组进行滤波,将线性的自然频谱转换本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合x

vector与i

vector的声纹识别方法,其特征在于,包括模型的训练方法和声纹的识别方法两个部分,所述模型的训练方法的步骤包括:S1:获得由多名说话人的音频组成的训练语料,对纯净的训练语料进行加噪处理,在训练语料中加入加噪语音,得到混合训练语料;S2:对所述混合训练语料进行分批训练,对每个批次的每段语音进行分帧,并提取其梅尔频率倒谱系数(MFCC)特征;S3:将所述梅尔频率倒谱系数(MFCC)特征作为输入,输入到声纹向量提取模型中进行训练,形成第一声纹向量;S4:在训练好的模型中抽取所述混合训练语料的i

vector向量,获得第二声纹向量;S5:将所述第一声纹向量、第二声纹向量输入修正器,修正后获得修正声纹向量;S6:将所述修正声纹向量输入归一化指数函数(softmax),得到分类结果;S7:将所述分类结果输入损失函数计算损失,反向传播,对所述修正器的参数进行更新;S8:重复上述步骤二至步骤七,直至算法收敛;所述声纹的识别方法为:S9:分别对第一待识别语音和第二待识别语音进行分帧,形成相应的第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征;S10:分别将所述第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征放入训练好的所述声纹提取模型中,分别获得第一抽取声纹向量和第二抽取声纹向量;接着再将所述第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征分别放入i

vector模型中,分别获得第一修正声纹向量和第二修正声纹向量;S11:将所述第一抽取声纹向量和第一修正声纹向量放入修正后的所述修正器中进行修正,得到所述第一待识别语音的修正声纹向量;将所述第二抽取声纹向量和第二修正声纹向量放入修正后的所述修正器中进行修正,得到所述第二待识别语音的修正声纹向量;S12:计算所述第一待识别语音的修正声纹向量和第二待识别语音的修正声纹向量的余弦相似度,根据阈值判断所述第一待识别语音和第二待识别语音是否属于同一个人。2.根据权利要求1所述的声纹识别方法,其特征在于,步骤2提取所述梅尔频率倒谱系数特征的方法为:对分批的所述训练语料的每个批次的语音依次经过预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组过滤、取对数、离散余弦变换(DCT)这几个预处理步骤后,将数据集中的所述语音进行特征变换,得到关于一个批次的所述训练语料的梅尔频率倒谱系数特征;在所述预加重的步骤中,所述语音通过一个高通滤波器进行预加重,补偿语音受到发音系统所抑制的高频部分,将变得平坦的频谱保持在低频到高频的整个频带中;在所述分帧、加窗、快速傅里叶变换(FFT)的步骤中,分帧后,将一个窗口函数应用于窗口随时间滑动(Slide)或跳跃(hop)的每个帧,然后对分帧加窗后的各帧信号进行快速傅里叶变换FFT得到各帧的频谱,并对所述语音的频谱取模平方,得到语音信号的功率;在所述梅尔滤波器组过滤、取对数预处理步骤中,将所述各帧的频谱送入所述梅尔滤波器组进行滤波,将线性的自然频谱转换为体现人类听觉特性的Mel频谱,在Mel频谱上面
进行倒谱分析,取对数,通过DCT离散余弦变换...

【专利技术属性】
技术研发人员:陈家俊宋惕林周颜云曹思佳李井峰孙清源赵峻毅段巍巍吴曾张品品李瑁陈敏潘琳
申请(专利权)人:号百信息服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1