声纹识别方法、装置、设备以及计算机可读存储介质制造方法及图纸

技术编号:21688500 阅读:24 留言:0更新日期:2019-07-24 15:19
本发明专利技术公开了一种声纹识别方法、装置、设备以及计算机可读存储介质,该声纹识别方法包括:获取待识别的验证语音;采用GMM‑UBM模型提取验证语音的第一声纹特征,采用神经网络模型提取验证语音的第二声纹特征;将验证语音的第一声纹特征与第二声纹特征进行特征融合,得到验证语音的融合声纹特征向量;计算验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度;基于相似度,判定验证语音的声纹识别结果。两个模型分别对验证语音提取特征并用来进行语音验证,相较于单一模型提取验证语音的特征并进行语音验证而言,两个模型提取的特征所包含的信息更加全面,从而使得声纹识别的准确率得到提高。

Voice print recognition methods, devices, devices and computer readable storage media

【技术实现步骤摘要】
声纹识别方法、装置、设备以及计算机可读存储介质
本专利技术涉及声纹识别
,尤其涉及声纹识别方法、设备、装置以及计算机可读存储介质。
技术介绍
声纹识别系统是根据人声的特质来自动识别说话人身份的系统,身纹识别技术属于生物验证技术的一种,即通过语音对说话人的身份进行验证。这种技术具有较好的便捷性、稳定性、可测量性、安全性等特点,其通常用在银行、社保、公安、智能家居、移动支付等领域。目前的声纹识别系统一般是基于20世纪90年代提出的高斯混合模型-通用背景模型(GMM-UBM),该模型简单灵活且具有较好的鲁棒性。然而,近年来随着技术的发展,神经网络的训练学习取得了突破进展,基于神经网络的声纹验证系统得到应用与实践,并且基于神经网络的模型在一些集合上展现的性能要高于单一的高斯混合模型-通用背景模型(GMM-UBM)。
技术实现思路
本专利技术的主要目的在于提供一种声纹识别方法、设备、装置以及计算机可读存储介质,旨在解决现有技术中语音识别准确性不高的技术问题。为实现上述目的,本专利技术提供的一种声纹识别方法,所述声纹识别方法包括以下步骤:获取待识别的验证语音;采用GMM-UBM模型提取所述验证语音的第一声纹特征,采用神经网络模型提取所述验证语音的第二声纹特征;将所述验证语音的第一声纹特征与第二声纹特征进行特征融合,得到所述验证语音的融合声纹特征向量;计算所述验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度;基于所述相似度,判定所述验证语音的声纹识别结果。可选地,在所述获取待识别的验证语音之前,还包括:获取注册用户的注册语音;采用GMM-UBM模型提取所述注册语音的第三声纹特征,采用神经网络模型提取所述注册语音的第四声纹特征;将所述注册语音的第三声纹特征与第四声纹特征进行特征融合,得到所述注册语音的融合声纹特征向量;将所述注册语音的融合声纹特征向量保存到所述注册声纹数据库中,以作为注册用户的声纹特征向量。可选地,所述采用GMM-UBM模型提取所述验证语音的第一声纹特征包括:对所述验证语音进行预加重、分帧以及加窗预处理;从预处理后的所述验证语音中提取基音周期、线性预测倒谱系数、线性预测倒谱系数的一阶差分、能量、能量的一阶差分以及Gammatone滤波器倒谱系数的特征参数,得到所述验证语音的第一声纹特征;所述采用神经网络模型提取所述验证语音的第二声纹特征包括:将所述验证语音排列成预定纬数的语谱图;通过神经网络对所述预定纬数的语谱图进行识别,得到所述验证语音的第二声纹特征。可选地,所述将所述验证语音的第一声纹特征与第二声纹特征进行特征融合,得到所述验证语音的融合声纹特征向量包括:利用马尔可夫链蒙特卡罗随机模型进行第一声纹特征维度和第二声纹特征维度的融合,得到所述验证语音的融合声纹特征向量。可选地,所述第一声纹特征包括多个第一声纹子特征,所述第二声纹特征包括多个第二声纹子特征;所述利用马尔可夫链蒙特卡罗随机模型进行第一声纹特征维度和第二声纹特征维度的融合,得到所述验证语音的融合声纹特征向量包括:设定验证语音的融合特征声纹总特征数为K;根据所述验证语音的融合声纹特征总特征为K,利用直接抽样法确定第一声纹子特征的和第二声纹子特征的融合比例;根据第一声纹子特征和第二声纹子特征的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,分别确定所述第一声纹特征选取的第一声纹子特征和所述第二声纹特征选取的第二声纹子特征,组成所述验证语音的融合声纹特征向量。可选地,所述根据所述验证语音的融合声纹特征总特征为K,利用直接抽样法确定第一声纹子特征的和第二声纹子特征的融合比例包括:步骤A:生成一个[0,1]之间的随机数作为参数p,参数p代表所述第一声纹子特征在所述验证语音的融合声纹特征中所占的比例;步骤B:初始化用于记录迭代次数的计数器的初始值k=0;步骤C:生成一个[0,1]之间的随机数q,并与参数p进行比较,当q<p时,选取一个所述第二声纹子特征,所述第二声纹子特征的数量加1,当q>p时,选取一个所述第一声纹子特征,所述第一声纹子特征的数量加1;步骤D:k值增加1,判断是否k≥K,如果是则统计待选入所述验证语音的融合特征声纹向量的第一声纹子特征和第二声纹子特征的个数,分别记录为A和B,结束采样过程;否则,返回步骤C。可选地,所述根据第一声纹子特征和第二声纹子特征的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,分别确定所述第一声纹特征选取的第一声纹子特征和所述第二声纹特征选取的第二声纹子特征,组成所述验证语音的融合声纹特征向量包括:步骤E:设定转移次数阈值为T,初始化转移次数t=0;步骤F:统计采集的验证语音的融合声纹特征向量中特征的个数,记录为M,生成M个[0,1]之间的随机数作为初始状态x(0)=[x1(0),x2(0)…xM(0)];步骤G:转移次数t每增加1,对每个变量xi(t),i∈{1,2…M},按以下由联合概率分布得到的条件概率分布公式进行如下计算:P(xi(t+1)|x1(t+1),x2(t+1)…xi-1(0),xi+1(t)…xM(t)),其中,联合概率分布的均值为X;判断是否t<T,如果是则返回步骤G,否则得到P(T)=[P(x1(T)),P(x2(T)),…P(xi(T)),…P(xM(T))];步骤H:根据步骤D中计算的待选入所述验证语音的融合声纹特征向量中所述第一声纹子特征为个数A,选取前A个对应概率Pxi(T)最大的第一声纹子特征作为入选验证语音的融合声纹特征向量的第一声纹子特征;步骤I:设定转移次数阈值为T,初始化转移次数t=0;步骤J:统计采集所述验证语音的融合声纹特征向量中特征的个数,记录为N,生成N个[0,1]之间的随机数作为初始状态y(0)=[y1(0),y2(0)…yN(0)];步骤K:转移次数t每增加1,对每个变量yj(t),j∈{1,2…N},按以下由联合概率分布得到的条件概率分布公式进行如下计算:P(yi(t+1)|y1(t+1),y2(t+1)…yj-1(0),yj+1(t)…yN(t)),其中,联合概率分布的均值为Y;判断是否t<T,如果是,则执行步骤K,否则得到P(T)=[P(y1(T)),P(y2(T)),…P(yj(T)),…P(yN(T))];步骤L:根据步骤D中计算的待选入所述验证语音的融合声纹特征向量的第二声纹子特征为个数B,选取前B个对应概率Pyj(T)最大的第二声纹子特征作为入选验证语音的融合声纹特征向量的第二声纹子特征。此外,为实现上述目的,本专利技术还提供一种声纹识别装置,所述声纹识别装置包括:数据获取模块,用于获取待识别的验证语音;数据处理模块,采用GMM-UBM模型提取所述验证语音的第一声纹特征,采用神经网络模型提取所述验证语音的第二声纹特征;数据融合模块,用于将所述验证语音的第一声纹特征与第二声纹特征进行特征融合,得到所述验证语音的融合声纹特征向量;数据比较模块,用于计算所述验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度;数据判断模块,用于基于所述相似度,判定所述验证语音的声纹识别结果。可选地,所述数据处理模块还用于获取注册用户的注册语音,所述数据处理模块还用于本文档来自技高网...

【技术保护点】
1.一种声纹识别方法,其特征在于,所述声纹识别方法包括以下步骤:获取待识别的验证语音;采用GMM‑UBM模型提取所述验证语音的第一声纹特征,采用神经网络模型提取所述验证语音的第二声纹特征;将所述验证语音的第一声纹特征与第二声纹特征进行特征融合,得到验证语音的融合声纹特征向量;计算所述验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度;基于所述相似度,判定所述验证语音的声纹识别结果。

【技术特征摘要】
1.一种声纹识别方法,其特征在于,所述声纹识别方法包括以下步骤:获取待识别的验证语音;采用GMM-UBM模型提取所述验证语音的第一声纹特征,采用神经网络模型提取所述验证语音的第二声纹特征;将所述验证语音的第一声纹特征与第二声纹特征进行特征融合,得到验证语音的融合声纹特征向量;计算所述验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度;基于所述相似度,判定所述验证语音的声纹识别结果。2.如权利要求1所述的声纹识别方法,其特征在于,在所述获取待识别的验证语音之前,还包括:获取注册用户的注册语音;采用GMM-UBM模型提取所述注册语音的第三声纹特征,采用神经网络模型提取所述注册语音的第四声纹特征;将所述注册语音的第三声纹特征与第四声纹特征进行特征融合,得到所述注册语音的融合声纹特征向量;将所述注册语音的融合声纹特征向量保存到所述注册声纹数据库中,以作为注册用户的声纹特征向量。3.如权利要求1所述的声纹识别方法,其特征在于,所述采用GMM-UBM模型提取所述验证语音的第一声纹特征包括:对所述验证语音进行预加重、分帧以及加窗预处理;从预处理后的所述验证语音中提取基音周期、线性预测倒谱系数、线性预测倒谱系数的一阶差分、能量、能量的一阶差分以及Gammatone滤波器倒谱系数的特征参数,得到所述验证语音的第一声纹特征;所述采用神经网络模型提取所述验证语音的第二声纹特征包括:将所述验证语音排列成预定纬数的语谱图;通过神经网络对所述预定纬数的语谱图进行识别,得到所述验证语音的第二声纹特征。4.如权利要求1所述的声纹识别方法,其特征在于,所述将所述验证语音的第一声纹特征与第二声纹特征进行特征融合,得到所述验证语音的融合声纹特征向量包括:利用马尔可夫链蒙特卡罗随机模型进行第一声纹特征维度和第二声纹特征维度的融合,得到所述验证语音的融合声纹特征向量。5.如权利要求4所述的声纹识别方法,其特征在于,所述第一声纹特征包括多个第一声纹子特征,所述第二声纹特征包括多个第二声纹子特征;所述利用马尔可夫链蒙特卡罗随机模型进行第一声纹特征维度和第二声纹特征维度的融合,得到所述验证语音的融合声纹特征向量包括:设定验证语音的融合特征声纹总特征数为K;根据所述验证语音的融合声纹特征总特征为K,利用直接抽样法确定第一声纹子特征的和第二声纹子特征的融合比例;根据第一声纹子特征和第二声纹子特征的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,分别确定所述第一声纹特征选取的第一声纹子特征和所述第二声纹特征选取的第二声纹子特征,组成所述验证语音的融合声纹特征向量。6.如权利要求5所述的声纹识别方法,其特征在于,所述根据所述验证语音的融合声纹特征总特征为K,利用直接抽样法确定第一声纹子特征的和第二声纹子特征的融合比例包括:步骤A:生成一个[0,1]之间的随机数作为参数p,参数p代表所述第一声纹子特征在所述验证语音的融合声纹特征中所占的比例;步骤B:初始化用于记录迭代次数的计数器的初始值k=0;步骤C:生成一个[0,1]之间的随机数q,并与参数p进行比较,当q<p时,选取一个所述第二声纹子特征,所述第二声纹子特征的数量加1,当q>p时,选取一个所述第一声纹子特征,所述第一声纹子特征的数量加1;步骤D:k值增加1,判断是否k≧K,如果是则统计待选入所述验证语音的融合特征声纹向量的第一声纹...

【专利技术属性】
技术研发人员:徐凌智王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1