声纹认证处理方法及装置制造方法及图纸

技术编号:14552389 阅读:131 留言:0更新日期:2017-02-05 01:33
本申请提出一种声纹认证处理方法和装置,其中,该方法包括:应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。建立了区分性别的声纹认证处理模型,以便提高了声纹认证的效率和准确性。

Voiceprint authentication processing method and device

The invention provides a voiceprint authentication processing method and device, wherein, the method comprises the following steps: the depth of the neural network DNN voiceprint baseline system mixed application, the first feature vector is extracted from the training set of each speech; according to the first eigenvector of the each speech and pre marked gender labeling training data according to the voice of genderclassifier; the training set of different gender, different gender training DNN model; DNN model according to the speech data of different sex and the different gender training set, vector model, characteristic of traditional background were trained in different gender extraction model, linear discriminant analysis and probability model. A voiceprint authentication processing model of gender, in order to improve the efficiency and accuracy of voiceprint recognition.

【技术实现步骤摘要】

本申请涉及声纹认证
,尤其涉及一种声纹认证处理方法及装置
技术介绍
随着技术的不断进步,声纹识别(VoiceprintRecognition,VPR)技术的应用领域越来越广泛。声纹识别可以确认某段语音是否是指定的某个人所说的,例如,考勤打卡,或者银行交易时需要对用户声音进行确认。在声纹识别之前,都需要先对说话人的声纹进行建模,这就是所谓的“训练”或“学习”过程。目前的声纹识别的训练过程是通过通用的模型进行声纹的训练和识别,准确性不高。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种声纹认证处理方法,该方法建立了区分性别的声纹认证处理模型,以便提高了声纹认证的效率和准确性。本申请的第二个目的在于提出一种声纹认证处理装置。为达上述目的,本申请第一方面实施例提出了一种声纹认证处理方法,包括:应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。本申请实施例的声纹认证处理方法,通过应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。由此,建立了区分性别的声纹认证处理模型,以便提高了声纹认证的效率和准确性。为达上述目的,本申请第二方面实施例提出了一种声纹认证处理装置,包括:提取模块,用于应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;生成模块,用于根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;第一训练模块,用于根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;第二训练模块,用于根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。本申请实施例的声纹认证处理装置,通过应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。由此,建立了区分性别的声纹认证处理模型,以便提高了声纹认证的效率和准确性。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本申请一个实施例的声纹认证处理方法的流程图;图2为性别分类器的生成示意图;图3为男性声纹认证处理模型生成示意图;图4为女性声纹认证处理模型生成示意图;图5是本申请另一个实施例的声纹认证处理方法的流程图;图6是本申请另一个实施例的声纹认证处理方法的流程图;图7是本申请一个实施例的声纹认证处理装置的结构示意图;图8是本申请另一个实施例的声纹认证处理装置的结构示意图;图9是本申请另一个实施例的声纹认证处理装置的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的声纹认证处理方法及装置。图1是本申请一个实施例的声纹认证处理方法的流程图。如图1所示,该声纹认证处理方法包括:步骤101,应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量。步骤102,根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器。具体地,为了训练建立区分性别的声纹认证处理模型,首先需要应用混合性别的深度神经网络DNN声纹基线系统生成性别训练性别分类器,以便应用训练性别分类器识别输入声音的性别,为输入的声音分配性别标签。图2为性别分类器的生成示意图,参见图2说明如何应用混合性别的DNN声纹基线系统生成性别分类器,具体如下:预先设置包含多条语音的训练集,训练集中的每条语音数据都预先标注有对应的性别信息,比如,第一条语音数据对应的性别为男性数据,第二条语音数据对应的性别为女性数据。将训练集中的每条语音数据输入混合性别的DNN声纹基线系统,应用DNN声纹基线系统对每条语音数据进行数据处理,提取与每条语音对应的第一特征向量。进而,根据每条语音的第一特征向量,以及预先标注的每条语音的性别训练性别分类器,从而可以应用训练性别分类器识别输入声音的性别,为输入的声音分配性别标签。步骤103,根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型。具体地,根据训练集中不同性别的语音数据,以及预设的深度神经网络算法分别训练不同性别的DNN模型,也就是说,分别训练男性DNN模型和女性DNN模型。其中,男性DNN模型用于接收男性的语音数据,输出与该男性语音数据对应的后验概率,女性DNN模型用于接收女性的语音数据,输出与该女性语音数据对应的后验概率。步骤104,根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。具体地,根据不同性别的DNN模型以及训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。其中,对各个模型的功能解释如下:统一背景模型,用于对DNN模型输出的后验概率进行归一化处理;特征向量提取模型,用于接收DNN模型输出的后验概率以及用户输入的语音数据,并且根据预设的算法提取语音数据的第二特征向量;概率线性判别分析模型,用于比较用户输入的语音数据的第二特征向量与预先本文档来自技高网...

【技术保护点】
一种声纹认证处理方法,其特征在于,包括以下步骤:应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。

【技术特征摘要】
1.一种声纹认证处理方法,其特征在于,包括以下步骤:
应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征
向量;
根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;
根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;
根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别
的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。
2.如权利要求1所述的方法,其特征在于,还包括:
接收用户发送的携带用户标识的声纹注册请求;
获取用户发送的用于声纹注册的多条语音,提取第一条语音的第一特征信息,应用所
述性别分类器获取所述第一特征信息的性别标签;
根据与所述性别标签对应的DNN模型获取每条语音的后验概率;
根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的
第二特征向量;
根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹注册模型;
将所述用户标识、所述性别标签、所述声纹注册模型的对应关系存储到声纹注册数据
库。
3.如权利要求2所述的方法,其特征在于,所述根据与所述多条语音对应的多个第二
特征向量获取所述用户的声纹注册模型,包括:
获取所述多个第二特征向量的平均特征向量作为所述用户的声纹注册模型。
4.如权利要求2所述的方法,其特征在于,还包括:
接收用户发送的携带用户标识的声纹识别请求;
查询所述声纹注册数据库获取与所述用户标识对应的性别标签和声纹注册模型;
获取用户发送的用于声纹识别的语音,根据与所述性别标签对应的DNN模型获取所述
语音的后验概率;
应用与所述性别标签对应的统一背景模型和特征向量提取模型,提取所述语音的第二
特征向量;
应用与所述性别标签对应的概率线性判别分析模型,比较所述语音的第二特征向量和

\t所述声纹注册模型的相似度;
根据所述相似度和预设的阈值向所述用户返回声纹识别结果。
5.如权利要求4所述的方法,其特征在于,所述根据所述相似度和预设的阈值向所述
用户返回声纹识别结果,包括:
比较所述相似度和预设的阈值的大小;
若获知所述相似度大于等于预设的阈值,则返回声纹识别成功;
若获知所述相似度小于预设的阈值,则返回声纹识别失败。
6.一种声纹认证处理装置,其特征在于,包括:
提...

【专利技术属性】
技术研发人员:李超吴本谷朱林
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1