当前位置: 首页 > 专利查询>深圳大学专利>正文

声纹识别方法、电子装置及计算机可读存储介质制造方法及图纸

技术编号:19483286 阅读:23 留言:0更新日期:2018-11-17 10:57
一种声纹识别方法、电子装置及计算机可读存储介质,其中,该声纹识别方法包括:获取待分析的语音数据;提取所述语音数据中的变化因子特征,通过易错点分类器,根据所述变化因子特征对所述语音数据进行误判分类,得到所述语音数据在所述K个子系统中被误判的相对误判概率;确定任一子系统对应的相对误判概率与所述K个子系统的平均相对误判概率的偏置量,并根据所述偏置量计算相应子系统的最终融合权重;通过所述最终融合权重对相应的各个子系统的识别结果进行加权,根据加权后各个子系统的识别结果得到所述语音数据的综合识别结果。

【技术实现步骤摘要】
声纹识别方法、电子装置及计算机可读存储介质
本申请涉及电子
,尤其涉及一种声纹识别方法、电子装置及计算机可读存储介质。
技术介绍
随着智能设备和相关硬体设施的普及,语音交互已经成为了人机交互中不可或缺的一环。而语音交互中有关声纹的应用场景也越来越多,包括但不限于:声纹考勤打卡、软件登录、银行转账与开户验证、虚拟语音助理的唤醒、针对不同的用户群体进行个性化交互等,这些系统无一例外的都利用到了声纹。所谓声纹,即每个人独有的声音特性。在现实生活生活中,每个人说话时的声音都有自己的特点。一般来说,声纹识别分为以下几种:情感识别、年龄识别、语种识别、性别识别、说话人识别等。在现有技术中,为了提高声纹识别的准确率,大多采用多种类型的声纹系统进行混搭,将这些系统在得分域上赋予不同的权重进行加权融合,进而得出最终的判决结果。如,使用线性逻辑回归的融合策略:该策略的中心思想是对于一个有N个子系统的混合系统,将每个子系统的得分规整到一个区间上,然后利用开发集训练出每个子系统i的融合权重wi,同时训练出一个总体的偏移w0,对于每个子系统中的得分为Si,那么最终的融合得分S等于:然后通过最终S的分值情况来实现该系统。由于现实情况的复杂性,现有技术中不同类型的识别子系统不一定适配初始设定的权重,因此,采用固定权重的方法使得声纹识别的准确率不高。
技术实现思路
本申请实施例提供一种声纹识别方法、电子装置及计算机可读存储介质,用于通过设置合适的声纹识别权重以提高声纹识别的准确率。本申请实施例第一方面提供一种声纹识别方法,包括:获取待分析的语音数据;提取所述语音数据中的变化因子特征,所述变化因子特征用于表征所述语音数据相关的综合信息,所述综合信息至少包括声音传输通道信息,声音环境信息以及发声对象信息;通过易错点分类器,根据所述变化因子特征对所述语音数据进行误判分类,得到所述语音数据在所述K个子系统中被误判的相对误判概率;确定任一子系统对应的相对误判概率与所述K个子系统的平均相对误判概率的偏置量,并根据所述偏置量计算相应子系统的最终融合权重;获取各个子系统对所述语音数据的识别结果;通过所述最终融合权重对相应的各个子系统的识别结果进行加权,根据加权后各个子系统的识别结果得到所述语音数据的综合识别结果。可选的,所述易错点分类器的训练方法包括:以短时语音数据集作为各子系统的测试数据集,将测试过程中所有误判的语音段依照不同的子系统标注为N个不同的标签,作为训练数据库,所述N为大于零的整数;对所述训练数据库中的每条短时语音数据,提取MFCC梅尔频率倒谱系数特征;根据提取到的MFCC特征训练通用背景模型,训练总体变化矩阵;根据所述总体变化矩阵获得所述短时语音数据的变化因子特征;根据所述变化因子特征及其对应的标签,训练能进行N类别分类的易错点分类器。可选的,所述根据所述变化因子特征及其对应的标签,训练能进行N类别分类的易错点分类器之前,包括:采用线性区分性分析对所述变化因子特征进行信道补偿,获得降维后的变化因子特征。可选的,所述K个子系统对应的相对误判概率的和为一。可选的,所述根据所述偏置量计算相应子系统的最终融合权重,包括:根据所述偏置量计算相应子系统的初始融合权重,具体通过以下公式:其中,上式中作为输入语音为x时各子系统Si的初始融合权重,表示所述偏置量;根据所述初始融合权重,并通过以下公式计算所述最终融合权重;所述Ci为所述K个子系统各自的最终融合权重,所述其中x为输入语音,所述作为输入语音为x时各子系统Si的初始融合权重,所述μ为所述Ci的关系系数。本申请实施例第二方面提供另一种电子装置,包括:K个子系统和动态权重子模块,所述K为大于零的整数,;所述动态权重子模块用于获取待分析的语音数据;提取所述语音数据中的变化因子特征,所述变化因子特征用于表征所述语音数据相关的综合信息,所述综合信息至少包括声音传输通道信息,声音环境信息以及发声对象信息;通过易错点分类器,根据所述变化因子特征对所述语音数据进行误判分类,得到所述语音数据在所述K个子系统中被误判的相对误判概率;确定任一子系统对应的相对误判概率与所述K个子系统的平均相对误判概率的偏置量,并根据所述偏置量计算相应子系统的最终融合权重;通过所述最终融合权重对相应的各个子系统的识别结果进行加权,根据加权后各个子系统的识别结果得到所述语音数据的综合识别结果;所述子系统用于对所述语音数据的进行初步声纹识别,获得所述语音数据的识别结果。可选的,所述动态权重子模块包括:特征提取单元,易错点分类器,权重计算单元以及综合计算单元;所述特征提取单元用于提取所述语音数据中的变化因子特征;所述易错点分类器用于根据所述变化因子特征对所述语音数据进行误判分类,得到所述语音数据在所述K个子系统中被误判的相对误判概率;所述权重计算单元用于确定任一子系统对应的相对误判概率与所述K个子系统的平均相对误判概率的偏置量,并根据所述偏置量计算相应子系统的最终融合权重;所述综合计算单元用于通过所述最终融合权重对相应的各个子系统的识别结果进行加权,根据加权后各个子系统的识别结果得到所述语音数据的综合识别结果。可选的,所述权重计算单元具体还用于:所述根据所述偏置量计算相应子系统的最终融合权重,包括:根据所述偏置量计算相应子系统的初始融合权重,具体通过以下公式:其中,上式中作为输入语音为x时各子系统Si的初始融合权重,表示所述偏置量;根据所述初始融合权重,并通过以下公式计算所述最终融合权重;所述Ci为所述K个子系统各自的最终融合权重,所述其中x为输入语音,所述作为输入语音为x时各子系统Si的初始融合权重,所述μ为所述Ci的关系系数。本申请实施例第三方面提供另一种电子装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述本申请实施例第一方面提供的声纹识别方法。本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述本申请实施例第一方面提供的声纹识别方法。由上可见,本申请方案根据变化因子特征将各子系统错误高发的语音段进行分类,分为K类易错点,并训练出对应的分类模型,再对每一条待分析的语音数据进行分类,降低分类所得的标签对应的子系统的预测权重,进而优化最终结果,达到了对各子系统的误判率进行实时评测、动态调整的效果。附图说明图1-a为本申请实施例提供的声纹识别方法的实现流程示意图;图1-b为本申请实施例提供的声纹识别系统的架构图;图1-c为本申请实施例提供的易错点分类器的训练方法的流程示意图;图1-d为本申请实施例提供的动态权重子模块的运作流程图;图2为本申请一实施例提供的电子装置结构示意图;图3为本申请另一实施例提供的电子装置硬件结构示意图。具体实施方式为使得本申请的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。实施例一本申请实施例提供一种声纹识别方法,请参阅图1-a,该本文档来自技高网...

【技术保护点】
1.一种声纹识别方法,应用于声纹识别系统,所述声纹识别系统K个子系统,所述K为大于零的整数,其特征在于,包括:获取待分析的语音数据;提取所述语音数据中的变化因子特征,所述变化因子特征用于表征所述语音数据相关的综合信息,所述综合信息至少包括声音传输通道信息,声音环境信息以及发声对象信息;通过易错点分类器,根据所述变化因子特征对所述语音数据进行误判分类,得到所述语音数据在所述K个子系统中被误判的相对误判概率;确定任一子系统对应的相对误判概率与所述K个子系统的平均相对误判概率的偏置量,并根据所述偏置量计算相应子系统的最终融合权重;获取各个子系统对所述语音数据的识别结果;通过所述最终融合权重对相应的各个子系统的识别结果进行加权,根据加权后各个子系统的识别结果得到所述语音数据的综合识别结果。

【技术特征摘要】
1.一种声纹识别方法,应用于声纹识别系统,所述声纹识别系统K个子系统,所述K为大于零的整数,其特征在于,包括:获取待分析的语音数据;提取所述语音数据中的变化因子特征,所述变化因子特征用于表征所述语音数据相关的综合信息,所述综合信息至少包括声音传输通道信息,声音环境信息以及发声对象信息;通过易错点分类器,根据所述变化因子特征对所述语音数据进行误判分类,得到所述语音数据在所述K个子系统中被误判的相对误判概率;确定任一子系统对应的相对误判概率与所述K个子系统的平均相对误判概率的偏置量,并根据所述偏置量计算相应子系统的最终融合权重;获取各个子系统对所述语音数据的识别结果;通过所述最终融合权重对相应的各个子系统的识别结果进行加权,根据加权后各个子系统的识别结果得到所述语音数据的综合识别结果。2.根据权利要求1所述的方法,其特征在于,所述易错点分类器的训练方法包括:以短时语音数据集作为各子系统的测试数据集,将测试过程中所有误判的语音段依照不同的子系统标注为N个不同的标签,作为训练数据库,所述N为大于零的整数;对所述训练数据库中的每条短时语音数据,提取MFCC梅尔频率倒谱系数特征;根据提取到的MFCC特征训练通用背景模型,训练总体变化矩阵;根据所述总体变化矩阵获得所述短时语音数据的变化因子特征;根据所述变化因子特征及其对应的标签,训练能进行N类别分类的易错点分类器。3.根据权利要求2所述的方法,其特征在于,所述根据所述变化因子特征及其对应的标签,训练能进行N类别分类的易错点分类器之前,包括:采用线性区分性分析对所述变化因子特征进行信道补偿,获得降维后的变化因子特征。4.根据权利要求1所述的方法,其特征在于,所述K个子系统对应的相对误判概率的和为一。5.根据权利要求1所述的方法,其特征在于,所述根据所述偏置量计算相应子系统的最终融合权重,包括:根据所述偏置量计算相应子系统的初始融合权重,具体通过以下公式:其中,上式中作为输入语音为x时各子系统Si的初始融合权重,表示所述偏置量;根据所述初始融合权重,并通过以下公式计算所述最终融合权重;所述Ci为所述K个子系统各自的最终融合权重,所述其中x为输入语音,所述作为输入语音为x时各子系统Si的初始融合权重,所述μ为所述Ci的关系系数。6.一种声纹识别系统,其特征在于,包括:K个子系统和动态权重子模块,所述K为大于零的整数,;所述...

【专利技术属性】
技术研发人员:郑能恒林吉
申请(专利权)人:深圳大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1