一种基于音素信息的声纹认证系统及方法技术方案

技术编号:14756281 阅读:183 留言:0更新日期:2017-03-02 22:39
本发明专利技术公开了一种基于音素信息的声纹认证系统及方法,系统包括基于汉语普通话语音识别器的音素强制对齐模块、音素相关的模型创建模块和基于dropout策略的神经网络分类器模块;方法包括定义汉语普通话数字串声纹的十六个音素类别,显式利用数字串的各个发音类别信息;基于汉语普通话语音识别器,采用维特比强制对齐算法获取每个对应数字串文本内容的音素边界;采用文本无关算法建立音素相关模型;计算音素相关模型,得到分数向量。本发明专利技术的有益效果:本发明专利技术在实现音素信息切分、音素建模和音素相关模型区分能力分析的同时,提出了采用dropout策略的神经网络训练方法,解决了数字串音素缺失的问题,并提高了数字串声纹认证系统的性能。

【技术实现步骤摘要】

本专利技术涉及声纹认证系统
,具体来说,涉及一种基于音素信息的声纹认证系统及方法
技术介绍
生物特征识别是一种根据人体自身所固有的生理特征和行为特征来识别身份的技术,具有不易遗忘、防伪性能好、不易伪造或被盗、随身具备和随时随地可用等优点。随着互联网快速发展,传统身份认证技术手段越来越无法满足用户使用体验和安全能力的需求。简单易用的声纹识别技术,由于其阔的应用前景、巨大的社会效益和经济效益,已引起各行各业的广泛关注和高度重视。声纹识别,又称说话人识别,是生物识别技术的一种。该技术通过语音波形中反映说话人生理和行为特征的语音参数,进而分辨出说话人身份。具有安全性高、数据采集方便等特点。近年来,文本相关(Text-dependent)的说话人识别成为用户认证领域的热点。由于文本无关(Text-independent)说话人识别领域的重大进展,很多研究人员尝试将文本无关说话人识别算法应用到文本相关领域,例如数字串声纹识别。在数字串认证条件下,有研究人员使用联合因子分析(JointFactorAnalysis,JFA)、高斯混合模型-干扰属性映射(GaussianMixtureModel-NuisanceAttributeProjection,GMM-NAP)和隐马尔科夫模型-干扰属性映射(HiddenMarkovModel-NuisanceAttributeProjection,HMM-NAP)进行比较。相比JFA而言,基于NAP的算法表现更好,原因在于训练JFA需要大量的带标记数据,而JFA矩阵的训练数据和数字串测试数据之间存在失配。在文本无关说话人识别中,JFA和基于概率线性判别分析(ProbabilisticLinearDiscriminantAnalysis,PLDA)的总体方差建模因子(iVector)算法均依赖于大量的开发集数据。越来越多的工作致力于处理受限的领域内开发集数据向领域外应用数据的迁移问题,例如词汇差异的自适应和补偿算法。通过安卓系统(Android)和苹果系统(iOS)的手机,录制并构造了包含536人的数字串语音集合。分为两种场景:global条件和rand-n条件。global条件表示注册和验证采用完全相同的数字串内容;rand-n条件表示每个数字串语音是长度为n的随机数字串,这在某些防录音攻击的应用系统中比global条件更为安全。本专利技术中涉及如表1所示的三种注册/认证条件:固定全部数字密码、动态8位数字密码和动态6位数字密码。每种场景划分开发集和评测集。开发集用于训练全局背景模型(UniversalBackgroundModel,UBM)、总体方差建模矩阵(iVectorTmatrix)和线性区分分析矩阵(LinearDiscriminantAnalysis,LDA)等等。评测集的三种条件中,每人包含三条注册语音和一条测试语音,每条测试语音与所有说话人模型进行比对。表1:密码数字的几种形式示例表2为GMM-NAP和采用iVector的声纹认证系统的等错误率(EqualErrorRate,EER)对比。结果表明,随着数字串长度的增加,声纹认证系统的性能得到了明显地一致地提升。但GMM-NAP和iVector系统均没有考虑音素(Phone/Phoneme)信息的利用,是基于文本无关声纹识别在文本相关场景下的直接应用。数字串声纹应用中,忽略音素信息或者没有音素信息的有效利用,将会限制文本无关识别算法在实际应用中的效果。表2:GMM-NAP和iVector系统在不同测试条件下的等错误率对比固定全部数字密码动态8位数字密码动态6位数字密码GMM-NAP2.09%2.64%3.76%iVector1.87%2.40%3.32%
技术实现思路
本专利技术的目的在于提出一种基于音素信息的声纹认证系统及方法,能够在实现音素信息切分、音素建模和音素相关(Phone-dependent)模型区分能力分析的同时,解决了数字串音素缺失的问题,并提高了数字串声纹认证系统的性能。为实现上述技术目的,本专利技术的技术方案是这样实现的:一种基于音素信息的声纹认证系统,包括基于汉语普通话语音识别器的音素强制对齐模块、音素相关的模型创建模块和基于dropout策略的神经网络分类器模块;所述基于汉语普通话语音识别器的音素强制对齐模块用于对数字串的十六个音素类别进行切分;所述音素相关的模型创建模块用于建立音素相关模型,并分析每个音素相关模型对声纹认证的区分能力,刻画了说话人的区分特点,而不是词汇之间差异;所述基于dropout策略的神经网络分类器模块用于融合音素相关模型的互补信息。一种基于音素信息的声纹认证方法,包括如下步骤:S01:定义汉语普通话数字串声纹的十六个音素类别,显式利用数字串的各个发音类别信息;S02:基于汉语普通话语音识别器,采用维特比强制对齐算法获取每个对应数字串文本内容的音素边界,完成对语音内容的音素切分,即语音特征向量到音素的映射关系,得到属于音素的特征向量子集合,每个特征子集合可看作是独立的数据流进行后续处理;S03:采用文本无关算法建立音素相关模型,音素相关的模型建立过程降低了每个音素相关模型的参数量,避免模型过训练;S04:计算音素相关模型,得到分数向量。进一步的,步骤S04中采用神经网络算法中的dropout策略训练后端融合分类器。本专利技术的有益效果:(1)本专利技术采用基于典型的汉语普通话语音识别器,采用维特比强制对齐算法获取每个对应数字串文本内容的音素边界,完成对语音内容的音素切分,相比于通常的基于动态时间规整(DynamicTimeWarping,DTW)等算法的切分效果更有优势;(2)本专利技术对汉语普通话的数字串发音定义了十六个发音类别,避免所属音素类特征向量过少引起的模型过训练问题,建立了音素相关模型,并分析每个音素相关模型对声纹认证的区分能力,音素相关模型刻画了说话人的区分特点,而非词汇之间的差异;(3)为了进一步提高音素相关模型的信息利用效果,并考虑到实际应用中认证语音只包含音素集合的部分内容,可能存在向量维度缺失的问题,采用dropout策略训练神经网络后端分类器,实现音素相关分数向量的融合判决,并明显提升了声纹认证的系统性能。附图说明图1是本专利技术中基于音素相关的分数向量的后端分类器处理流程图;图2是本专利技术中针对不同音素相关模型的等错误率的实验结果图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提出将音素信息显式利用与神经网络分类相结合的数字串声纹认证方法,对于每条数字串语音,利用汉语普通话语音识别器的维特比强制对齐算法完成对语音内容的音素切分;降低音素相关模型的训练参数量,避免每个音素模型的训练语音特征较少可能引起的过训练问题,分析每个音素模型对声纹识别的区分能力;对音素相关模型的分数向量可能存在维数缺失的问题,采用神经网络算法中的dropout策略训练后端融合分类器,提高了音素相关信息的利用效果,进一步提升了数字串声纹认证的系统性能。表3给出了十个汉语普通话数字发本文档来自技高网
...
一种基于音素信息的声纹认证系统及方法

【技术保护点】
一种基于音素信息的声纹认证系统,其特征在于,包括基于汉语普通话语音识别器的音素强制对齐模块、音素相关的模型创建模块和基于dropout策略的神经网络分类器模块;所述基于汉语普通话语音识别器的音素强制对齐模块用于对数字串的十六个音素类别进行切分;所述音素相关的模型创建模块用于建立音素相关模型,并分析每个音素相关模型对声纹认证的区分能力;所述基于dropout策略的神经网络分类器模块用于融合音素相关模型的互补信息。

【技术特征摘要】
1.一种基于音素信息的声纹认证系统,其特征在于,包括基于汉语普通话语音识别器的音素强制对齐模块、音素相关的模型创建模块和基于dropout策略的神经网络分类器模块;所述基于汉语普通话语音识别器的音素强制对齐模块用于对数字串的十六个音素类别进行切分;所述音素相关的模型创建模块用于建立音素相关模型,并分析每个音素相关模型对声纹认证的区分能力;所述基于dropout策略的神经网络分类器模块用于融合音素相关模型的互补信息。2.一种基于音素信息的声纹认证方法,其特征在于...

【专利技术属性】
技术研发人员:郑榕张策王黎明
申请(专利权)人:北京远鉴科技有限公司
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1