当前位置: 首页 > 专利查询>申子健专利>正文

基于UBM和SVM的说话人身份识别系统技术方案

技术编号:19429843 阅读:14 留言:0更新日期:2018-11-14 11:30
基于UBM和SVM的说话人身份识别系统。系统包括:语音格式转换,目的是将原始的语音信号转为适合开发环境的格式;均值特征向量提取系统,目的是便于应用于SVM的计算环境;向量机得分计算系统,主要功能是完成测试语音和训练语音的匹配,从而确定说话人的身份。

【技术实现步骤摘要】
基于UBM和SVM的说话人身份识别系统
本专利技术涉及到不基于文本的说话人身份识别。
技术介绍
近年来,各种身份识别方式层出不穷,常见的有人脸识别、指纹识别、语音识别等,这些都是为了识别身份,所谓身份识别技术,就是建立在一定的科技手段上,利用一些模型、算法,并借助于高端设备对人的身份进行鉴定识别。手机的屏幕解锁采用指纹识别,登录支付宝账户采用人脸识别,但不管是哪一种识别技术,都不能保证百分之百的准确率,只能通过不断提高科技手段,算法复杂度,来提高识别准确率。说话人身份识别就是基于语音识别的技术,识别说话人身份。与文本无关的说话人身份识别已经从基于高斯混合模型(GMM)的方式变为利用i-voctor特征参数来进行研究的方式,可以把这种变化看成是从概率模型计算到高维向量的转变。在研究GMM模型的过程中,我们对采集的语音信号进行特征提取,计算中使用的主要算法包括极大似然估计算法(EM),用于求取通用背景模型(UBM)的GMM,还有最大后验准则(MAP)的方式,用于求取说话人的GMM,最后用后验概率计算说话人得分,该方法又称为GMM-UBM。对于语音信号,我们的前段处理主要包含两个部分,分别为求取Mel倒谱系数,以及进行HTK封装。目的是将模拟语音信号转为数字信号,为后续的识别过程做基础。极大似然估计算法(EM)是另外一种求估计的方法,首先由德国数学家C.F.Gauss(高斯)在1821年提出,但这个方法通常被归功于英国的统计学家R.A.Fisher(罗纳德·费希尔),他在1922年的论文Onthemathematicalfoundationsoftheoreticalstatistics,reprintedinContributionstoMathematicalStatistics(byR.A.Fisher),1950,J.Wiley&Sons,NewYork中再次提出了这个思想,并且首先探讨了这种方法的一些性质,极大似然估计这一名称也是费希尔给的,这种方法目前仍然得到广泛地应用。通用背景模型(UBM)是由大量的冒认者语音使用EM算法训练得到的,因为UBM模型的训练来自大量不同的说话人,因而可以认为UBM模型是一个与任何一个单独的说话人都无关的模型。最大后验准则算法(MAP)可以看成是在EM算法的基础上利用UBM模型完成对少量语音的GMM求解,在语音识别领域应用广泛,当我们采集同一个说话人的少量语音数据后,就可求出这些语音的GMM参数。Mel倒谱系数Mel-scaledCepstrumCoefficients(MFCC)的目的是模拟人的听觉系统来描绘语音信号的特征,主要步骤有预加重,分帧加窗处理,各帧信号的FFT变换以及滤波等步骤。HTK格式主要是针对语言文件和语音标签数据文件的处理,是在工程中建立隐性马尔科夫模型(HMMS)的工具,比较适合在基于GMM的识别中使用,同时在MATLAB的研究环境下配有voicebox工具箱来进行格式转换。
技术实现思路
本专利技术的至少一个目的在于提供一种说话人身份识别的计算方式,至少能克服上述现有技术的缺点和不足,以提高说话人身份识别的准确度。本专利技术的一个实施例是一种说话人身份识别的算法系统,可以在计算机上进行仿真实,包括语音数据输入部分,将输入的语音转为标准的HTK格式。还包括识别过程,能够将语音库的说话人和外部输入的测试语音进行识别,可以提高对库中说话人的识别精度。在说话人身份识别的系统中,还应包括语音数据均值向量化的过程,并且结合一套基于SVM算法的识别方式。在说话人身份识别的算法系统中,说话人的测试语音要通过高斯混合模型、EM算法、MAP算法,转化为待处理的数据。在说话人身份识别的算法系统中,测试语音不需要知道具体说的内容,只要有声纹特征,即可参与识别。在说话人身份识别的算法系统中,我们选取GMM模型中的均值向量作为所要提取的数据。在说话人身份识别的算法系统中,我们利用SVM的超平面搭建,选择的是通用背景模型(UBM)的均值向量和训练语音的均值向量进行搭建。本专利技术的一个实例,是在TIMIT语音库对100名说话人实现精度较高的实验。该方法的具体实施过程,是将输入的测试语音的均值向量投入UBM和训练语音搭建的超平面里,根据数值反馈的大小情况确定测试语音是否是训练语音的可能性。该方法支持各种规模的数据库情况。该方法的实质上是一个向量机的优化算法,提高计算的效率。该方法没有严格地按照标准的向量机匹配方式,选取通用背景模型作为超平面的搭建者,主要原因是实验当中发现测试语音向量很容易偏向UBM,这是因为每次测试语音只有一句,经过MAP算法后,会造成测试语音靠近UBM。根据本专利技术的实施例,能够基于一般说话人身份识别的统计方式来提高识别准确度。附图说明参照下面结合附图对本专利技术的说明,会更加容易理解本专利技术的以上和其它的目的、特点、和优点。在附图中,相同的或对应的技术特征或流程将采用相同或对应的附图标记来表示。图1示出MFCC特征提取及HTK封装的流程。图2示出数据向量化的过程。图3示出UBM+训练语音“类”SVM搭建平面的过程。图4示出Mel滤波器组的结构。具体实施方式下面参照附图来说明本专利技术的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本专利技术无关的、本领域普通技术人员已知的部件和处理的表示和描述。专利技术人在对传统的基于概率模型的文本无关的说话人身份识别方法(GMM-UBM的方法)研究后了解到:这个传统的方法易受到噪音,说话人发音变化等因素的影响,降低其可靠性,且计算量比较大,运算时间比较长。下面将结合附图详细说明本专利技术的具体实施方式。采集到测试语音信号以后,首先进行MFCC特征提取与HTK封装。图1示出MFCC特征提取及HTK封装的过程。如图1所示,MFCC特征提取流程包括预加重、分帧、加窗、FFT变换、Mel滤波器组、对数运算。预加重处理其实是将语音信号通过一个高通滤波器,以此来提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。分帧处理将N个语音采样点集合成一个观测单位。通常情况下N的值为256或512,两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。加窗处理将每一帧乘以汉明窗,以增加帧左端和右端的连续性。乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。语音信号的FFT为:其中x(n)为输入的语音信号,N表示傅里叶变换的点数。将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。图4示出Mel滤波器组的结构。三角滤波器的频率响应定义为:其中:计算每个滤波器组输出的对数能量为:经离散余弦变换(DCT)得到MFCC系数:将上述的对数能量带入离散余弦变换,求出L阶的Mel-scal本文档来自技高网
...

【技术保护点】
1.一个说话人身份识别系统,包括:语音转换系统,将输入的原始语音进行格式转换,转换成符合系统运行条件的格式;得分计算系统,能够将测试语音和原先存在的训练语音进行比对,来确定是否为说话人。

【技术特征摘要】
1.一个说话人身份识别系统,包括:语音转换系统,将输入的原始语音进行格式转换,转换成符合系统运行条件的格式;得分计算系统,能够将测试语音和原先存在的训练语音进行比对,来确定是否为说话人。2.根据权利要求1所述的说话人身份识别系统,其中单次输入的语音一般情况下为同一个说话人所说。3.根据权利要求1所述说话人身份识别系统,事先要对待识别的说话人进行语音库搭建。4.根据权利要求1所述的说话人身份识别系统,输入的测试语音对其具体内容不需要事先准备,只要保证2秒以上的时长即可。5.根据权利要求1所述的说话人身份识别系统,语音库当中的训练语音,要求每人至少要有10句的训练量。6.根据权利要求5中的训练语音,一般情况下我们会选择让所有训练语音都在同样的标准下进行训练。7.一种进行说话人身份识别的方法,包括:测试语音和不同的训练语音之间计算的结果具有差异性;通用背景模型需要有足够的语音数据支撑,...

【专利技术属性】
技术研发人员:申子健徐波陈爱月
申请(专利权)人:申子健
类型:发明
国别省市:江苏,32

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1