一种基于分布式结构的说话人确认方法技术

技术编号:3045602 阅读:170 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于分布式结构的说话人确认方法,这种基于分布式结构的说话人确认方法的系统(1),包括了系统前端(2)、数据传输信道(3)和系统后端(4)。其中系统前端采集说话人语音,提取特征,压缩为比特流格式,并送入数据传输信道;数据传输信道负责系统前端与系统后端数据的传输;系统后端将比特流格式数据解压缩为特征,并进行说话人确认。本发明专利技术的有益效果是:采用分布式结构解决了移动终端的存储量和计算能力的不足;采用匹配说话人模板与语音识别模板的双门限判决方法使得说话人确认方法同时满足说话人与说话内容判决的要求;采用随机文本提示的说话人确认方法防止假冒者应用说话人录音进入系统。

【技术实现步骤摘要】

本专利技术涉及一种说话人确认方法,更具体地说,它涉及一种说话人识别与语音识别相结合的说话人确认方法。
技术介绍
说话人识别,也称声纹识别或者话者识别,属于生物识别技术(如DNA识别,虹膜识别,指纹识别,颅骨识别等)的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。与语音识别不同的是,说话人识别利用的是语音信号中的说话人信息,而不考虑语音中地字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。基于电话语音的说话人识别技术的兴起始于80年代,由于电话网络和移动通信网络的普及以及电话银行、远程炒股、电子商务等电信相关业务的蓬勃发展,它成为了说话人识别
的研究重点。但是基于电话语音的说话人识别技术引入了话筒和传输信道,给语音带来了噪声和畸变,所以提高系统的鲁棒性一直是技术的关键,也是说话人识别技术投入实际应用需要解决的基本问题之一。另外,随着数据通信遍布于整个无线移动世界,便携式设备(如手机、笔记本电脑等)作为通过无线网络获取信息的移动终端,被更多的应用到无线通信中。然而,复杂的多媒体以及说话人识别系统的计算量对于移动终端的存储量和计算能力来说还存在着很大的挑战。在移动通信网络中对语音信号进行传输时,语音信号经过低比特率编码,再加上传输信道误码的影响,重构语音的失真严重,造成说话人识别系统的性能大幅下降。由于分布式说话人识别系统能够减少移动终端的存储量与计算量,并且对信道错误有较强的鲁棒性等优点,因此它将可能成为无线移动互联网中被应用的说话人技术的发展趋势。对于说话人确认,根据说话内容划分,可以分为文本无关说话人确认和文本相关说话人确认。对于文本无关的说话人确认系统,由于采用自由说话文本内容,虽然系统的易用性较高,可用在用户不配合发音的场合,但是系统的安全性也较低;对于文本相关的说话人确认系统,采用的是受限说话文本内容,需要用户配合提示文本内容发音,因此系统的安全性较高。为了防止假冒者应用说话人录音进入系统,人们采用随机文本提示的说话人确认,即此说话人确认系统不仅要判决说话人信息,还要判决说话的内容,只有这两者都符合系统要求的情况下,系统才接受。对于这种随机文本的说话人确认系统,传统的方法是采用特定说话人的语音识别方法,但是这种方法需要训练数据充足,而在实际应用系统中,这点却往往不能得到满足。本专利技术便是针对基于电话信道说话人识别中存在的信道匹配问题,基于分布式结构,提出。另外,随机文本提示的说话人确认系统中,采用了说话人识别和语音识别相结合的双门限判决方法。
技术实现思路
本专利技术要解决现有基于电话语音说话人确认技术存在的缺陷,提供,通过说话人识别和语音识别相结合的方法,实现随机文本提示的说话人确认方法,以防止假冒者应用说话人录音进入系统。本专利技术解决其技术问题所采用的技术方案这种基于分布式结构的随机文本提示说话人确认方法,是为每个说话人建立一个说话人识别模板,同时建立语音识别模板,首先在系统前端对语音进行特征提取,压缩为比特流格式,通过数据信道传输到系统后端;系统后端将比特流经过特征解压缩还原为特征,并分别训练说话人识别模板与语音识别模板;在识别阶段,采用的是说话人识别与语音识别相结合的双门限二次判决的方法,对于一条新语句,分别对说话人识别模板与语音识别模板进行打分,在通过一次判决的前提下,对得分进行归一化后进行二次判决。本专利技术有益的效果是采用分布式结构解决了移动终端的存储量和计算能力的不足;采用随机文本提示的说话人确认方法防止假冒者应用说话人录音进入系统;采用匹配说话人模板与语音识别模板的双门限方法使得随机文本提示的说话人确认方法同时满足说话人与说话内容判决的要求。附图说明图1为本专利技术的一个基于分布式结构的说话人确认拓扑结构图2为本专利技术一个实施例的系统流程图3为GMM识别的二次判决流程图4为HMM识别的二次判决流程具体实施例方式下面结合附图和实施例对本专利技术作进一步的介绍本专利技术的方法共分六步。第一步系统前端特征提取特征提取分为噪声削减,波形处理,谱计算,盲均衡四个部分。1.噪声削减处理噪声削减模块对输入信号基于帧进行二阶降噪处理。第一阶的输出信号作为第二阶的输入信号。a)利用谱估计模块对于输入语音帧进行线性谱估计;b)利用功率谱密度均值模块对信号按时序进行平滑处理;c)利用当前帧的谱估计与噪声谱估计信息一起计算频域维纳滤波器系数;d)线性维纳滤波器的系数将被一组美尔滤波器沿频率轴做平滑处理,之后再经过美尔反余弦变换便得到了美尔频率域的维纳滤波器;e)每阶降噪处理的输入信号都经过应用滤波器进行滤波处理;f)对待输出信号进行偏置补偿处理。2.波形处理波形处理模块根据信噪比,对噪声削减模块的输出信号进行处理。主要包括能量包络平滑模块、峰值检测模块和波形信噪比加权模块。a)以帧为基础计算噪声消减模块输出的能量,并采用FIR滤波器进行能量平滑;b)确定相应于基音频率的被平滑的能量包络的最大值;c)构造长度为Nin的加权函数wswp(n),并将此函数作用于整个波形处理模块的输入语音帧,得到输出信号。Sout(n)=1.2·wswp(n)·sin(n)+0.8·(1-wswp(n))·sin(n),0≤n≤Nin-13.谱计算谱计算即提取美尔频率倒谱系数(MFCC),包括能量量度计算、预加重、加窗、快速傅立叶变换、美尔滤波、非线性变换、余弦变换。计算得到的参数将被一起进行矢量量化特征压缩以及比特流帧格式化处理。4.盲均衡盲均衡模块是利用LMS算法对MFCC倒谱系数进行均衡处理。第二步系统前端特征压缩1.特征压缩输入参数是由盲均衡模块输出的美尔频率倒谱系数,采用分裂矢量量化的特征压缩算法进行压缩;2.对经过矢量量化压缩的比特流数据进行帧格式化和误码保护,加入CRC冗余校验,同步序列,帧头信息,装帧之后送入信道进行传输。第三步系统后端特征解压缩1.对从信道接收到的比特流数据经过误码检测及其纠错;2.将误码检测纠错后的比特流,根据分裂矢量量化的码本进行特征解压缩。第四步系统后端模板训练1.说话人识别模板训练这里,说话人识别模板采用的是高斯混合模型(GMM)。将训练语料库的语音,经过特征提取量化后,根据说话人信息,为每个人训练一个GMM。2.语音识别模板训练这里,语音识别模板采用的是隐马尔可夫模型(HMM),并且,训练的时候采用说话人自适应技术。将训练语料库的语音,经过特征提取量化后,训练一个说话人无关的HMM;然后将自适应语料库的语音,经过特征提取量化后,对说话人无关的HMM进行自适应,得到说话人相关的HMM。第五步系统后端模板匹配1.GMM模型匹配a)利用该说话人的GMM对每帧的特征向量进行打分,然后取所有帧的得分的平均值S11为此语句对于说话人判别的得分;b)利用除了当前说话人外的每个说话人GMM对每帧的特征向量进行打分,并得到最高的N1个得分,并求这N1个得分的算术平均值S1。2.HMM模型匹配a)根据说话内容,固定语法搜索网络,利用语音识别模板对每帧的特征向量进行打分,然后取所有帧的得分的平均值S21为此语句对于说话人判别的得分;b)根据词法网络循环搜索,利用语音识别模板对每帧的特征向量进行打分,所有搜索得分中并得本文档来自技高网
...

【技术保护点】
一种基于分布式结构的说话人确认系统,该系统包括了系统前端、数据传输信道和系统后端;系统前端采集说话人语音,提取特征,压缩为比特流格式,并送入数据传输信道;数据传输信道负责系统前端与系统后端数据的传输;系统后端将比特流格式数据解压缩为特征,并进行说话人确认。

【技术特征摘要】
1.一种基于分布式结构的说话人确认系统,该系统包括了系统前端、数据传输信道和系统后端;系统前端采集说话人语音,提取特征,压缩为比特流格式,并送入数据传输信道;数据传输信道负责系统前端与系统后端数据的传输;系统后端将比特流格式数据解压缩为特征,并进行说话人确认。2.根据权利要求1所述的系统,其特征在于,所述的说话人确认是随机文本提示的说话人确认的方法。3.根据权利要求2所述的随机文本提示的说话人确认方法,其特征在于,采用说话人识别方法与语音识别方法相结合的方法。4.根据权利要求2所述的随机文本提示的说话人确认方法,其特征在于,采用双门限判决的方法。5.根据权利要求3或4所述的基于分布式结构的说话人确认方法,其特征在于该方法系统前端的主要步骤5.1)特征提取特征提取分为噪声削减,波形处理,谱计算,盲均衡;5.2)特征压缩特征压缩分为分裂矢量量化,压缩数据的比特流帧格式化。6.根据权利要求3或4所述的基于分布式结构的随机文本提示说话人确认方法,其特征在于该方法系统后端的主要步骤6.1)特征解压缩特征解压缩根据分裂矢量量化的码本,将压缩数据的比特流还原为特征向量序列;6.2)模板训练模板训练包括说话人识别模板与语音识别模板的训练;6.3)模板匹配模板匹配包括说话人识别模板与语音识别模板的匹配,将解压缩后的特征向量序列,利用该说话人识别模板对每帧的特征向量进行打分,然后取所有帧的得分的平均值S11为此语句对于说话人判别的得分;另外,根...

【专利技术属性】
技术研发人员:李毅杰谢湘匡镜明
申请(专利权)人:北京理工大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1