特征向量补偿装置和特征向量补偿方法制造方法及图纸

技术编号:3045090 阅读:196 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种特征向量补偿装置和特征向量补偿方法。其中,特征提取单元提取输入语音的特征向量。相似性计算单元根据特征向量,针对多个噪声环境中的每一个计算相似度。补偿向量计算单元从存储单元中获取第一补偿向量,根据第一补偿向量计算第二补偿向量,并且通过以相似度作为加权系数使第二补偿向量加权相加,来计算第三补偿向量。补偿单元根据第三补偿向量来补偿特征向量。

【技术实现步骤摘要】

本专利技术一般涉及语音处理技术,特别是涉及背景噪声环境下的语音处理。
技术介绍
在噪声环境下的语音识别中,由于学习时的噪声环境与识别时的噪声环境之间的差异,语音模型的不匹配导致识别性能降低的问题。应对该问题的有效方法之一是在Li Deng,Alex Acero,Li Jiang,JashaDroppo and Xuedong Huang,“High-performance robust speechrecognition using stereo training data”,Proceedings of 2001International Conference on Acoustics,Speech,and Signal Processing,pp.301-304中提出的以立体声为基础的分段线性环境补偿(stereo-based piecewise linear compensation for environments,SPLICE)方法。SPLICE方法预先从一对干净语音数据和在干净语音数据上叠加了噪声的噪声语音数据中获得补偿向量,利用该补偿向量,使语音识别时的特征向量接近干净语音的特征向量。SPLICE方法也可以被视为降噪的方法。利用这样一种补偿处理,有报告称,即使在培训条件与识别条件不匹配时,也可以获得较高的识别率。但是,传统的SPLICE方法仅仅为逐帧地从预先设计的多个噪声环境中选择的单个噪声环境来补偿特征向量,并且预先设计的噪声环境不一定与语音识别时的噪声环境相匹配。因此,由于声音模型的不匹配会导致识别性能的降低。而且,由于噪声环境的选择是在10至20毫秒短的每帧内进行,因此即使当相同的环境持续一定时间段,也会为每帧选择不同的环境,从而导致识别性能的降低。
技术实现思路
本专利技术的第一方面提供一种特征向量补偿装置,用于补偿在背景噪声环境下的语音处理中使用的语音的特征向量,包括存储单元,针对多个噪声环境中的每一个,在其中存储第一补偿向量;特征提取单元,提取输入语音的特征向量;相似性计算单元,根据所提取的特征向量,针对每个噪声环境计算相似度,所述相似度表示输入语音在所述噪声环境下产生的确定性;补偿向量计算单元,从所述存储单元中获取第一补偿向量,根据所获取的第一补偿向量,计算作为针对每个噪声环境的特征向量的补偿向量的第二补偿向量,并且通过以相似度作为加权系数使计算出的第二补偿向量加权相加,来计算第三补偿向量;和补偿单元,根据第三补偿向量来补偿所提取的特征向量。本专利技术的第二方面提供一种用于补偿在背景噪声环境下的语音处理中使用的语音的特征向量的方法,包括以下步骤提取输入语音的特征向量的步骤;根据所提取的特征向量,针对多个噪声环境中的每一个计算相似度的步骤,所述相似度表示输入语音在所述噪声环境下产生的确定性;补偿向量计算步骤,包括以下步骤从针对每个噪声环境在其中存储第一补偿向量的存储单元中获取第一补偿向量,根据所获取的第一补偿向量,计算作为针对每个噪声环境的特征向量的补偿向量的第二补偿向量,以及通过以相似度作为加权系数使计算出的第二补偿向量加权相加,来计算第三补偿向量;和根据第三补偿向量来补偿所提取的特征向量的步骤。附图说明图1是本专利技术第一实施方式的特征向量补偿装置的功能框图。图2是第一实施方式的特征向量补偿处理的流程图。图3是本专利技术第二实施方式的特征向量补偿装置的功能框图。图4是第二实施方式的特征向量补偿处理的流程图。图5是用于说明第一和第二实施方式的特征向量补偿装置的硬件结构的示意图。具体实施例方式以下参照附图详细说明本专利技术的示例性实施方式。本专利技术第一实施方式的特征向量补偿装置预先为多个噪声环境设计补偿向量,并将补偿向量存储在存储单元中,在语音识别时计算输入语音针对每个噪声环境的相似度,通过根据所计算的相似度对噪声环境的补偿向量进行加权相加来获得补偿向量,并根据所获得的补偿向量来补偿特征向量。图1是第一实施方式的特征向量补偿装置100的功能框图。特征向量补偿装置100包括噪声环境存储单元120、输入接收单元101、特征提取单元102、相似性计算单元103、补偿向量计算单元104和特征向量补偿单元105。噪声环境存储单元120在其中存储利用GMM将多个噪声环境模型化时的高斯混合模型(Gaussian mixture model,GMM)参数、以及作为对应于每个噪声环境的特征向量的补偿向量而预先计算出的补偿向量。根据第一实施方式,假设预先计算3个噪声环境的参数,包括噪声环境1的参数121、噪声环境2的参数122和噪声环境3的参数123,并存储在噪声环境存储单元120中。噪声环境的数量不限于3个,换言之,可以采用任何希望数量的噪声环境作为参考数据。噪声环境存储单元120可以由一般使用的任意记录介质构成,例如硬盘驱动器(HDD)、光盘、存储卡和随机存取存储器(RAM)。输入接收单元101将从例如麦克风等输入单元(未示出)输入的语音转换成电信号(语音数据),基于例如脉冲编码调制(PCM)对语音数据执行模拟-数字(A/D)转换,从而将模拟数据转换成数字数据,并输出数字语音数据。输入接收单元101所执行的处理可以通过使用与传统技术的语音信号数字处理相同的方法来实现。特征提取单元102将从输入接收单元101接收到的语音数据分割成具有规定长度的多个帧,并提取语音的特征向量。帧的长度可以是10至20毫秒。根据第一实施方式,特征提取单元102提取包含梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的静态、Δ和ΔΔ参数的语音的特征向量。换言之,特征提取单元102使用对梅尔滤波器组分析的输出功率进行离散余弦转换的方法,计算包含13维MFCC、MFCC的Δ和ΔΔ的总共39维特征向量,作为每个分割帧的特征向量。特征向量不限于上述的特征向量。换言之,只要代表输入语音的特征,任何参数都可以用作特征向量。相似性计算单元103根据由特征提取单元102提取的特征向量,为预先确定的上述3个噪声环境中的每一个计算相似度,该相似度表示输入语音在每个噪声环境下产生的确定性。补偿向量计算单元104从噪声环境存储单元120中获取每个噪声环境的补偿向量,并通过利用由相似性计算单元103计算的相似度作为加权系数,对所获取的补偿向量进行加权相加,来计算输入语音的特征向量的补偿向量。特征向量补偿单元105使用由补偿向量计算单元104计算的补偿向量来补偿输入语音的特征向量。特征向量补偿单元105通过使补偿向量与特征向量相加来补偿特征向量。图2是第一实施方式的特征向量补偿处理的流程图。首先,输入接收单元101接收用户发出的语音的输入(步骤S201)。输入语音由输入接收单元101转换成数字语音信号。特征提取单元102将语音信号分割成10毫秒的帧,并提取每帧的特征向量(步骤S202)。特征提取单元102如上所述通过计算MFCC的特征向量yt来提取特征向量。相似性计算单元103根据由特征提取单元102提取的特征向量yt,计算针对预先确定的每个噪声环境的帧的语音的相似度(步骤S203)。当噪声环境模型为e时,假设时刻t的特征向量yt,则将相似度如式(1)所示计算为噪声环境e的事后概率p(e|yt)p(e|yt本文档来自技高网
...

【技术保护点】
一种特征向量补偿装置,用于补偿在背景噪声环境下的语音处理中使用的语音的特征向量,包括:存储单元,针对多个噪声环境中的每一个,在其中存储第一补偿向量;特征提取单元,提取输入语音的特征向量;相似性计算单元,根据所提取的特征向量,针对每个噪声环境计算相似度,所述相似度表示输入语音在所述噪声环境下产生的确定性;补偿向量计算单元,从所述存储单元中获取第一补偿向量,根据所获取的第一补偿向量,计算作为针对每个噪声环境的特征向量的补偿向量的第二补偿向量,并且通过以相似度作为加权系数使计算出的第二补偿向量加权相加,来计算第三补偿向量;和补偿单元,根据第三补偿向量来补偿所提取的特征向量。

【技术特征摘要】
JP 2006-4-6 2006-1050911.一种特征向量补偿装置,用于补偿在背景噪声环境下的语音处理中使用的语音的特征向量,包括存储单元,针对多个噪声环境中的每一个,在其中存储第一补偿向量;特征提取单元,提取输入语音的特征向量;相似性计算单元,根据所提取的特征向量,针对每个噪声环境计算相似度,所述相似度表示输入语音在所述噪声环境下产生的确定性;补偿向量计算单元,从所述存储单元中获取第一补偿向量,根据所获取的第一补偿向量,计算作为针对每个噪声环境的特征向量的补偿向量的第二补偿向量,并且通过以相似度作为加权系数使计算出的第二补偿向量加权相加,来计算第三补偿向量;和补偿单元,根据第三补偿向量来补偿所提取的特征向量。2.如权利要求1所述的特征向量补偿装置,其中,存储单元在其中存储在利用高斯混合模型将噪声环境模型化时取得的参数,相似性计算单元从存储单元中获取所述参数,根据所获取的参数,针对每个噪声环境计算表示特征向量出现的确定性的第一似然,并且根据计算出的第一似然来计算相似度。3.如权利要求1所述的特征向量补偿装置,其中,补偿单元通过将第三补偿向量与特征向量相加来补偿特征向量。4.如权利要求1所述的特征向量补偿装置,其中,存储单元针对每个噪声环境在其中存储根据作为噪声环境下的语音的噪声语音和作为没有噪声的环境下的语音的干净语音而计算出的第一补偿向量。5.如权利要求1所述的特征向量补偿装置,其中,特征提取单元提取输入语音的梅尔频率倒谱系数作为特征向量。6.如权利要求1所述的特征向量补偿装置,其中,相似性计...

【专利技术属性】
技术研发人员:赤岭政巳益子贵史丹尼尔巴雷达雷姆科特尤南
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1