增强语音识别系统稳健性的方法技术方案

技术编号:3764466 阅读:256 留言:0更新日期:2012-04-11 18:40
提出了用于增强语音识别系统的稳健性噪声估计方法,所述方法包括:根据当前信号段的瞬时功率谱更新语音信号功率谱的长时平均值和语音信号功率谱的长时平均值的最小值;根据功率谱长时平均值的最小值计算语音信号的第一频域信噪比;根据第一频域信噪比来判决不同频率分布区域是否存在有效语音的判决,基于所述判决估计瞬时的第一噪声功率谱;根据估计的第一噪声功率谱来更新噪声的功率谱长时平均值和噪声的功率谱长时平均值的最小值;根据更新的噪声的功率谱长时平均值的最小值再次估计语音信号的第二频域信噪比;基于第二次估计得到的第二频域信噪比估计频域中存在语音的概率;基于语音存在的概率估计第二噪声功率谱。

【技术实现步骤摘要】

本专利技术涉及自动语音识别技术,具体地,涉及用于在嘈杂环境中增强语音识别系统稳健性能的方法。
技术介绍
如今,语音识别技术被广泛使用。例如,呼叫中心使用大规模的语音识别系统来识 别用户的语音内容并通过语音分析技术来自动回答用户的问题。另外,可在语音识别引擎 的帮助下通过语音访问互联网服务。例如,一些网络搜索服务提供商同时也推出了基于手 机平台的语音搜索服务,很大程度上解决了用户在使用手机浏览网页时,不方便输入文字 的问题,提高了用户的满意程度。又例如,大量的电子玩具都装备有嵌入式语音识别引擎, 从而使得它们能够通过语音与玩家进行互动。通过语音识别引擎扫描语音内容并简要概括 内容或为了安全搜索敏感词。通过语音识别引擎处理多媒体内容的音轨以给出索引,从而 方便搜索或浏览。随着语音识别技术的进步,其使用范围将越来越广泛。然而,为了增强语音识别引擎的成功应用,还需要解决一些复杂的问题。如何在噪 声环境中提高语音识别引擎的稳健性能是一个重要的问题。如果语音识别引擎暴露于嘈杂 的环境,则很难像在干净或接近于干净的环境下工作的一样。目前,提出了各种技术和方法来提高语音识别系统的稳健性。可从语音识别系统 的框架来研究如何提高语音识别系统的稳健性能。现在,大部分成功的语音识别系统采用 如图1所示的框架。图1示出了语音识别系统的主要构成框架,其中,一般可包括5个部 分前端处理模块、频谱处理模块、倒谱处理模块、高斯处理模块、解码模块。首先,接收待分 析信号的前端处理模块接收语音输入信号,并将其转换为能够被二进制机器处理的数字格 式。通常,前端处理模块包括麦克风、模拟/数字(A/D)转换器和编解码器。接下来,对数 字化的采样进行时间-频率分析以提取能够代表语音的特征的频域特征。在多数情况下, 通过快速傅立叶变换(FTT)来实现该处理。然后,从频率代表变换更好的代表特征。所述 的特征应该是更具有代表性和/或区分度的,并组成精简的特征集。现在最普遍的特征集 是梅尔频率倒谱系数(Mel-FrequencyC印strum Coefficient),或者倒谱。接下来,通过一 些距离测量将倒谱与之前已知并存储在机器中的一些统计信息进行比较,搜索最有可能的 能够产生提取的倒谱的语音单元。在多数情况下,该比较过程非常复杂且包括负责处理语 音信息的时间排列问题的耗时的解码处理。在顺序地搜索出每个倒谱的语音单元之后,可 输出语音系列,并通过模拟语音信号给出语音内容的猜测。通过猜测,机器可“识别”用户 所说的语音。但是在噪声存在的情况下,图1的每个模块的输入与干净情况下相比有很大失 真。例如,输入模拟语音信号混杂有噪声信号。这样形成了噪声频谱,从噪声频谱提取的是 噪声倒谱。当将噪声倒谱与已知的倒谱进行比较时,由于不能从噪声倒谱得到与干净环境 中的对应部分最近的距离测量,难以搜索出正确的语音单元。因此,搜索出错误的语音单 元。最后,顺序输出了偏离正确语音的错误的语音单元。通常,噪声越多,识别的效果越差。例如,在车站、餐厅等公共场合,传统的语音识别系统的识别效果很差。目前,为了解决该问题,如图1所示,已经公开了用于图1中的各个模块的增强方 法。例如,在前端处理过程中,可使用前端增强技术来从嘈杂的语音中估计干净的语音。总 体说来,维纳(Wiener)滤波方法是最常用的。可采用多麦克风技术来提高干净信号估计的 精确度。但是该技术方案需要多个麦克风输入信道,否则难以仅通过单信道的混合输入估 计干净的语音信号。但是在许多实际应用中,硬件设计限制了多信道的使用,而改变硬件设 计是很困难的。 除了维纳滤波外,还有其它很多方法尝试从噪声频谱中估计干净的语音频谱。比 如,在估计了噪声频谱之后,从嘈杂的频谱中减去噪声频谱。这一类的方法被命名为噪声频 谱减法。这类方法在语音增强技术中起到了长久和成功的效应。已经开发了多种良好的算 法从混合的频谱中估计干净的频谱。此外,如果允许采用多信道,则可更大程度地提高性 能。但是该方法也具有天然的缺陷。首先,从单信道输入的混合的嘈杂频谱中估计干净的 频谱仍是难题;其次,噪声频谱减法方法不能给出正确的语音频谱估计,而只是给出计算的 可行近似度。因此,噪声频谱减法产生了错误因素,将降低语音识别引擎的性能。另外,多数补偿方法都作用于倒谱域。提出了多种方法从嘈杂的噪声倒谱估计干 净的语音信号倒谱。例如,利用从嘈杂语音库训练得到的预测参数,从现场提取的嘈杂倒谱 估计干净的语音倒谱,取得了较好性能。但是,由于该方法涉及大量的嘈杂语音库来训练相 关参数,因此难以复制其成功模式。噪声语音库的使用对于其他使用者,尤其是预算不足的 使用者来说是一个沉重的负担。即使采用相同的方法,但是如果不使用代表性的噪声语音 库,也难以得到理想的性能。虽然已经提出了多种方法来提高语音识别系统的稳健性能,然而目前在强噪声和 一般应用场合下提高语音识别系统的稳健性能仍是难题。某些特定的应用可以很好地处理 在某些背景环境下的问题,例如,设计用于室内环境的语音识别系统可处理在室内的语音 环境下的识别稳健性能。然而,一般性的解决方案仍有待开发。另一个问题是,目前的语音 识别方案都具有不同的缺点,例如,一些方案需要承载巨大的计算量,而另一些方案需要大 量的噪声训练库。因此,尤其对于嵌入式语音识别系统来说,低成本、没有训练需求、帧同步 处理和在不同情况下良好的底线的高效语音识别设备仍是亟待解决的问题。
技术实现思路
本专利技术提出了一种增强语音识别系统稳健性能的方法,以支持实时帧同步处理, 并可以在不需要噪声训练库的训练的情况下高效的工作,以此更加适合于在考虑嵌入式系 统平台的计算资源的限制的情况下使用。根据本专利技术的一方面,提出了一种增强语音识别系统稳健性的噪声估计方法,包 括步骤对输入的语音信号进行分段处理;根据当前信号段的瞬时功率谱更新语音信号功 率谱的长时平均值和语音信号功率谱的长时平均值的最小值;将更新后的功率谱长时平均 值的最小值作为对噪声功率谱的估计,计算语音信号的第一频域信噪比;根据第一频域信 噪比来判决不同频率分布区域是否存在有效语音的判决,基于所述判决估计瞬时的第一噪 声功率谱;根据估计的第一噪声功率谱来更新噪声的功率谱长时平均值和噪声的功率谱长 时平均值的最小值;将更新的噪声的功率谱长时平均值的最小值作为对噪声功率谱的第二次估计再次估计语音信号的第二频域信噪比;基于第二次估计得到的第二频域信噪比估计 频域中存在语音的概率;基于语音存在的概率估计第二噪声功率谱。根据本专利技术的另一方面,还提出了一种用于增强语音识别系统的稳健性的噪声补 偿方法,包括从语音信号功率谱减去估计的噪声功率谱;在梅尔频域上对减去噪声功率 谱的语音信号进行指数运算处理;提取指数运算处理的语音信号的梅尔频率倒谱系数作为 噪声补偿后的语音信号的特征系数。附图说明通过下面结合附图对实施例的详细描述,本专利技术的上述和/或其他方 面将会变得 清楚和更容易理解,其中图1是示出传统的语音识别系统的主要构成框架的框图;图2示出的是传统的嵌入移动终端的语音识别引擎的结构;图3是示出根据本专利技术实施例的用于增强语音识别系统的稳健性能的设备的总 体框图;图4是示出根据本专利技术实施例的语音识别系统的噪声估计模块的工作过程本文档来自技高网
...

【技术保护点】
一种用于增强语音识别系统稳健性的噪声估计方法,其特征在于包括步骤:根据当前信号段的瞬时功率谱更新语音信号功率谱的长时平均值和语音信号功率谱的长时平均值的最小值;将更新后的所述功率谱长时平均值的最小值作为对噪声功率谱的估计,计算语音信号的第一频域信噪比;根据所述第一频域信噪比来判决不同频率分布区域是否存在有效语音,并基于该判决估计瞬时的第一噪声功率谱;根据所述第一噪声功率谱来更新噪声的功率谱长时平均值和噪声的功率谱长时平均值的最小值;将更新的噪声的功率谱长时平均值的最小值作为对噪声功率谱的第二次估计计算语音信号的第二频域信噪比;基于所述第二次估计得到的第二频域信噪比估计频域中存在语音的概率;基于语音存在的概率估计第二噪声功率谱。

【技术特征摘要】

【专利技术属性】
技术研发人员:史媛媛朱璇邓菁
申请(专利权)人:三星电子株式会社北京三星通信技术研究有限公司
类型:发明
国别省市:KR[韩国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1