增强语音识别系统稳健性的方法技术方案

技术编号：3764466 阅读：256 留言：0更新日期：2012-04-11 18:40

提出了用于增强语音识别系统的稳健性噪声估计方法，所述方法包括：根据当前信号段的瞬时功率谱更新语音信号功率谱的长时平均值和语音信号功率谱的长时平均值的最小值；根据功率谱长时平均值的最小值计算语音信号的第一频域信噪比；根据第一频域信噪比来判决不同频率分布区域是否存在有效语音的判决，基于所述判决估计瞬时的第一噪声功率谱；根据估计的第一噪声功率谱来更新噪声的功率谱长时平均值和噪声的功率谱长时平均值的最小值；根据更新的噪声的功率谱长时平均值的最小值再次估计语音信号的第二频域信噪比；基于第二次估计得到的第二频域信噪比估计频域中存在语音的概率；基于语音存在的概率估计第二噪声功率谱。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自动语音识别技术，具体地，涉及用于在嘈杂环境中增强语音识别系统稳健性能的方法。
技术介绍
如今，语音识别技术被广泛使用。例如，呼叫中心使用大规模的语音识别系统来识别用户的语音内容并通过语音分析技术来自动回答用户的问题。另外，可在语音识别引擎的帮助下通过语音访问互联网服务。例如，一些网络搜索服务提供商同时也推出了基于手机平台的语音搜索服务，很大程度上解决了用户在使用手机浏览网页时，不方便输入文字的问题，提高了用户的满意程度。又例如，大量的电子玩具都装备有嵌入式语音识别引擎，从而使得它们能够通过语音与玩家进行互动。通过语音识别引擎扫描语音内容并简要概括内容或为了安全搜索敏感词。通过语音识别引擎处理多媒体内容的音轨以给出索引，从而方便搜索或浏览。随着语音识别技术的进步，其使用范围将越来越广泛。然而，为了增强语音识别引擎的成功应用，还需要解决一些复杂的问题。如何在噪声环境中提高语音识别引擎的稳健性能是一个重要的问题。如果语音识别引擎暴露于嘈杂的环境，则很难像在干净或接近于干净的环境下工作的一样。目前，提出了各种技术和方法来提高语音识别系统的稳健性。可从语音识别系统的框架来研究如何提高语音识别系统的稳健性能。现在，大部分成功的语音识别系统采用如图1所示的框架。图1示出了语音识别系统的主要构成框架，其中，一般可包括5个部分前端处理模块、频谱处理模块、倒谱处理模块、高斯处理模块、解码模块。首先，接收待分析信号的前端处理模块接收语音输入信号，并将其转换为能够被二进制机器处理的数字格式。通常，前端处理模块包括麦克风、模拟/数字(A...

【技术保护点】
一种用于增强语音识别系统稳健性的噪声估计方法，其特征在于包括步骤：根据当前信号段的瞬时功率谱更新语音信号功率谱的长时平均值和语音信号功率谱的长时平均值的最小值；将更新后的所述功率谱长时平均值的最小值作为对噪声功率谱的估计，计算语音信号的第一频域信噪比；根据所述第一频域信噪比来判决不同频率分布区域是否存在有效语音，并基于该判决估计瞬时的第一噪声功率谱；根据所述第一噪声功率谱来更新噪声的功率谱长时平均值和噪声的功率谱长时平均值的最小值；将更新的噪声的功率谱长时平均值的最小值作为对噪声功率谱的第二次估计计算语音信号的第二频域信噪比；基于所述第二次估计得到的第二频域信噪比估计频域中存在语音的概率；基于语音存在的概率估计第二噪声功率谱。

【技术特征摘要】

【专利技术属性】
技术研发人员：史媛媛，朱璇，邓菁，
申请(专利权)人：三星电子株式会社，北京三星通信技术研究有限公司，
类型：发明
国别省市：KR[韩国]

全部详细技术资料下载我是这个专利的主人