当前位置: 首页 > 专利查询>微软公司专利>正文

用于减少在语音信号中的噪音的方法和系统技术方案

技术编号:3046462 阅读:217 留言:0更新日期:2012-04-11 18:40
提供了一种减少语音信号中的噪声的系统和方法。该系统和方法将含噪声的语音信号分解成一谐波分量和一剩余分量。然后将谐波分量和剩余分量组合成总和来形成一经降噪的值。在一些实施例中,该总和是加权总和,其中将谐波分量乘以一比例缩放因子。在一些实施例中,在语音识别中使用经降噪的值。

【技术实现步骤摘要】

本专利技术涉及降噪,尤其涉及从语音识别中使用的信号中移除噪声。
技术介绍
模式识别系统,如语音识别系统,采用输入信号并试图对该信号进行解码来找出由该信号表示的模式。例如,在语音识别系统中,语音信号(通常称为测试信号)由识别系统接收并解码来标识由该语音信号表示的一串单词。为对输入测试信号进行解码,大多数识别系统使用描述该测试信号的一部分表示特定模式的似然性的一个或多个模型。这类模型的示例包括神经网络、动态时间规整(Dynamic Time Warping)、分段模型和隐马尔可夫模型(Hidden MarkovModel)。在一个模型可以被用来对输入信号进行解码之前,必须对它进行训练。这通常通过测量来自已知的训练模式的输入训练信号来完成。例如,在语音识别中,一组语音信号由说话者读已知的文本来生成。然后使用这些语音信号来训练模型。为使模型能最优地工作,用于训练模型的信号应当与被解码的最终测试信号类似。具体而言,训练信号应当与被解码的测试信号具有相同的噪声量和类型。通常,在“干净”的条件之下收集训练信号,并且考虑训练信号为相对无噪声。为在测试信号中达到这一同样的低噪声水平,许多现有技术系统向测试数据应用噪声减少技术。一种移除噪声的技术试图使用在各种含噪声的条件下收集的一组训练信号来将噪声模型化。然而,这类系统仅当训练信号的噪声条件匹配测试信号的噪声条件时才有效。由于大量可能的噪声和噪声的表面上的无穷组合,很难构建能处理每一测试条件的噪声模型。用于移除噪声的另一技术是估计噪声然后将其从含噪声的语音信号中减去。通常,这类系统从输入信号的前一帧估计噪声。由此,如果噪声随时间变化,对当前帧的噪声估计将不准确。用于估计语音信号中的噪声的现有技术的一种系统使用人类语音的谐波。人类语音的谐波在频谱中产生峰值。通过标识这些峰值之间的空值,这些系统标识噪声的频谱。然后从含噪声的语音信号的频谱中减去该频谱来提供干净的语音信号。也在语音编码中使用语音的谐波来减少当对语音进行编码用于跨越数据通信路径的传输时必须发送的数据量。这类系统试图将语音信号分离成谐波分量和随机分量。然后单独地对每一分量进行编码用于传输。一个具体的系统使用正弦曲线总和模型符合语音信号的谐波+噪声模型来执行分解。在语音编码中,完成分解来找出准确地表示输入的含噪声的语音信号的语音信号的参数表示。分解没有降噪能力,并因此在语音识别中并不有用。
技术实现思路
提供了一种减少语音信号中的噪声的系统和方法。该系统和方法将含噪声的语音信号分解成谐波分量和剩余分量。然后将谐波分量和剩余分量组合成一总和来形成一经降噪的值。在一些实施例中,该总和是一加权总和,其中,将谐波分量乘以一比例缩放因子。在一些实施例中,在语音识别中使用经降噪的值。附图说明图1是可以在其中实践本专利技术的一个计算环境的框图。图2是可以在其中实践本专利技术的一个替换的计算环境的框图。图3是使用本专利技术的一个实施例的噪声减少系统的方法的流程图。图4是本专利技术的一个实施例的噪声减少系统的框图。图5是可实践本专利技术的实施例的模式识别系统的框图。具体实施例方式图1示出了适合在其中实现本专利技术的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非建议对本专利技术的使用或功能的范围的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。本专利技术可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本专利技术的众所周知的计算系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、电话系统、包括任一上述系统或设备的分布式计算环境等等。本专利技术可在计算机可执行指令的一般上下文环境中描述,计算机可执行指令如程序模块,由计算机执行。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。设计本专利技术在分布式计算环境中实践,其中,任务由通过通信网络连接远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储媒质中,包括存储器存储设备。参考图1,用于实现本专利技术的示例性系统包括以计算机110形式的通用计算装置。计算机110的组件可包括但不限于,处理单元120、系统存储器130以及将各类系统组件包括系统存储器耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线结构的本地总线。作为示例而非局限,这类结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)本地总线以及外围部件互连(PCI)总线,也称为Mezzanine总线。计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质,包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限,计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存信息的任一方法或技术实现的易失和非易失,可移动和不可移动媒质,存储的信息如计算机可读指令、数据结构、程序模块或其它数据。计算机存储媒质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信媒质包括有线媒质,如有线网络或直接连线连接,以及无线媒质,如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。系统存储器130包括以易失和/或非易失存储器形式的计算机存储媒质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM 131中。RAM 132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例,图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156,如CD ROM或其它光媒质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储媒质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口,如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过可移动存储器接本文档来自技高网
...

【技术保护点】
一种标识表示经降噪的语音信号的一部分的经降噪的值的估计的方法,其特征在于,所述方法包括:将含噪声的语音信号的一部分分解成一谐波分量和一随机分量;至少对所述谐波分量确定一比例缩放参数;将所述谐波分量乘以所述谐波分量的比例缩放参数来形成一经比例缩放的谐波分量;将所述随机分量乘以所述随机分量的比例缩放参数来形成一经比例缩放的随机分量;以及将所述经比例缩放的谐波分量和所述经比例缩放的随机分量相加来形成所述经降噪的值。

【技术特征摘要】
US 2003-8-25 10/647,5861.一种标识表示经降噪的语音信号的一部分的经降噪的值的估计的方法,其特征在于,所述方法包括将含噪声的语音信号的一部分分解成一谐波分量和一随机分量;至少对所述谐波分量确定一比例缩放参数;将所述谐波分量乘以所述谐波分量的比例缩放参数来形成一经比例缩放的谐波分量;将所述随机分量乘以所述随机分量的比例缩放参数来形成一经比例缩放的随机分量;以及将所述经比例缩放的谐波分量和所述经比例缩放的随机分量相加来形成所述经降噪的值。2.如权利要求1所述的方法,其特征在于,分解含噪声的语音信号的一部分还包括确定一最小二乘解来标识所述谐波分量。3.如权利要求1所述的方法,其特征在于,确定所述谐波分量的比例缩放参数包括确定所述谐波分量的能量和所述含噪声的语音信号的能量之比。4.如权利要求3所述的方法,其特征在于,确定能量之比包括将所述谐波分量的样值的能量相加;将所述含噪声的语音信号的样...

【专利技术属性】
技术研发人员:M塞尔泽J德罗普A阿塞罗
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1