当前位置: 首页 > 专利查询>微软公司专利>正文

追踪语音信号中的共振峰的方法技术

技术编号:3046637 阅读:305 留言:0更新日期:2012-04-11 18:40
一种追踪共振峰的方法定义包含待查找的共振峰组的一个共振峰查找空间。通过使用码本查找整个共振峰查找空间来确认说话语音中第一帧的共振峰,而对余下的各帧使用码本和相邻帧间的连续性制约来查找同样的空间。在一个实施例中,通过映射共振峰组到特征向量以及应用该特征向量到一模型来确认共振峰。也可通过应用动态规划,查找最优地满足该模型所要求的连续性制约的最佳序列来确认共振峰。

【技术实现步骤摘要】
专利技术的背景本专利技术涉及语音识别系统,特别涉及利用语音中共振峰的语音识别系统。在人的语音中,大量的信息包含在语音信号最初的三个谐振频率或共振峰中。尤其是,当说话人发出一个元音时,共振峰的频率和带宽就指示所说的是哪个元音。为了检测共振峰,现有技术的系统分析该语音信号帧的频谱内容。由于共振峰可在任何频率上,所以现有技术已尝试在确认最有可能的共振峰值之前,限制查找空间。在现有技术的一些系统中,通过确认该帧频谱内容中的峰值来减少可能的共振峰的查找空间。典型地,这通过使用线性预测编码(LPC)来完成,线性预测编码试图找出表示语音信号帧的频谱内容的多项式。多项式的每个根代表该信号中可能的谐振频率,从而得到可能的共振峰。因此,使用LPC,对那些构成LPC多项式根的频率减少查找空间。在现有技术的其它共振峰追踪系统中,通过将该帧的频谱内容与一组已由专家识别出其共振峰的频谱模板相比较来减少查找空间。然后,选择最接近的“n”个模板用作计算该帧的共振峰。因此,系统将查找空间减少到与这些最接近的模板相关的那些共振峰。虽然减少查找空间的系统运行得很高效,但是它们易于发生错误,因为在减少查找空间的同时它们也会把真正的共振峰的频率排除在外。另外,由于基于输入信号的查找空间减少,输入信号不同帧中的共振峰通过使用不同的共振峰查找空间来识别。这决不是理想的情况,因为它将其它层可能的错误引入了查找过程。因此,需要一个共振峰追踪系统,它不以使用不同的共振峰查找空间来识别语音信号不同帧中的共振峰的方式来减少查找空间。专利技术摘要一种追踪共振峰的方法定义了一个由待查找的共振峰组构成的共振峰查找空间。通过查找整个共振峰查找空间确认第一和第二帧的共振峰。在一个实施例中,通过将共振峰组映射到特征向量以及将该特征向量应用到一模型来确认该共振峰。附图的简述附图说明图1所示是可在其中实践本专利技术实施例的通用计算环境的方块图。图2所示是语音信号的振幅频谱图。图3所示是本专利技术中一方法的流程图。图4所示是在本专利技术的一个实施例中用于训练残差模型的训练系统的方块图。图5所示是在本专利技术的一个实施例中,共振峰追踪系统的方块图。(说明性)实施例的详述图1示出一个可实现本专利技术的合适的计算系统环境100的实例。计算系统环境100只是合适的计算系统环境的一个实例,而非试图对本专利技术的使用或功能范围作出限制。计算系统环境100也不应解释为对示例操作环境100所示的任一组件或其组合具有依赖和要求。本专利技术可运行于许多其它基于一般或特殊目的计算系统环境或配置。适合本专利技术使用的著名计算系统环境和/或配置的例子包括,而非限制,个人电脑、服务器、手持式或膝上型装置、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子元件、网络PC、微型计算机、大型主机电脑、电话系统和包括所有上述系统和装置的分布计算环境等等。本专利技术在由计算机执行的诸如程序模块等计算机可执行指令的一般上下文环境中被描述。通常,程序模块包括运行特定任务或实现特定抽象数据类型的例行程序、程序、对象、组件、数据结构等。本专利技术设计运行在分布计算环境中,由通过通信网络连接的远程处理装置来执行任务。在分布计算环境中,程序模块位于本地和远程的计算机存储介质中,包括记忆存储装置。参照图1,实现本专利技术的示例系统包括计算机110形式的通用型计算装置。计算机110的组件可包括,而不局限于,处理单元120、系统内存130以及耦合各种系统组件,包括系统内存到处理单元120的系统总线121。系统总线121可以是几种总线结构的任一一种,包括内存总线或内存控制器、外围总线或使用任一一种总线结构的局域总线。作为例子,而非限制,这样的结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、增强型ISA(EISA)总线、符合视频电子标准协会标准(VESA)的局域总线以及也称为夹层(Mezzanine)总线的外围组件互联(PCI)总线。典型地,计算机110包括各种计算机可读介质。计算机可读介质可以是能被计算机110访问的任何可用介质,它包括易失和非易失的介质、可移动和不可移动的介质。作为例子,而非限制,计算机可读介质可包含计算机存储介质和通信介质。计算机存储介质包括由任何方法或技术实现的易失和非易失的、可移动和非移动的介质,用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息。计算机存储介质包括,而不局限于,RAM、ROM、EEPROM、闪存或其它存储技术、CD-ROM、数字多功能光盘(DVD)或其它光盘存储器、磁盒、磁带、磁盘存储器或其它磁存储装置、或其它任何能用来保存想要信息的并且能被计算机110访问的介质。典型地,通信介质含有计算机可读指令、数据结构、程序模块或在诸如载波或其它传递机制的调制数据信号中的其它数据,包括任何信息发布介质。术语“调制数据信号”指自身拥有一个或多个特征集或以信号中的编码信息方式改变的信号。作为例子,而非限制,通信介质包括诸如有线网络或直线连接等有线介质和诸如音频、射频(RF)、红外线和其它无线介质等无线介质。上述的任何组合也应包括在计算机可读介质的范围中。系统内存130包括易失和/或非易失存储器形式的计算机存储介质,如只读存储器(ROM)131和随机访问存储器(RAM)132。典型地,基本输入输出系统133(BIOS)存储在ROM131中,它包含用于在计算机110的单元间传递信息的基本例行程序,如在启动过程中。典型地,RAM132包含处理单元120随即可访问的和/或正被操作的数据和/或程序模块。作为例子,而非限制,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。计算机110也可包括其它可卸/非不可卸的易失/非易失的计算机存储介质。作为例子,而非限制,图1示出了读写非移动非易失磁介质的硬盘驱动器141、读写移动非易失磁盘152的磁盘驱动器151、读写诸如CD-ROM或其它光介质等移动非易失光盘156的光盘驱动器155。其它能被用在示例操作环境中的可卸/不可卸(的)易失/非易失的计算机存储介质包括,但不局限于,盒式磁带、闪存卡、数字多功能光盘、数字录像带、固态RAM、固态ROM等等。典型地,硬盘驱动器141通过诸如接口140等非移动内存接口连接到系统总线121,磁盘驱动器151和光盘驱动器155通过诸如接口150等移动内存接口连接到系统总线121。上面讨论的图1中所示的驱动器和相关计算机存储介质,为计算机110提供对计算机可读指令、数据结构、程序模块和其它数据的存储。例如,图1中所示硬盘驱动器141是用作存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意这些组件可与操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。操作系统144、应用程序145、其它程序模块146和程序数据147在这里给以不同的数字标号,最低程度上说明它们是不同的拷贝。用户可通过输入设备诸如键盘162、麦克风163和定点装置161诸如鼠标、轨迹球、触摸板向计算机110输入命令和信息。其它输入设备(未示出)包括操纵杆、游戏手柄、卫星天线、扫描仪等等。这些和其它输入设备常常通过耦合到系统总线的用户输入接口160连接到处理单元120,但也可通过诸如并行端口、游戏端口或通用串本文档来自技高网...

【技术保护点】
一种追踪语音信号中的共振峰的方法,其特征在于,该方法包括:定义包含共振峰组的共振峰查找空间;使用整个共振峰查找空间确认语音信号第一帧中的共振峰;以及使用整个共振峰查找空间确认语音信号第二帧中的共振峰。

【技术特征摘要】
US 2003-4-1 10/404,4111.一种追踪语音信号中的共振峰的方法,其特征在于,该方法包括定义包含共振峰组的共振峰查找空间;使用整个共振峰查找空间确认语音信号第一帧中的共振峰;以及使用整个共振峰查找空间确认语音信号第二帧中的共振峰;2.如权利要求1所述的方法,其特征在于,确认语音信号第一帧中的共振峰包括利用一组共振峰和一个特征向量间的映射。3.如权利要求2所述的方法,其特征在于,确认语音信号第一帧中的共振峰进一步包括利用对表示语音信号帧的输入特征向量和从一组共振峰映射得到的特征向量之间的差分进行建模的残差模型。4.如权利要求3所述的方法,其特征在于,使用期望最大化算法训练残差模型。5.如权利要求3所述的方法,其特征在于,使用残差模型包括顺序地使用从共振峰查找空间的每组共振峰映射到残差模型的特征向量来确定每组共振峰的概率。6.如权利要求5所述的方法,其特征在于,为一组共振峰确定概率进一步包括确定从前一帧中确认的共振峰组到第一帧中共振峰组的转换概率。7.如权利要求6所述的方法,其特征在于,该方法还进一步包括,为语音信号中连续帧的多个连续共振峰组的每一个,确定总的概率。8.如权利要求7所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:I巴齐邓立A埃西罗
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利