语音处理设备和语音处理方法技术

技术编号:3044696 阅读:162 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种语音处理设备、语音处理方法和语音处理程序。这里公开了一种语音处理设备,用于基于输入的语音的韵律特性来识别所述语音,所述语音处理设备包括:语音采集装置,用于采集所述输入语音;声学分析装置,用于基于在所述语音采集装置所采集的所述输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异,来找出相对音调变化;以及韵律识别装置,用于基于由所述声学分析装置所找到的所述相对音调变化来执行韵律识别过程,以产生所述韵律识别过程的结果。

【技术实现步骤摘要】

本专利技术涉及语音处理设备、语音处理方法和语音处理程序。更具体而言,本专利技术涉及能够基于语音的韵律(prosody)特性来识别语音的卓越的 语音处理设备、在该语音处理设备中采用的语音处理方法以及实现该语音 处理方法的语音处理程序。
技术介绍
近年来,语音识别技术被广泛使用。在过去,语音识别技术基本上是 一种用于识别关于音素(phoneme)的信息的技术。关于音素的信息在下 文中被称为音素信息,它是语音中包括的信息的一部分。在当前的现有技 术中,很难说普通的语音识别技术积极地利用了关于韵律的信息。关于韵 律的信息在下文中被称为韵律信息,它是作为除音素信息之外的信息而包 括在语音中的信息。但是,这并不意味着完全不存在利用韵律信息的现有技术。例如,己 知一种技术,其利用韵律信息以更加适当地识别短语之间的边界,等等。 关于这样的技术的细节,建议读者参考日本专利早期公布No. Hei 4-66999 (以下称之为专利文献l)。
技术实现思路
但是,专利文献1中公开的现有技术利用关于韵律的信息作为辅助信 息以提供语音识别技术的精度。从而,专利文献1中公开的现有技术不是 一种能够清楚地识别在关于韵律的信息中包括的更多样化的信息的技术。顺便说一下,只利用关于音素的信息,在一些情况下可能难以识别人 类发出的语音。例如,在日本语的情况下,表达同意意图的单词ung 和表达不同意意图的单词uung从音素信息的观点来看几乎是彼此相同的。从而,在这种情况下,只利用音素信息就难以区分同意意图和不同意 意图。因此,有必要执行也基于诸如关于语调模式和关于音素持续时间的 信息之类的韵律信息的语音识别过程。在作为语音信号处理的一部分而执行的与语调相关的过程中,广泛采 用了检测音调(pitch)频率(或音调周期)的技术。但是,检测音调频率 的技术有这样一个问题,即由于噪声之类的影响,很容易产生差错。此外,在将检测音调频率的技术应用到耳语语音(whispering voice)和具有 低音调特性的语音时,也容易产生差错。从而,在实现如上所述的检测音 调频率的技术时容易产生差错的情形下或者在易于出现检测差错的语音识 别过程中,基于韵律信息的语音识别过程可能是难以执行的处理。为了解决上述问题,本专利技术的专利技术人专利技术了一种语音处理设备和一种 语音处理方法,即使在噪声之类的影响较大的情况下以及耳语语音的情况 下或者具有低音调特性的语音的情况下,该语音处理设备和语音处理方法 也能够基于语音的韵律特性来有效地检测音调频率并且十分可靠地识别输 入语音。根据本专利技术的一个实施例,提供了一种语音处理设备,用于基于输入的语音的韵律特性来识别语音。该语音处理设备使用语音采集装置,用于采集输入语音;声学分析装置,用于基于在语音采集装置所采集的输入语音的每个帧 时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差 异,来找出相对音调变化;以及韵律识别装置,用于基于由声学分析装置所找到的相对音调变化来执 行韵律识别过程,以产生韵律识别过程的结果。可以向该语音处理设备提供这样一个配置,在该配置中,声学分析装 置基于脊线(ridge line)相对于从第一和第二频率特性计算出的互相关矩 阵的主对角线的偏移,来找出相对音调变化,该脊线是作为连接与第一和 第二频率特性的峰相对应的矩阵元素的直线而绘制在互相关矩阵中的。可以向该语音处理设备提供这样一个配置,该配置还具有用于存储第 二频率特性的频率特性存储装置。可以向该语音处理设备提供这样一个配置,在该配置中 频率特性存储装置被用于存储多个第二频率特性,并且 声学分析装置基于根据由语音采集装置所采集的输入语音而从存储在频率特性存储装置中的第二频率特性中选择出来的适当的第二频率特性,来找出相对音调变化。可以向该语音处理设备提供这样一个配置,该配置还具有-语音识别装置,用于执行基于作为对由语音采集装置所采集的输入语音执行声学分析的结果而获得的特性量的语音识别过程,以产生语音识别过程的结果,其中,如果语音识别过程的结果与特定单词之一相匹配,则很有可能语音识别过程的结果是不正确的;特定单词存储装置,用于存储特定单词;以及结果选择装置,用于将语音识别过程的结果与存储在特定单词存储装 置中的特定单词相核对,其中如果语音识别过程的结果与存储在特定单词存储装置中的特定单词之 一相匹配,则结果选择装置输出最终识别结果,该最终识别结果是通过将 由语音识别装置所执行的语音识别过程的结果与由韵律识别装置所执行的 韵律识别过程的结果相结合来获得的,但是另一方面,如果语音识别过程的结果不与存储在特定单词存储装置中 的特定单词中的任何一个相匹配,则结果选择装置输出由语音识别装置执 行的语音识别过程的结果,作为最终识别结果。根据本专利技术的另一实施例,提供了一种由语音处理设备采用的语音处 理方法,用于基于输入的语音的韵律特性来识别语音。该语音处理方法包 括以下步骤采集输入语音;基于在所采集的输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异,来找出相对音调变化;以及基于所找到的相对音调变化来执行韵律识别过程,以产生韵律识别过 程的结果。根据本专利技术的另一个实施例,提供了一种语音处理程序,该语音处理程序将由计算机执行,以便基于输入的语音的韵律特性来识别语音。该语 音处理程序实现包括以下步骤的语音处理方法 采集输入语音;基于在以受控方式采集的输入语音的每个帧时间所看到的第一频率特 性和预先确定的第二频率特性之间的频率方向差异,来找出相对音调变 化;以及基于所找到的相对音调变化来执行韵律识别过程,以产生韵律识别过 程的结果。根据本专利技术的实施例, 采集输入语音;基于在所采集的输入语音的每个帧时间所看到的第一频率特性和预先 确定的第二频率特性之间的频率方向差异,来找出相对音调变化;并且基于所找到的相对音调变化来执行韵律识别过程,以产生韵律识别过 程的结果。该语音处理设备可以是独立的设备,或者是语音处理设备的用于执行 语音识别过程的模块。如上所述,根据本专利技术的实施例,可以基于输入的语音的韵律特性来 识别语音。具体而言,基于在所采集的输入语音的每个帧时间所看到的第 一频率特性和预先确定的第二频率特性之间的频率方向差异,来找出相对 音调变化。从而,即使输入语音包括非语音部分(unvoiced sound portion)或者静默片段,也能够正确地识别输入的语音。附图说明图1是示出本专利技术所应用到的语音识别设备的配置的框图; 图2是示出图1所示的语音识别设备中使用的韵律识别部件的配置的 框图3是示出正常语音的频率特性的图; 图4是示出耳语语音的频率特性的图; 图5是示出频率特性分析部件的功能配置的框图6是示出由图5所示的频率特性分析部件中使用的时间到频率变换 部件所输出的典型频率特性的图,该时间到频率变换部件作为根据本专利技术 一个实施例的时间到频率变换部件;图7是示出由图5所示的频率特性分析部件中使用的对数变换部件所 输出的典型频率特性的图,该对数变换部件作为根据本专利技术一个实施例的对数变换部件;图8是示出由图5所示的频率特性分析部件中使用的频率范围提取部 件所输出的典型频率特性的图,该频率范围提取部件作为根据本专利技术一个 实施例的频率范围提取部件;图本文档来自技高网...

【技术保护点】
一种语音处理设备,用于基于输入的语音的韵律特性来识别所述语音,所述语音处理设备包括:语音采集装置,用于采集所述输入语音;声学分析装置,用于基于在所述语音采集装置所采集的所述输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异,来找出相对音调变化;以及韵律识别装置,用于基于由所述声学分析装置所找到的所述相对音调变化来执行韵律识别过程,以产生所述韵律识别过程的结果。

【技术特征摘要】
JP 2006-12-1 2006-3257801.一种语音处理设备,用于基于输入的语音的韵律特性来识别所述语音,所述语音处理设备包括语音采集装置,用于采集所述输入语音;声学分析装置,用于基于在所述语音采集装置所采集的所述输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异,来找出相对音调变化;以及韵律识别装置,用于基于由所述声学分析装置所找到的所述相对音调变化来执行韵律识别过程,以产生所述韵律识别过程的结果。2. 根据权利要求1所述的语音处理设备,其中,所述声学分析装置基 于脊线相对于从所述第一和第二频率特性计算出的互相关矩阵的主对角线 的偏移,来找出所述相对音调变化,所述脊线是作为连接与所述第一和第 二频率特性的峰相对应的矩阵元素的直线而绘制在所述互相关矩阵中的。3. 根据权利要求2所述的语音处理设备,所述语音处理设备还具有用 于存储所述第二频率特性的频率特性存储装置。4. 根据权利要求3所述的语音处理设备,其中 所述频率特性存储装置被用于存储多个所述第二频率特性,并且 所述声学分析装置基于根据由所述语音采集装置所采集的所述输入语音而从存储在所述频率特性存储装置中的所述第二频率特性中选择出来的 适当的第二频率特性,来找出所述相对音调变化。5. 根据权利要求1所述的语音处理设备,所述语音处理设备还具有 语音识别装置,用于执行基于作为对由所述语音采集装置所采集的所述输入语音执行声学分析的结果而获得的特性量的语音识别过程,以产生 所述语音识别过程的结果,其中,如果所述语音识别过程的结果与预先存 储的预定的特定单词之一相匹配,则很有可能所述语音识别过程的所述结 果是不正确的;特定单词存储装置,用于存储所述特定单词;以及结果选择装置,用于将所述语音识别过程的所述结果与存储在所述特 定单词存储装置中的所述特定单词相核对,其...

【专利技术属性】
技术研发人员:山田敬一
申请(专利权)人:索尼株式会社
类型:发明
国别省市:JP[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利