当前位置: 首页 > 专利查询>英特尔公司专利>正文

以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统技术方案

技术编号:2878782 阅读:207 留言:0更新日期:2012-04-11 18:40
根据发明专利技术的一个方面,提供一种方法,其中关于带声调音节语言的声调特征的知识在自底向上识别结构中被用来在多个层次上模拟话音。自底向上识别结构中的多个层次包含声学层次、语音层次、词层次和语句层次。在声学层次上音调被看作连续声学变量并且从话音信号中抽取的音调信息被作为特征向量的特征分量。在语音层次上具有相同语音结构但不同声调的主元音被定义和模拟成不同的音素。在词层次上使用一组声调变化规则建立训练数据的副本和解码的读音格。在语句层次上一组具有轻声的语句结束词被加到系统词汇表中。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及语音识别领域。更具体地,本专利技术涉及以自底向上方式将声调集成到汉语连续语音识别系统中的方法、装置和系统。
技术介绍
现代语音识别系统依据统计模式识别的原理并且通常使用声学模型和语言模型解码一个代表输入话音(例如一个语句或词串)的观测(也称作声学事件或声学信号)输入序列以便在指定观测输入序列的情况下确定最可能的语句或词序列。换言之,现代语音识别器的功能是搜索大量潜在或候选语句并且选择最有可能产生观测或声学事件输入序列的语句或词序列。通常,多数现代语音识别系统使用基于连续密度隐藏马尔可夫模型(CDHMM)的声学模型。多数现有技术的基于HMM的语音识别系统使用附图说明图1所示的层次结构模拟不同层次的事件。根据语音在足够短的时间段内(5到100毫秒之间)在统计上处于稳定状态这一事实,各个窗口的声学层次输入话音被编码成特征向量。在语音层次上,通过隐藏马尔可夫模型(HMM)模拟与相同语音单元(例如音素)相关的声学特征分段。在词层次上,通过根据每个词在字典中的发音连接语音HMM来构成每个词的词格(lattice)。在语句层次上,最终动态建立一个具有词结点的搜索网络并且根据当前活跃路径和N元语言模型精减搜索网络。根据这种自底向上结构,有关声音、语音、词和语法的知识可以被装到识别系统中以便改进性能。汉语语音识别系统基本上也是基于上述自底向上结构,就象英语和其它语言的自底向上结构那样。为了达到较高的识别准确度和系统性能,在设计汉语连续语音识别系统时必须考虑到并且利用汉语口语的某些特征(例如普通话,广东话等等)。汉语是带声调的音节语言。每个音节被指定四或五个声调中的一个。例如,普通话汉语中每个音节可以被指定以下四或五个声调中的一个阴平声(这里称作一声),阳平声(这里称作二声),上声(这里称作三声),去声(这里称作四声)和中性声或轻声(这里称作五声)。某些音节没有五声。在汉语中声调对于区分含义而言有重要的作用。具有相同语音结构但具有不同声调的音节通常表达不同的意思。因而声调是汉语语音识别的基本要素。几十年来声调识别已经成为汉语语音识别的焦点问题。一个普遍使用的方法是分别识别基音节(声母和韵母)和声调。通过传统的基于HMM的方法识别基音节,例如用于英语的方法。通过使用鉴别规则区分音节的音调轮廓(pitch contour)可以识别音节的声调。带声调音节的识别综合了基音节的识别和声调的识别。如果用于孤立音节语音识别,这种方法因各种原因而不适用于汉语连续语音识别任务。首先,在连续语音识别中,音节的边界是不清晰的。在整个识别过程结束时才确定边界。在声音识别的早期阶段提供音节边界信息是非常困难的。其次,具有五声中的一个声调的音节的实际声调轮廓取决于语音环境。能够根据音调轮廓确定声调的规则将会非常复杂。近年来,人们为把声调集成到汉语连续语音识别系统中付出了各种努力。通过将音调看作一个与倒谱(ceptra)或能量相同的声学参数,这些系统对性能进行了改进。然而这些系统没有集成如系统综述所述的语音识别其它层次的声调知识。换言之,语音识别过程的其它层次的声调知识尚未被考虑到。附图的简要描述以下参照附图可以更全面地理解本专利技术的特征和优点,其中图1是示出语音识别中使用的自底向上层次结构的图例;图2是关于基于本专利技术的语音识别系统的一个实施例的模块图;图3示出了在平滑处理之前测量的音调轮廓的一个例子;图4示出了在平滑处理之后测量的音调轮廓的一个例子;图5是图解基于HMM的语音模型的图例; 图6示出了基于本专利技术的方法的一个实施例的流程图;图7示出了基于本专利技术的方法的一个实施例的流程图。具体实施例方式在下面的详细描述中,为了能够透彻理解本专利技术,对许多具体细节进行了描述。然而本领域技术人员可以理解,即使没有这些具体细节也能够理解和实现本专利技术。在下面的讨论中,根据本专利技术实现一个按照自底向上结构向汉语连续语音识别系统提供声调集成的方法、装置、系统和机器可读介质。根据本专利技术,在自底向上识别结构中在各个层次上模拟声调知识及其影响。在声学层次上,音调被看作是一个连续声学变量。在一个实施例中,为了使从一个帧中得到的音调估测易于被高斯混合分布所模拟,两个有声部分被一个指数衰减函数连接并且加上一个随机噪声,而频域滤波器被提供给其余的闪光点(spark point)。在基于本专利技术一个实施例的典型实验中,把音调特征集成到特征帧中使词差错率(WER)从9.9%降低到8.5%。在语音层次上,一个具有不同声调的主元音被看作是不同的音素。某些轻声音素也被加到语音集中。在三音建立阶段,针对各个判决树结点评估一组涉及声调的问题。在根据本专利技术所进行的实验中,语音层次的声调集成使词差错率从8.5%降到7.8%。在词层次上,使用一组声调变化规则建立训练数据的副本和解码的词格。词层次上的声调集成也降低了识别过程中的词差错率(在根据本专利技术的实验中又降低了0.4%)。在语句层次上,某些具有轻声的语句结束词也被加到系统词汇表中。在一个实施例中,一个表示带声调音节语言(例如普通话汉语)中一个输入话音的输入信号被转换成一组特征向量。输入话音包含一或多个词并且每个词包含一或多个音素。每个特征向量代表一帧输入话音并且包含一个含有对应帧的音调信息的音调特征。根据特征向量和一组语音统计模型确定输入话音中包含的音素。每个语音模型代表一组带声调音素中的一个不同音素。具有相同的语音结构但不同的声调的音素被认为是不同的音素并且被表示成不同的统计模型。接着根据识别的音素,一组词统计模型和一组声调变化规则确定输入话音中包含的词。在一个实施例中,每个语音统计模型均被表示成一个对应的隐藏马尔可夫模型(HMM)。在一个实施例中,对应的HMM是一个使用高斯混合分布表示与对应HMM中各个状态相关的观测概率函数的连续密度HMM。在一个实施例中,通过根据其在字典中的读音连接对应的语音HMM来构成每个词的词统计模型。在一个实施例中,使用平均值微分函数(AMDF)从输入信号中取出音调参数。在一个实施例中,音调特征包含所取出的音调数值,Mel频率倒谱系数(Mel-frequency CepstralCoefficients MFCC),取出的音调参数的第一和第二导数。在一个实施例中,按照以下方式平滑输入信号的音调轮廓(1)计算输入信号中所有合法点的音调数值的分组平均(running average)值;(2)输入信号的开始处的音调数值被定义成分组平均值加一个随机噪声;(3)从有声部分到无声部分的切换处的音调数值被定义成关于分组平均值的指数衰减函数加随机噪声。在一个实施例中,输入信号通过一个频域低通滤波器以清除输入信号中的尖刺。本专利技术适用于任何汉语语音识别方案、方法和系统。然而本专利技术并不仅限于汉语语音识别,也可以应用于其它带声调音节语言的语音识别方法、方案和系统。虽然这里对本专利技术的讨论以普通话汉语作为示例性带声调音节语言描述和解释了本专利技术的技术,但本领域技术人员应当理解,本专利技术的技术也适用于诸如广东话的其它汉语带声调音节语言和其它非汉语带声调音节语言。如上所述,普通话汉语是带声调音节语言。普通话中有将近400个基音节(无声调)。多数基音节可以和四个或五个声调相关联。因此,普通话汉语中有将近1400个带声调音节。根据下面本文档来自技高网...

【技术保护点】
一种方法,包括: 将一个表示带声调音节语言输入话音的输入信号转换成一组特征向量,该输入话音包括一或多个词,每个词包括一或多个音素,每个特征向量代表一帧输入话音并且包含一个含有对应帧的音调信息的音调特征; 根据特征向量和一组语音统计模型确定输入话音中包含的音素,其中每个语音统计模型均代表一组带声调音素中的一个不同音素,具有相同的语音结构但不同的声调的音素被确定为不同的音素;并且 根据确定出的音素,一组词统计模型和一组声调变化规则确定输入话音中包含的词。

【技术特征摘要】

【专利技术属性】
技术研发人员:贾颖颜永红苑宝生
申请(专利权)人:英特尔公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1