语音识别方法及语境模型分级结构生成方法技术

技术编号:3046634 阅读:303 留言:0更新日期:2012-04-11 18:40
在这里所披露的本发明专利技术涉及一种采用语境模型的分级结构来将语音转换成文本的方法。可以将该语境模型分级结构统计平滑成语言模型。该方法可以包括用多个语境模型来处理文本。多个语境模型中的每一个可以与所述多个语境模型的分级结构中的节点对应。本发明专利技术的方法还可包括识别出与该文本相关的至少一个语境模型并且用所识别出的至少一个语境模型来处理随后的用户话语。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及语音识别以及基于对话的系统的领域,更具体地说涉及利用语言模型将语音转化为文本。
技术介绍
语音识别是利用计算机将由麦克风接收到的声信号转换成一组文本文字、数字或符号的过程。然后可以将这些识别出来的文字用在各种计算机软件应用程序中,以便进行例如文档准备、数据录入、以及提示与控制等。语音识别技术的发展为提高用户工作效率提供了一种重要的途径。语音识别系统可以对声信号进行建模和分类以形成声音模型,这些模型是被称为音素的基本语言单元的表达。一旦接收到该声信号,该语音识别系统分析这些语音信号,在该声信号内识别出一系列语音模型,并且对于给定系列的声音模型得出可能的候选单词列表。随后,语音识别系统可以利用语言模型作为指导对这些可能的候选单词进行上下文分析。具体地说,语言模型可以表示对将单词组合以形成句子所采用的方式的限制。语言模型通常是一种统计模型,该模型能够表示一个单词紧挨着另一个单词或词组出现的可能性。语言模型可以被规定为一个有限状态网络,其中明确地列出了在每个单词后面允许跟随的单词,或是可采用一种对上下文敏感的语法以更加复杂的方式来实现。其它示例性的语言模型可以包括但不限于n-字母组(n-gram)模型和最大熵语言模型,这些模型在本领域都是已知的。语言模型的一个通常示例是n-字母组模型。具体地说,双字母组(bigram)和三字母组(trigram)模型都是在本领域内通常所采用的n-字母组模型的例子。传统的语言模型可以通过对文本的训练语料库进行分析而得出。训练语料库包含有反映了人类说话的一般方式的文本。可以对该训练语料库进行处理以确定由用来将语音转变成文本(也被称为语音译码)的语音识别系统所使用的统计语言模型。应该理解的是,这些方法在本领域是公知的。例如,关于对语言模型和构建语言模型的方法的更全面说明,可以参见Frederick Jelinek(MIT Press 1997年出版)的《语音识别中的统计学方法(Statistical Methods for SpeechRecognition)》。当前在本领域中,语音识别系统可以使用语言模型的组合来将用户话语(spoken utterance)转换成文本。每个语言模型可以用来确定最后所得到的文本串。可以在统计学上对由每个语言模型所得到的文本串进行加权来确定一个最精确或最有可能的结果。例如,语音识别系统可以结合包含在该系统内的一般或普通语言模型以及从由用户口授的最初几个口述会话(dectation session)或文档中得出的用户专用语言模型。随着用户口授新的文档或开始新的口述会话,一些语音识别系统可以不断增强现有的语言模型。因此,在许多传统语音识别系统中,其语言模型是能够持续地更新的。遗憾的是,随着语言模型在不断地扩充,主题特定的用户口述的重要性将会降低。尤其是,随着语言模型中的数据量的不断增长,新添加的语音会话的作用会降低。同样,新近的用户会话越多,不管是不是主题特定的,也会在不断增大的语言模型中降低其重要性。这种情况主要针对统计语言模型出现,其中,由于持续扩展的数据集来,可以用来增强该语言模型的一个特定会话或文档的统计重要性降低。这种统计效果在该用户的语言模式随着用户更加熟悉并且习惯与语音识别或基于对话的系统交互作用而变化的情况下是显著的。值得注意的是,由单个会话或文档得到的对语言模型的增强将不容易改变基于语音统计的系统的特性所述单个会话或文档只能产生有限的数据,尤其考虑到与语音模型相对应的整个数据集而言。因此,该语言模型将不能精确反映用户变化的口述风格。同样的问题会存在于基于对话的系统如用于用户能够口头响应一个或多个系统提示的自然语言理解系统环境中。尽管这些系统可以包含一个或多个用以处理用户响应的语言模型,但是可以采用不充分的数据来建立适应于特定提示的语言模型。结果是这种语言模型变得太特殊化以至于不能精确处理接收到的语音。具体地说,这种语言模型缺乏从语言模型中进行提炼以处理更一般的用户响应的能力。
技术实现思路
在这里所披露的专利技术涉及一种构造出分级语境模型并且利用那些语境模型来将语音转变成文本的方法。本专利技术的方法可以用在语音识别系统和基于对话的自然语言理解系统中。具体地说,本专利技术可以根据不同的用户语音会话、文档、文档的一部分或者用户话语形式的用户响应等构造出多个的语境模型。可以采用已知的距离尺度来以自下而上的方式将这些语境模型组织为或归类为成相关的对。可以将这些相关的语言模型对连续地合并在一起直到构建出一种树状结构。语境模型的树状结构或者语境模型的分级结构可以从单个根节点向外扩展。可以采用本领域已知的技术例如删除插值法(deletedinterpolation)或回退法(back-off approach)利用所提供的(held-out)文本语料库来对语境模型的分级结构进行插值(interpolate)。要注意的是,本专利技术不受这里提到的特定平滑技术的限制。可以采用本领域已知的其它适当的平滑技术。在确定出语境模型的分级结构并且将它平滑之后,可以采用所得到的语境模型的分级结构来对所接收到的用户话语进行处理。可以在该语境模型的分级结构内确定出一个或多个语境模型与一个或多个所接收到的用户话语相对应。可以将所确定的语境模型用来处理随后接收到的用户话语。本专利技术的一个方面在于一种利用语境模型的分级结构来语音转换成为文本的方法。这种语境模型的分级结构可以在统计学上被平滑成一个语言模型。该方法可以包括(a)利用多个语境模型来处理文本,其中多个语境模型中的每一个可以与多个语境模型的分级结构中的节点相对应。可以采用串行或并行的方式来进行对文本的处理。该方法还包括(b)确定出与所接收的文本相关的至少一个语境模型;并且(c)用所确定出的至少一个语境模型来处理随后的用户话语。这一系列语境模型中至少有一个可以对应于一篇文档或文档的一部分或一小节,至少一个由基于对话的系统在特定会话状态下接收到的响应,或者至少一个基于对话的系统在特定事务中在特定位置时接收到的用户响应。还有,这一系列语境模型中至少有一个可以对应于基于对话的系统的某条提示的语法,基于对话的系统的特定的已知提示,或者是一条接收到的电子邮件消息。本专利技术的另一个实施方案涉及一种构建语境模型的分级结构的方法。在该情况下,该方法包括(a)利用距离尺度来测量多个语境模型中的每一个之间的距离。要注意的是,多个语境模型中的至少有一个可以对应于文档的一部分或者基于对话的系统内的用户响应。该方法还包括(b)确定出多个语境模型中的在距离上比多个语境模型中的其它模型更近的两个。还可以包括(c)将所确定出的语境模型合并成一个母语境模型。合并步骤(c)还包括在所确定的两个语境模型之间进行插值(interpolating),其中插值会导致所确定的语境模型的组合。或者,合并步骤(c)可以包括利用与所确定的语境模型相关的数据构建一个母语境模型。该方法还可以包括步骤(d),其中可以重复进行步骤(a)、(b)和(c)直到能够构造出多个语境模型的分级结构。在那个情况中,该分级结构可以包含一个根节点。还有,可以对所述多个语境模型的分级结构进行统计平滑,从而形成一个语言模型。可以采用本领域已知的技术例如删除插值法、回退法或另一种合适的平滑技术利用本文档来自技高网
...

【技术保护点】
一种利用语境模型分级结构来将语音转换成文本的方法,其中所述语境模型分级结构被统计平滑成语言模型,所述方法包括:    (a)用多个语境模型来处理文本,其中所述多个语境模型中的每一个对应于所述多个语境模型的分级结构中的节点;    (b)识别出与所述文本相对应的至少一个所述语境模型;并且    (c)用所述识别出的至少一个语境模型来处理随后的用户话语。

【技术特征摘要】
US 2001-3-1 09/798,6551.一种利用语境模型分级结构来将语音转换成文本的方法,其中所述语境模型分级结构被统计平滑成语言模型,所述方法包括(a)用多个语境模型来处理文本,其中所述多个语境模型中的每一个对应于所述多个语境模型的分级结构中的节点;(b)识别出与所述文本相对应的至少一个所述语境模型;并且(c)用所述识别出的至少一个语境模型来处理随后的用户话语。2.如权利要求1所述的方法,其中所述步骤(a)串行或并行进行。3.如权利要求1或2所述的方法,其中所述多个语境模型中的至少一个与以下中的一个或多个对应(i)一份文档或文档的一部分;(ii)在基于对话的系统中在特定对话状态下接收到的至少一个用户响应;(iii)在基于对话的系统中在特定业务内的特定位置接收到的至少一个用户响应;(iv)基于对话的系统中的提示的语法;(v)特定的已知的基于对话系统的提示;或者(vi)所接收的电子邮件消息。4.一种生成语境模型分级结构的方法,所述方法包括(a)利用距离尺度测量多个语境模型中的每一个之间的距离,其中所述多个语境模型中的至少一个对应于基于对话的系统内的文档的一部分或用户响应;(b)识别出所述多个语境模型中的两个,所述被识别出的语境模型在距离上比所述多个语境模型中的其它语境模型更加接近;(c)将所述被识别出的语境模型合并成一母语境模型;(d)重复所述步骤(a)、(b)和(c)直到生成所述多个语境模型的分级结构,所述分级结构具有一根节点;并且(e)对所述多个语境模型的所述分级结构进行统计平滑,从而产生一语言模型。5.如权利要求4所述的...

【专利技术属性】
技术研发人员:马克E爱普斯坦
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1