基于网络的语音识别方法技术

技术编号:3047237 阅读:182 留言:0更新日期:2012-04-11 18:40
一种在网络环境下基于字符的语音识别系统有通过网络相连接的远程客户机和中央服务器。远程客户机将输入语音与许多表示特定字符的语音模型进行比较,以提供输入语音所包含特定字符的许多不同可能性。然后,客户机生成一个字符序列,根据基于字符的语言模型,这个字符序列表示了输入语音中所包含已知特定字符的特定序列的不同可能性。然后字符序列通过网络被传输到中央服务器,在这,自所传输的字符序列生成一个词汇序列,根据词汇表和基于词汇的语言模型,这个词汇序列表示了输入语音中所包含已知特定字符的特定序列的不同可能性。然后,中央服务器根据词汇表确定哪个特定词汇序列与输入语音最匹配,并将所确定词汇序列经由网络输送回客户机。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种,尤其涉及,但并不限于用于音调语言(如汉语普通话)中的识别语音方法。
技术介绍
在网络环境下的语音识别,通常在客户一服务器的环境下利用语音识别的应用程序,在这种环境下,每个用户利用他们的个人通信设备(如蜂窝电话或个人资源组织器)的语音接口远程地从网络服务器获取如股票和天气等信息。众所周知,由于汉字(或其他带有音调的语言)的非字母特性,要将其输入到计算机或手持式设备中存在一个固有难题。通常,一个汉语句子包括一个字符序列。一个汉语词汇可能包括一至几个字符。汉语句子可以被分段成不同语义正确的词语序列,要识别一个词汇是很难的。换句话说,在书写的汉语句子中是没有明显的界限的。在汉语中,基本词汇单元是字而不是词。传统的基于网络的语音识别完全是在服务器端执行的,客户机仅仅是用做记录和传输语音信号的转换器。通常,这是因客户机存储量和计算能力所限的需要。然而,这就存在着与这一方式相关的许多问题。第一,可能出现为传输而编码语音信号造成的量化错误。第二,可能存在着因传输通道导致的失真。第三,可能出现由不同的以及无法预测的各种编解码器产生的严重失真,尤其在无线通信模型中。最后,在服务器端,因其要为所有用户执行所有的操作,所以需要很高的计算能力。
技术实现思路
因此,本专利技术寻求提供能够克服或至少减少在先有技术中所存在的上述问题的一种和设备。一方面,本专利技术提供了一种在具有通过网络联系的远程客户机和中央服务器网络环境下,基于字符的语音识别方法,本方法包括在客户机端接收经由话筒的输入语音;在客户机中比较输入语音和在客户机中所存储的表示特定字符的多个预定语音模型,来提供输入语音所包含特定字符的多种可能性;根据存储于客户机中的基于字符的语言模型,在客户机中产生一代表输入语音所包含的特定字符的特定序列可能性的字符栅格(lattice);根据存储于中央服务器中的一个词汇表和一个基于词汇的语言模型,通过网络将字符栅格传输到中央服务器;在中央服务器中由所传输字符栅格产生一个词汇栅格,该词汇栅格表示该输入语音所包含的特定词汇的特定序列的可能性;在中央服务器中,由该词汇栅格确定哪个特定的词汇序列与输入语音匹配;并通过网络将所确定的特定词汇序列传输到客户机。另一方面,本专利技术还提供了一种产生一用于基于字符语言的字符栅格(lattice)的方法,该字符栅格表示一个输入语音所包含的特定词汇的特定序列的可能性,所述方法包括如下步骤接收在基于字符的语言模型中的输入语音;从输入语音中提取发音特征;将提取的发音特征与事先存储的表示特定字符的发音模型相匹配,以确定输入语音中所包含的已知特定字符的多个字符可能性;将随后的可能字符与基于字符的语言模型相比较,以确定跟随先前已知特定字符的可能字符一致性的步骤可能性;以及将用于可能序列或特定字符的字符可能性与步骤可能性,来生成特定字符序列可能性,以提供字符栅格。附图说明参照附图,通过举例的方法,进一步详述本专利技术的一实施例,附图中,图1图示了根据本专利技术一实施例的基于网络的语音识别系统的框图;图2图示了在图1所示系统中所用的一个简单字符栅格的示意图;图3更详细地图示了在图1所示系统中采用的语音匹配机;图4图示了在图1所示系统中采用的一字符栅格向词汇栅格转换操作的流程图; 图5图示了在图4中更新字符序列表步骤的操作流程图;图6图示了在图4中检查字符序列表步骤的操作流程图;及图7图示了在图4中删除字符序列表步骤的运行流程图。具体实施例方式因此,如图1所示,一个简化的基于网络的语音识别系统1,包括一个客户机2、一个服务器3和一个处于两设备2和3之间的网络连接4。客户机2包括一个用于接收从输入终端6来的输入语音的声音匹配器5。声音匹配器5是利用从数据库7获得的声音模型、字符库和语言模型将输入语音转换为字符栅格的标准语音识别器。声音匹配器5产生的字符栅格8经由网络4被传输到服务器3以待进一步处理。字符栅格8是单向图,每个节点是一用于连接弧段的时间标志,且每个弧段代表一个其开始和结束时间分别由开始和结束节点确定的可能字符路径。每个弧段与一个用于其所表示字符的声音计分相联系。除了每个弧段代表一个字符而不是一个词汇外,一个字符栅格与常用的词汇栅格是一样的。这个字符栅格代表一组假设由声音匹配器产生的可能的字符与词汇序列。图2图示了由声音匹配器5产生的对于一输入语音的简单字符栅格的例子。图示的栅格20有四个节点和五段弧线。每个栅格的节点都包含有一个时间标志,该时间标志指示进入该节点的所有弧段的终止时间和出自该节点的所有弧段的起始时间。采用两类特殊节点来标注序列的起点与终点。用带有时间标志0的开始节点来标注栅格的起点。用带有时间标志T的尾节点,即输入语音的终止时间,来标注栅格的终点。在开始节点没有入弧而尾节点没有出弧。每一弧段都有与之相联系的一个字符,如“字符1”,和该字符的计分(score),如“计分1”。一段弧段连同其开始节点、尾节点一起表示了声音匹配器为在尾节点确定的时段之间输入的语音信号片断而产生的字符。从开始节点至尾节点越过栅格可以得到一字符序列。通常,采用栅格的不同路径可以得到不止一个的字符序列。每个这样的字符序列都代表了一个语音识别系统结果的假设。服务器3根据识别任务所涉及的特定知识领域选择最佳的字符序列。返回到图1,服务器3包括了一个具有动态领域词库和语言模型的数据库9,与在客户机2中的数据库7中所存储的相似,但其更详细和广泛。这些模型包括针对一确定任务的词汇在手边,例如对于股市查询应用的股票名称,但由于服务器3的存储能力比单个客户机2的要高得多,所以,在这可以采用更为详细的语言模型。服务器3还包括一个自动语言识别(ASR)服务器10,其由两个次级组件构成。第一个次级组件是一将字符栅格转换为词汇栅格的转换器11,用它来接收从网络4来的字符栅格8,分析字符栅格,并根据来自数据库9的该领域词库移去不会形成输出识别结果部分的路径。第二个次级组件是一标准Nbest解码器12,它是利用来自数据库9的语言模型解码从字符栅格到词汇栅格转换器11的词汇栅格以产生识别结果。在由XavierAubert和Hermann Ney所著的“Large Vocabulary Continuous SpeechRecognition Using Word Graphs”论文中可以找到一种译码词汇序列的典型方法,这篇论文发表在《电气和电子工程师学会学报》国际发声、语音与信息处理论坛,1995年第一期第49-52页上(PreceedingsIEEE,International Conference in Acoustics,Speech and SignalProcessing,Vol.1,pp49-52,1995)。应用数据库13为自动语言识别(ASR)服务器10提供应用。最终的识别结果经由网络4返回到客户机2,在那,一个客户应用程序处理器14接收来自服务器3的最终识别结果并根据客户机2的需要进行操作,如将数据显示给用户。图3更详尽地图示了客户机2的声音匹配器5。一来自输入6的输入语音首先被提供给特征生成器301,特征生成器301将语音信号转换为一系列的特征向量,在本领域内称为mel-frequency cepstralcoeffic本文档来自技高网...

【技术保护点】
一种在具有通过网络连接的一个远程客户机和一个中央服务器的网络环境下的基于字符的语音识别方法,所述方法包括以下步骤:在客户机端,接收来自话筒的输入语音;在客户机端,将输入语音与许多存储在客户机中的表示特定字符的预定语音模型进行比较,以 提供输入语音包含特定字符的多种可能性;在客户机端,根据存储在客户机中的基于字符的语言模型,生成表示输入语音包含特定字符的特定序列的多种可能性的字符栅格;通过网络将字符栅格传输到中央服务器;在中央服务器中,根据存储于中央服务器的一 个词汇表和一个基于词汇的语言模型,由所输入的字符栅格生成一个词汇栅格,所述词汇栅格表示输入语音包含特定词汇的特定序列的可能性;在中央服务器中,通过词汇栅格确定哪一个特定词汇序列可能与输入语音最匹配;及通过网络将所确定的特定词汇序列传 输到客户机。

【技术特征摘要】
US 2000-10-18 09/691,7041.一种在具有通过网络连接的一个远程客户机和一个中央服务器的网络环境下的基于字符的语音识别方法,所述方法包括以下步骤在客户机端,接收来自话筒的输入语音;在客户机端,将输入语音与许多存储在客户机中的表示特定字符的预定语音模型进行比较,以提供输入语音包含特定字符的多种可能性;在客户机端,根据存储在客户机中的基于字符的语言模型,生成表示输入语音包含特定字符的特定序列的多种可能性的字符栅格;通过网络将字符栅格传输到中央服务器;在中央服务器中,根据存储于中央服务器的一个词汇表和一个基于词汇的语言模型,由所输入的字符栅格生成一个词汇栅格,所述词汇栅格表示输入语音包含特定词汇的特定序列的可能性;在中央服务器中,通过词汇栅格确定哪一个特定词汇序列可能与输入语音最匹配;及通过网络将所确定的特定词汇序列传输到客户机。2.如权利要求1所述的一种在网络环境下基于字符的语音识别方法,其中生成字符栅格的步骤包括如下步骤在基于字符的语言系统中接收输入语音;从输入语音中析取发声特征;将该析取的发声特征与事先存储的表示已知特定字符的发声模型进行匹配,以确定输入语音包含已知特定字符的多个字符可能性;比较随后而来的字符与基于字符的语言模型的一致性,以确定跟随在先前已知特定字符后的可能字符一致性的步骤可能性;以及...

【专利技术属性】
技术研发人员:李恒舜
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1