采用多个文法网络的语音识别系统技术方案

技术编号:2887143 阅读:232 留言:0更新日期:2012-04-11 18:40
用多个文法网络分节输入语音,其中包含具有设计成表示噪音或外加语音的填充物模型的网络。识别处理得出多个候选字表,各表包含生成的N最佳候选字,然后将表分开与有效姓名的词典对准以生成两张有效姓名表。最后的识别遍将这两张姓名表组合进动态文法中,并可用这一动态文法采用Viterbi识别找出最佳候选姓名。根据本识别系统的电话呼叫路由选择应用,无论用户在拼读之前是否说出姓名,都能选择对应于用户所拼读的姓名的最佳候选姓名。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般涉及计算机实现的语音识别。更具体地,本专利技术涉及采用多个文法网络处理语音数据的方法及装置。采用多个网络得出语音数据的不同分节,以便从无用的语音中抽取有用的语音。虽然本专利技术有许多用处,这里所描述的为适用于电话呼叫路由选择应用的类型的拼读姓名识别系统。在示出的实施例中,利用第一与第二文法网络来独立检测N最佳与M最佳字母序列。一种文法网络是配置在用户将响应系统提示立即开始拼读的假设之上的。第二种文法网络是配置在拼读的姓名字母序列是以系统不能识别的外来噪音或发音开始的假设之上的。将N最佳与M最佳字母序列分开提交给相对于有效姓名的词典的动态编程匹配,以抽取对应于各N最佳与M最佳字母序列的N最佳与M最佳姓名假设。然后通过从这些姓名假设集合中选择最佳候选姓名而作出识别决定。当前的语音识别技术包含声音数据中的模式识别及这些模式与系统所识别的预定词典项集合的关联。语音识别问题是极具挑战性的,因为存在着如此之多的不同差异。通常,语音识别器以数字格式将进入的声音数据作用在数学识别进程上,后者根据预定的模型将数字数据转换成参数。传统上,模型是早先已用充分大的训练集合训练过的,从而极大地降低了单个说话者的差异。基于模型的识别进程将进入的数据分节成诸如音素等基础分量,然后通过与训练模型比较加上标记。在一种形式的识别器中,一旦在单个音素上加上了标记,便将该音素数据与系统词典中预存储的字比较。这一比较是通过对准进程执行的,由于不准确的音素识别以及在给定的序列中插入与删除音素而对准进程会提供不精确的匹配。这一系统是在概率基础上工作的。传统上,语音识别器将从上分节、加标记与对准进程中得出的候选字中选择最可能的字。由于它们的最基本的本质,当前的语音识别器从预定的词典中选择候选字,从而它们只识别预定的字的集合,这产生问题,特别是在根据语音识别结果作出进一步决定的系统中。在词典中找不到的外来噪音或字的发音通常被错误地解释成在词典中能找到的字。基于这种错误识别的后续决定能导致有故障的系统性能。为了说明这一问题,考虑拼读姓名的电话呼叫路由选择应用。用合成的话音提示来指示用户拼读应将呼叫的路由确定到他的人的姓名。如果用户遵照这些指令,语音识别器识别所发出的各字母然后便能通过将字母序列与词典对准而查找拼读出的姓名。然后系统利用在词典中找到的路由信息将呼叫的路由确定到适当的分机上。然而,如果用户首先发出外加的信息,诸如在拼读之前读出该人的姓名,识别进程高度有可能失败。这是因为识别系统期望只接收一序列发音的字母而将试图作为一个或多个字母来“识别”讲出的姓名。传统的系统简单地未装设正确地分节进入的声音数据,因为系统建立在其上面的基础模型假设数据为对系统有用或有意义的全部等价单元(说出的字母)这一先验事实。本专利技术解决上述问题的方法是通过采用与综合多个文法网络来生成多组识别候选字,某些基于假设存在外加语音的模型而某些则基于不存在外加语音的模型的语音识别系统。利用两种模型的结果来作出最终识别决定,依赖各自的匹配概率值来选择最可能的候选字。按照本专利技术的一个方面,使用不同的第一与第二文法网络分开处理语音数据得出语音数据的不同分节。以这一方法,系统从无用的语音中抽取有用的语音。对于各文法网络,生成多个识别候选字。转佳实施例用第一文法网络生成N最佳候选字并用第二文法网络生成M最佳候选字,其中N与M为大于1的整数并可相等。第一与第二多个识别候选字(N最佳、M最佳)是根据至少一组关于有用的语音的先验制约变换的。变换可包括,诸如,将候选字与系统所识别的拼读姓名的词典匹配。然后根据经过变换的识别候选字作出识别决定。如下面将更全面地说明的,本专利技术将语音数据分裂成各不相同地处理的两条或更多路径。一条路径是采用根据只提供有用的发音(如字母)的假设的第一文法网络处理的。另一条路径是用假定在有用语音之前存在外加的无用语音的不同文法网络处理的。从而不同的文法网络得出不同的数据分节。各路径所生成的识别候选字可根据各候选字与各自的模型的匹配程度分别评分。不是为了选择带最高分的单一候选字而要求两条路径在这一阶段上进行竞争,而是将两组识别候选字保持分开。在这一阶段,识别候选字表示N最佳及M最佳字母序列假设。为了选择哪一种假设为最佳候选字,分开将两组与系统所识别的所有姓名的词典匹配。词典实际上是关于对系统有用的语音的先验制约。从而一些字母序列假设可被评定为较少可能性,因为这些字母序列并不很好地与存储在词典中的字母序列匹配。当前的较佳实施例利用N最佳与M最佳字母序列从词典中选择N最佳与M最佳姓名。从而将来自两条路径的贡献都包含进作出决定过程中。最后,可组合N最佳与M最佳姓名组以构成应用输入发音的缩小的词典候选字集合。这一缩小了大小的词典可用来建立从N最佳与M最佳姓名候选字构成的动态文法。这一动态文法取决于输入发音是否包含外加语音而倾向于对一组或另一组候选字有利。如果存在外加话音,设计成识别与排斥外加话音的文法网络将倾向于产生更好的识别结果,而在从N最佳与M最佳姓名候选字中构成的动态文法中将这些结果反映为更好的候选字。反之,如果不存在外加话音,另一文法网络将产生更好的识别结果,在动态文法中将其更好地反映为较好的候选字。一旦构成了动态文法,便可用根据动态文法来抽取单个最可能的候选姓名作为识别出的姓名的识别器来处理输入语音数据。然后用识别出的姓名来访问适当的数据库以适当地选择电话呼叫的路由。为了更完整地理解本专利技术、其目的与优点,可参见以下说明书及附图。附图说明图1为采用本专利技术的呼叫路由选择装置的示范性系统的方框图;图2为本专利技术的呼叫路由选择装置的示范性实施例的方框图;图3为建立在拼读的姓名字母序列以有效字母开始的假设上的文法网络G1的状态图4为建立在拼读的姓名字母序列以系统不能识别的外来噪音或发音开始的假设上的文法网络G2的状态图;图5为本专利技术的当前较佳识别系统的详细方框图;图6为示出不同类型的识别错误的图;图7为示出优化PLP-RASTA滤波器系数来降低替代、删除与插入错误的曲线;图8为示出改进的网络结构N最佳技术的图;图9为进一步描述如何在识别的回溯阶段中执行假设生成的图。下面在提示用户通过口头拼读姓名到系统中来提供呼叫路由选择信息的呼叫路由选择装置的上下文中来示出与描述本专利技术的原理。因此,为了帮助理解本语音识别系统,首先提供在其中采用本语音识别系统的呼叫路由选择装置的简要描述。然而应记住,本专利技术的语音识别系统不限于呼叫路由选择装置。而是本识别系统可在必须从无用的外来噪音或话音中抽取有用的话音的广范围的不同应用中找到用处。系统概述及基本操作采用连续语音识别的呼叫路由选择装置示出在适合于插接与播放连接到现有专用小交换机(PBX)开关上或用于在制造时加进PBX设备中的示范性实施例中。参见图1,PBX开关210用诸如电话线214等传统装置连接在电话网基本结构212上。在所示的实施例中为了方便起见示出了三条线路。这不是为了限制本专利技术,由于本专利技术能应用在具有更多或更少电话线的系统中。PBX开关具有传统的设计,能将来自网络212的进入呼叫的路由确定到诸如手机216等任何选择的电话装置上。如连接手机216那样将本专利技术的拼读姓名识别呼叫路由器218连接在PBX开关210上的附加分机或端口本文档来自技高网...

【技术保护点】
一种处理用于字识别的语音数据的方法,包括根据第一文法模型用识别器处理所述语音数据以抽取第一多个识别候选字;根据与所述第一文件模型不同的第二文法模型用识别器处理所述语音数据以抽取第二多个识别候选字;将所述第一多个识别候选字与预定的 字的词典对准以生成第一候选字表;将所述第二多个识别候选字与预定的字的所述词典对准以生成第二候选字表;从所述第一与第二候选字表建立动态文法模型;以及根据所述动态文法模型用识别器处理所述语音数据以抽取识别的字。

【技术特征摘要】

【专利技术属性】
技术研发人员:迈克尔盖勒让克劳德琼奎
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利