采用多个文法网络的语音识别系统技术方案

技术编号：2887143 阅读：232 留言：0更新日期：2012-04-11 18:40

用多个文法网络分节输入语音，其中包含具有设计成表示噪音或外加语音的填充物模型的网络。识别处理得出多个候选字表，各表包含生成的Ｎ最佳候选字，然后将表分开与有效姓名的词典对准以生成两张有效姓名表。最后的识别遍将这两张姓名表组合进动态文法中，并可用这一动态文法采用Ｖｉｔｅｒｂｉ识别找出最佳候选姓名。根据本识别系统的电话呼叫路由选择应用，无论用户在拼读之前是否说出姓名，都能选择对应于用户所拼读的姓名的最佳候选姓名。（*该技术在2018年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术一般涉及计算机实现的语音识别。更具体地，本专利技术涉及采用多个文法网络处理语音数据的方法及装置。采用多个网络得出语音数据的不同分节，以便从无用的语音中抽取有用的语音。虽然本专利技术有许多用处，这里所描述的为适用于电话呼叫路由选择应用的类型的拼读姓名识别系统。在示出的实施例中，利用第一与第二文法网络来独立检测N最佳与M最佳字母序列。一种文法网络是配置在用户将响应系统提示立即开始拼读的假设之上的。第二种文法网络是配置在拼读的姓名字母序列是以系统不能识别的外来噪音或发音开始的假设之上的。将N最佳与M最佳字母序列分开提交给相对于有效姓名的词典的动态编程匹配，以抽取对应于各N最佳与M最佳字母序列的N最佳与M最佳姓名假设。然后通过从这些姓名假设集合中选择最佳候选姓名而作出识别决定。当前的语音识别技术包含声音数据中的模式识别及这些模式与系统所识别的预定词典项集合的关联。语音识别问题是极具挑战性的，因为存在着如此之多的不同差异。通常，语音识别器以数字格式将进入的声音数据作用在数学识别进程上，后者根据预定的模型将数字数据转换成参数。传统上，模型是早先已用充分大的训练集合训练过的，从而极大地降低了单个说话者的差异。基于模型的识别进程将进入的数据分节成诸如音素等基础分量，然后通过与训练模型比较加上标记。在一种形式的识别器中，一旦在单个音素上加上了标记，便将该音素数据与系统词典中预存储的字比较。这一比较是通过对准进程执行的，由于不准确的音素识别以及在给定的序列中插入与删除音素而对准进程会提供不精确的匹配。这一系统是在概率基础上工作的。传统上，语音识别器将从上分节、...

【技术保护点】
一种处理用于字识别的语音数据的方法，包括根据第一文法模型用识别器处理所述语音数据以抽取第一多个识别候选字；根据与所述第一文件模型不同的第二文法模型用识别器处理所述语音数据以抽取第二多个识别候选字；将所述第一多个识别候选字与预定的字的词典对准以生成第一候选字表；将所述第二多个识别候选字与预定的字的所述词典对准以生成第二候选字表；从所述第一与第二候选字表建立动态文法模型；以及根据所述动态文法模型用识别器处理所述语音数据以抽取识别的字。

【技术特征摘要】

【专利技术属性】
技术研发人员：迈克尔盖勒，让克劳德琼奎，
申请(专利权)人：松下电器产业株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人