当前位置: 首页 > 专利查询>微软公司专利>正文

用于生成亚洲语字符的识别体系结构制造技术

技术编号:4565828 阅读:261 留言:0更新日期:2012-04-11 18:40
一种用于在亚洲语言语音识别系统中纠正不正确的识别结果的体系结构。可以响应于接收到语音输入来启动一种拼写模式,该拼写模式用于纠正识别结果的不正确的拼写或生成新词。纠正可以通过语音和/或手动选择和输入来获得。该体系结构方便单遍纠正,而非像常规系统中那样多次纠正。使用该拼写模式来纠正的词是作为一个单元来纠正的并且被当作词。该拼写模式至少适用于亚洲大陆的语言,如简体中文、繁体中文、和/或诸如日文等其它亚洲语言。

【技术实现步骤摘要】
【国外来华专利技术】用于生成亚洲语字符的识别体系结构 背景用于英文的语音识别(SR)引擎需要拼写向导,主要是因为引擎词典 中不能够包括所有或基本上所有合适的名词,尤其是名字。另一方面,中 文字符集可被认为是闭合的,因为所有字符都包括在词典中。不必考虑或担忧词汇外的字符。然而,中文SR引擎的主要问题是跨多个不同字符的同 音字共享。有大约47,000个有效的中文字符,但中文中只有大约1600个不 同但固定的音节。这意味着,如果这些音节跨不同的字符平均分布,每一 音节可对应于大约23-31个不同的字符,这些字符中的许多都表示不同的 事物。固定音节是与有效中文字符相关联的音节集合。例如,音节"chu"对 应于像"出初處……"(其拼音是/chuh/)等字符,但不存在对应于任何有 效字符的"chiu"。因为固定音节的有限数量,所以存在大量的共享同一发 音的字符。以下是共享同一发音/lih/的54个字符的一个示例;并且/lih/的 列表仍然不全面力利立麗例莉歷俐勵厲曆栗笠粒蒞隸儷吏壢另慄戾櫪瀝琍璣痢癘^荔 螗釙靂螗釙靈礪鬲鵜丽俪凓励历厉麻歴呖琍蜊耍悧惊撬……因此,在引擎未能正确识别一个词时,用户可以尝试从备选列表中纠 正它,或尝试重复说出所需的词以供识别,但这由于以下问题而不成功。第一,如果声学模型(AM)未正确处理语音音频或AM对所需的词具 有比其它词更低的相关性分数,而其它词具有更高的语言模型(LM)分数, 则不管用户说出该词多少次,输出可能都不是来自备选列表的正确的词。第二,假定发声的音频被AM正确地处理,但如果所需字符在超过备 选项的数量的列表项中并且未被呈现给用户,则用户将不能在不键入的情 况下获得该词。这可能发生在中文中,尤其是在字符还是数字或数的同音4字时,此时SR引擎还显示数的不同格式的ITN (逆文本标准化,如将"twelve"标准化成"12")结果。第三,即使中文SR引擎不考虑词汇外字符,但用户可以通过不同的字符的组合来创造新词。除新词之外,各词之间没有空间来标记词边界。为确定词边界,亚洲语言(至少与简体中文(CHS)、繁体中文(CHT)、和日文(JPN)相关)需要在引擎或IME (输入方法编辑器)进程中进行断词。因此,在用户向中文SR引擎口述诸如人名(该人名很可能是未知的词)等正确的名词时,SR正确地处理该名字的可能性很低,除非该名字很常见并且在训练数据中出现过。即使AM和LM完美地工作,用户仍然可能接收到与所期望的输出"劉莉"不同的具有诸如"劉麗"等字符的输出名字(焦点在于第二字符,其中第一字符是姓且第二字符是名),这是由于上述的同音字问题,即"麗"和"莉"是同音字但用作不同个人的名。对于中文对话期间的人们的感知而言也是如此,在对话中第一个人告诉第二个人他的名字,而第二个人将需要问第一个人该名字中确切地使用的是哪些字符。最后,当用户在SR过程期间尝试纠正词中的字符时,通过选择字符和/或重复说出字符以确定正确的字符是否将最终出现在备选列表上来获得正确的输出是可能的。通常,在字符不具有许多同音字时,获得供替换的正确的词是可能的。然而,这类纠正将在单独的字符的基础上完成。在SR中将不采取这一纠正,因为SR按词而非按单个字符来学习。因此,如果用户想要在文档中多次使用这一字符,用户将需要在每次讲出该字符时都重复纠正过程。因此,常规识别过程是麻烦而且低效的。概述以下提出了简化概述以便提供对在此描述的某些新颖实施例的基本理解。本概述不是详尽的概览,并且它不旨在标识关键/重要的元素,也不旨在描绘其范围。其唯一的目的是以简化的形式来介绍一些概念,作为稍后提出的更为详细的描述的序言。所公开的体系结构提供用于亚洲语语音识别算法的拼写模式。这方便确定新词的边界以及将新词添加到词典中。因此,与其中词纠正发生多次的常规系统不同,基于该拼写模式,词纠正只发生一次。具体地,在中文字符的上下文中,拼写模式方便在语音识别引擎返回不正确的口述字符时输入中文字符。使用该拼写模式来纠正的词是作为一个单元来纠正的并且被当作词。这是因为与例如其中词边界很容易识别的英文单词不同,亚洲语言中的边界不清楚。因此,通过经历拼写模式来输入中文字符(在该示例中)减少或消除了后续识别处理中对该词的误识别。所公开的拼写模式适用于其中字符具有对应的固定发声的简体中文、繁体中文、和/或诸如日文等其它亚洲语言。为实现上述及相关目的,本文结合下面的描述和附图描述某些说明性方面。然而,这些方面仅指示了可利用此处公开的原理的各种方法中的少数几种,且旨在包括所有这些方面及其等效方面。结合附图阅读下面的详细描述,则其它优点和新颖特征将变得显而易见。附图简述附图说明图1示出计算机实现的转换系统。图2示出基于在拼写/纠正过程期间所学习的新词来方便词典共享的系统。图3示出采用方便自动化一个或多个功能的推断组件的系统。图4示出可由此处公开的拼写/纠正体系结构采用的一个或多个方法。图5示出采用词发音作为字符规范方法的系统。图6示出在用户期望亚洲语字符/词作为输出时所呈现的拼写对话框面板的屏幕截图。图7示出在用户期望英文单词作为输出时所呈现的拼写对话框面板的屏幕截图。图8示出所呈现的用于同音字命令处理的拼写对话框面板的屏幕截图。图9示出响应于用于同音字纠正的语音激活命令来呈现的拼写模式对话框面板的屏幕截图。图10示出其中响应于所发声的索引选择来纠正误识别的词并清除列表框的面板。图11示出所呈现的用于语音发音的拼写对话框面板的屏幕截图。图12示出所呈现的用于纠正所说出的发音的拼写对话框面板的屏幕截图。图13示出基于对所说出的发音的纠正来呈现的具有修订的同音字列表框的拼写对话框面板的屏幕截图。图14示出在纠正误识别的词时,并且光标移动到下一字符以对所说出的发音进行处理以使用户可以在需要时继续对该下一字符进行纠正时所呈现的拼写对话框面板的屏幕截图。图15示出根据第二方法将正面、中性、和负面意义用于字符加权的系统。图16示出根据第三方法按所需字符的子分量的语音输入来采用词分解的系统。图17示出所呈现的用于通过平假名的语音/键入输入来进行日语识别和处理以获得日文汉字的拼写对话框面板的屏幕截图。图18示出所呈现的用于与获得日文罗马字相关的日语识别和处理的拼写对话框面板的屏幕截图。图19示出根据所公开的体系结构的识别语音的方法。图20示出使用拼写向导来纠正识别结果的方法。图21示出将语音发音转换成字符的方法。图22示出在亚洲语和英语中使用拆分命令来进行纠正处理的方法。图23示出在亚洲语拼写向导中使用同音字命令的方法。图24示出将加权值应用于词意义的方法。图25示出共享经更新的词典的方法。图26示出将字符分解用于拼写纠正的方法。图27A和27B示出基于用于拼写纠正的多个方法来进行纠正处理的方法。图28示出可用于执行根据所公开的体系结构的纠正处理的计算系统7的框图。图29示出了用于根据所公开的体系结构的纠正处理的示例性计算环境的示意性框图。详细描述此处所公开的是提供算法、数据、以及至少一个用户界面(UI)的体系结构,该用户界面包括用于亚洲语语音识别和获得新词/字符或对误识别的字符的纠正的拼写模式。现在参考附图,附图中相同的附图标记用于指代在全文中相同的元素。在以下描述中,为解释起见,阐述了众多具体细节本文档来自技高网...

【技术保护点】
一种计算机实现的转换系统(100),包括: 用于基于语音输入来输出亚洲语字符的语音识别组件(102);以及 用于基于所述语音识别组件的不正确的输出来生成经纠正的输出的纠正组件(104)。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:SZ郭KE弗里吉Y宫T美和A奇特拉普
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1