不同语言的现有语音识别方案的快速原形化的系统和方法技术方案

技术编号:4004328 阅读:258 留言:0更新日期:2012-04-11 18:40
公开一种将源语言的现有语音识别方案移植到目标语言的系统和方法。本发明专利技术设想的系统能够将源语言的工作语音识别方案移植到目标语言的工作系统,由此最小化开发过程和重用现有语音识别方案,以识别多种语言。

【技术实现步骤摘要】

本专利技术涉及语音识别领域。
技术介绍
说明书中使用的术语的定义以下是本领域已知的并在说明书中使用的术语的定义 字素(grapheme)是书面语言的基本单位。 音素(phoneme)是声音的最小部分单位,其用以形成话语之间的有意义的对 比。眷翻译(translate)是文本的意义的理解以及用另一语言传达相同消息的同等 文本的后期制作。 音译(transliterate)是以系统化方式将文本从一个书写系统转换成另一书 写系统的处理。如今,为了提高客户服务,交互技术扮演了关键角色。如IVR(交互式语音应答) 交互技术接受口头的用户输入和/或请求,并响应于用户的请求提供预记录的或动态生成 的输出。典型地,IVR应用使用语音识别系统识别并将口语单词或口语单词序列转换成机 器可读形式,用于进一步处理和/或应答用户查询。典型地,这些语音识别系统被部署用于 特定语言,因此当必须部署相同系统用于不同语言时,必须移植(port)现有系统,使其能 够理解新语言,这等同于建立新的应用。由于以下原因,大部分现有系统以英语来部署(a)语言的更广泛的可接受性;以及(b)英语的信息和其他资源的随时性。然而,随着在本国语言并非英语的各个国家中基于语音的方案的可接受性增加, 急切地需要将源语言(例如英语)的基于现有语音识别的应用转换成目标语言(例如印地 语)ο典型地,基于现有语音识别的方案需要以下组件 具有用于声学识别的声学模型的语音识别(SR)引擎; 必须识别的单词的发音词典; 语音文法或语言模型;以及 用于产生来自用户的响应的语音提示,S卩,提示用户提交他们的查询。前三个组件在一起协作将口语语音转换成文本,而第四个组件帮助基于现有语音 识别的方案与用户交流。典型地,从源语言将基于现有语音识别的方案转换成目标语言需 要将这四个组件移植到目标语言。但是,如果以目标语言适当地实现了其他两个组件(即发音词典和语音文法),则 为了特定语言调整声学模型,并使用声学模型以满意的精度识别另一语言的语音。实质上,从一个语言将基于现有语音识别的方案转换成另一语言必须创建用于目4标语言的新的发音词典,其包含基于语音识别的方案要识别的所有单词以及目标语言的语 音文法模型。此外,必须将源语言的提示转换成目标语言的提示。用于将源语言的基于现有语音识别的方案移植成目标语言的这些修改需要等同 于建立完全新的基于语音识别的方案的工作量。在现有技术中存在各种尝试,以开发能够 容易地将应用从一个语言移植成另一语言的系统。具体地,美国专利7406417公开了一种调节用于自动语音处理的数据库的方法。 该文档公开了一种神经网络,其可被训练以借助于通过自动匹配字素和音素所生成的数据 库来合成或识别语音。首先,对于具有相同数目的字素和音素的单词来匹配字素和音素。 接下来,在将字素与先前音素组合的一系列步骤中,对于具有比音素更多字素的单词来匹 配字素和音素。然后,对于具有比音素更少字素的单词来匹配字素和音素。在每个步骤之 后,清除在先前步骤中做出的较少的和未成功的匹配。在这个处理完成之后,可使用数据库 来训练神经网络和字素,或者可借助于训练的人工神经网络将文本的字母转换成相应的音素ο此外,美国专利申请2005197835公开了一种方法和装置,用于生成由非本国演讲 者发出的外语单词的演讲者独立语音识别的声学模型。该文档公开了自动生成的并利用来 自本国语言和外国语言的训练声学模型的用于语音识别的声学模型。利用音素到音素的映 射来实现通过本国语言音素对外国语言单词的描述。使用音素到音素的映射来训练外国语 言单词,这通过本国语言音素以外国语言语音素材来描述。创建新的音素词典,其包含外国语言单词以及由本国语言音素转录的本国语言单 词。可利用外国语言和本国语言训练素材导出健壮的本国语言声学模型。可使用所述映射 来训练字素到音素转换器(即外国语言到本国语言),以生成对于新的外国语言单词的本 国语言发音。此外,美国专利申请2009150153公开了使用声学数据的字素到音素的转换。该文 档公开了使用声学数据来改进用于语音识别的字素到音素的转换,例如用以在语音拨号系 统中更精确地识别口语名称。描述了声学和音素的联合模型(声学数据、音素序列、字素序 列以及音素序列和字素序列之间的排列),使用声学数据通过适配字素模型参数的最大可 能性训练和区别性训练对所述模型进行重新训练。还描述了用于接收的声学数据的字素标 签的非监督集合,从而自动获得可在重新训练时使用的大量实际采样。可过滤出不满足信 任阈值的语音输入,而不被重新训练的模型使用。此外,世界知识产权组织文档No. 2009/150591公开了一种方法和设备,用于生成 主题特定的词汇表和计算机程序产品。该文档公开了一种方法,用于从公用文本而计算机 辅助生成主题特定的词汇表。在该文档中公开的步骤如下语言和主题特定文本的自动选 择;词汇表项目的自动生成,其每个包括基于所选文本的单词以及标音;采用词汇表项目 的基于字素结构的分类来实现词汇表项目的自动生成,以根据多个预定类型来分类词汇表 项目;词汇表项目类型特定的字素到音素的转换;以及获得用于单词的标音。然而,上述文档不适于在现有部署中通过最小的改变将现有语音识别方案移植到 多个目标语言。因此,需要一种系统,通过重用现有应用的语音识别引擎使得现有应用被快 速移植和/或修改,从而以多个目标语言工作。
技术实现思路
本专利技术的目的在于提供一种系统,能够将现有语音识别方案快速移植到以另一目 标语言工作。本专利技术的另一目的在于提供一种系统,用于精确的源到目标语言词典和语音文法 音译和翻译。本专利技术的另一目的在于提供一种系统,其自动生成目标语言单词的源语言音素发曰°一种用于移植源语言的语音识别方案以识别目标语言的系统,所述语音识别方案 包括语音识别引擎、源语言的发音词典、源语言的语音文法文件、源语言的提示,所述系统 包括 词典转换装置,适于将源语言的发音词典转换成在目标语言中使用的等同词 典,所述词典转换装置具有i.第一数据库,用于存储与目标语言的相似单词相应的源语言的单词的词典;ii.与所述第一数据库协作的翻译装置,适于接收源语言的每个单词,以及提供目 标语言的其相应单词;iii.音译装置,适于接收所述翻译的单词并将其映射至源语言字素;iv.字素到音素转换装置,适于针对所述源语言字素中的每个生成源语言音素,以 获得源语言的目标语言单词的音素发音;v.查询表生成装置,适于从所述字素到音素转换装置接收源语言的音译的目标语 言单词,以及还接收所述单词的等同音素发音,并且制备查询表;眷文法转换装置,适于修改源语言的语音文法文件,以处理目标语言的基于自由 语音的语音识别方案,所述文法转换装置具有i.翻译装置,适于接收源语言的语音文法文件,以及将所述文法文件翻译成目标语曰 ;ii.音译装置,适于接收所述翻译的文法文件,以及将所述翻译的文法文件音译成 源语言,以及用源语言提供针对目标语言的音译文法文件; 提示生成装置,适于将源语言的话音提示转换成目标语言,所述提示生成装置 具有i.翻译装置,适于将可包含在源语言的话音提示中的单词转换成目标语言的单 词;ii.识别装置,适于使用所述词典转换装置的所述查询表中的单词以识别与可包 含在目本文档来自技高网
...

【技术保护点】
一种用于移植源语言的语音识别方案以识别目标语言的系统,所述语音识别方案包括语音识别引擎、源语言的发音词典、源语言的语音文法文件、源语言的提示,所述系统包括:●词典转换装置,适于将源语言的发音词典转换成在目标语言中使用的等同词典,所述词典转换装置具有:i.第一数据库,用于存储与目标语言的相似单词相应的源语言的单词的词典;ii.与所述第一数据库协作的翻译装置,适于接收源语言的每个单词,以及提供目标语言的其相应单词;iii.音译装置,适于接收所述翻译的单词并将其映射至源语言字素;iv.字素到音素转换装置,适于针对所述源语言字素中的每个生成源语言音素,以获得源语言的目标语言单词的音素发音;v.查询表生成装置,适于从所述字素到音素转换装置接收源语言的音译的目标语言单词,以及还接收所述单词的等同音素发音,并且制备查询表;●文法转换装置,适于修改源语言的语音文法文件,以处理目标语言的基于自由语音的语音识别方案,所述文法转换装置具有:i.翻译装置,适于接收源语言的语音文法文件,以及将所述文法文件翻译成目标语言;ii.音译装置,适于接收所述翻译的文法文件,以及将所述翻译的文法文件音译成源语言,以及用源语言提供针对目标语言的音译文法文件;●提示生成装置,适于将源语言的话音提示转换成目标语言,所述提示生成装置具有:i.翻译装置,适于将可包含在源语言的话音提示中的单词转换成目标语言的单词;ii.识别装置,适于使用所述词典转换装置的所述查询表中的单词以识别与可包含在目标语言的提示中的单词相应的音素发音,并提供可包含在源语言的提示中的单词的音素序列;iii.文本到语音转换装置,适于接收所述单词的音素序列,并生成可包含在源语言的提示中的单词串;iv.文法调节装置,适于接收所转换的可包含在源语言的提示中的单词串,并根据针对目标语言的音译文法文件设置单词,以及提供基于文法修改的文本的提示;v.语音生成装置,适于接收所述基于文法修改的文本的提示,以及针对所述基于文法修改的文本的提示生成基于语音的输出;●与所述提示生成装置协作的提示装置,适于输出与目标语言的提示相应的所生成的语音,以引导用户提交他们的查询;●接收装置,适于从用户接收目标语言的基于语音的查询,所述查询适于被接收,并通过所述语音识别引擎使用针对目标语言的所述查询表和所述音译文法文件转换成源语言文本和源语言表示;●处理装置,适于处理所述源语言文本和执行预定操作,并进一步适于提供处理的输出;●编译装置,与所述词典转换装置、所述语音文法转换装置、所述提示生成装置、和所述处理装置协作,以及适于编译目标语言的最终输出;以及●回放装置,适于播放目标语言的所述最终输出。...

【技术特征摘要】
...

【专利技术属性】
技术研发人员:SK科帕拉普IA谢赫AS法兰德
申请(专利权)人:塔塔咨询服务有限公司
类型:发明
国别省市:IN

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1