语言翻译系统技术方案

技术编号:2893595 阅读:267 留言:0更新日期:2012-04-11 18:40
一种将词组从第一种语言翻译成第二种语言的翻译系统包括一存储一批第二种语言词组的存储器。以第一种语言输入的词组个个都根据一个或多个关键词加以鉴定,然后以第二种语言输出相应的词组。这种短语集法使翻译能有效地快速而准确地进行,口译也不例外。因第二种语言的词组是事先编制好且存储在存储器中,故不会出现翻译质量差或不合语法结构等问题。输出可以是正文形式或采用言语合成以话音形式输出。(*该技术在2007年保护过期,可自由使用*)

【技术实现步骤摘要】
本专利技术涉及一种将词组从第一种语言翻译成第二种语言的系统,特别是(但不是单独地)涉及一种根据第一种语言的讲话产生第二种语言的话音的系统。对快速自动语言翻译机特别是口译机的研究已有多年的历史了。但尽管近年来电子计算、言语识别和言语合成等技术取得了巨大进展,这类机器仍然只是梦幻和小说的资料。迄今,对自动翻译正文(text)的计算机系统是进行过大量的研究工作的。但除了在为数不多极其有限的应用领域(例如天气预报的翻译)外,都未能取得能自动精确地翻译因而可以取代翻译员的这样的成果。言语识别的误差、再加上语调、重音等方面的信息和言语本身的不准确,使言语的翻译问题变得复杂化了。现有正文语言翻译程序包又偏偏都是不完全的,不是在这方面欠缺,就是在那方面不足,不能满足言语至言语的翻译系统的要求。迄今,这类程序包多数是作为职业翻译员的辅助工具而设计的,所产生的输出必须经过其后编辑处理才能以它们的目标语言表示出来。多数程序包不是按项目单加以驱动和进行人-机对话,就是以缓慢的成批处理方式工作,两者都不适于“实时”言语操作。此外,翻译程序包也往往不可靠,原因在于,习惯语和其它例外情况最容易得出错误的输出使用者得不到输出能正确予以翻译的保证。再者,现有系统中用的中央处理机非常密集,这使它们的运行费用非常贵,因而不适用于许多对费用极其敏感的用途。本专利技术试图提供一种上述不足和缺点有所减少的翻译系统。根据本专利技术提供了一种将词组从第一种语言翻译成第二种语言的系统,该系统包括一存储一批第二种语言词组的存储器;一接收第一种语言词组的输入装置;一以第二种语言输出包括所述一批词组中的一词组的词组的输出装置;一确定所述一批词组中哪一个词组对应于所述输入词组的鉴定装置;一响应所述鉴定装置来控制输出装置并确保从所述一批词组中输出对应于所述输入词组的装置。这种系统翻译速度非常快,所需要的时间主要花在识别/鉴定输入词组和查找第二种语言中的“答案”。该系统还可设计得可以给使用者提供输入确认信号,表明系统已正确识别/理解使用者的意思,这在言语翻译系统中当然是特别重要的。由于所存储的一批词组是仅仅由预先做好的准确翻译组成的,因此一旦使用者获得他的信息已被正确鉴定的确认信号时,翻译的准确性即得到了保证。这种翻译系统还可能同时将一种语言迅速地翻译成若干种第二种语言,所需要增加的部件基本上只是另外一些存储另外每种第二种语言的各批词组的存储器。现在参照附图介绍本专利技术的一些实施例。附图中,图1是显示根据本专利技术的系统各主要组件的方框图。本专利技术是以我们的下列见解为基础的,即用数目小得多的关键词有可能鉴定和抓住大量截然不同的词组的语义内容。通过适当地选择关键词,就有可能使用现行市面上出售的只能识别数目远比大量有用的词组组中所包含的词少得多的词的言语识别器,来鉴定和区别大量的词组组。因此翻译系统的性能总的说来有赖于那些关键词正确辨别词组的能力。识别词组的能力越大,系统在识别上的容许误差就越大,同时说话者本人所造成的容许误差也大。关键词的选择合适的检索程序如下1.根据各词在词组中出现的频率整理N个有关词组中K个词中的每一个词。2.选择M个最频繁出现的词列入基本关键词表中,其中M为言语识别器词汇中的词数。3.然后确定各词是否存在于各词组中。清点计数不为关键词所鉴别的词组的数目(E)。4.令i=1。5.临时从列表中删除一关键词,计算E的新值(E′)。6.把记分E′-E指定给被暂时删除的关键词。这是在关键词更新之后对系统性能变坏的程度的一个衡量,也就是它对系统总性能的影响程度的一个衡量。〔实际上,这种衡量是用以确保各关键词尽可能多地识别词组对而不致仅仅重复其它词组对的功能〕。7.将暂时删除了的关键词复位,对M个关键词的每一个关键词重复上述过程。8.从现有关键词表中除去记分最低的词。9.用第M+i个最频繁出现的关键词代替该除去的词,然后计算新的E值。10.若新E值所表示的性能比原E值的好,就增加i值,同时除非M+i>K,过程停止,否则从第5步起重复过程。要不然,将第M+i个词放弃不用,增加i值,同时除非M+i>K,在此情况下,在第8步最后一个被除去的词复位,过程停止,否则过程就从第9步起重复进行。最后得出的关键词表包含识别词组用的由M个关键单词组成的最佳关键词组。从上一次重复的最佳M个词开始的进一步重复可以进一步改进词组的识别效果。第1步中整理待选用词的系列可采用试探法而不用频率法,特别是有既定的语言信息可资利用时更是如此。此外,可能在出现频率表中趋近底部的词对词组识别的帮助不大,因此是不值得超出出现频率表中前三分之一或前一半的范围进行检索的。往往有这样的情况在检索过程中,大部分词组都辨别出来了,而E过早趋近于零。在这些情况下,通过根据只有当不同的关键词多于一个时才可认为该诸词组已鉴别出来了来计算E的情况,可以获得进一步的改善。这样可以确保用多于最起码数目的关键词来识别大多数词组,同时在某种程度上起防止言语识别误差的作用。在检索过程中会愈来愈明显有些类型的词组如果不扩大关键词汇是永远也识别不出的。这些词组“簇”或词组群的区别往往只在于其中一个字或一连串辅助字(例如商业信件中的日期)的不同而已,而且都是自动得出的选择对象,用以编制关键词辅助词汇(下面将详细介绍)。显然识别单个关键词时并没有考虑词序和可能包含的附加意义。因此,各词之间具有各种识别可能性的关键词对(或其它复合词)的有无也可用以改进单个关键词组的有效性。这给言语识别带来了这样的好处,即可以提高识别性能而无需增加识别词汇。应用在正文上时,还可以通过对关键词的归纳推广使其包括标点符号、词的各部分和词与词各部分的组合等而获得进一步的改进。例如,“-ing*bed”(其中*可以是任何词)可出现在“making the bed”和“selling a bed”中。若能进一步解决词组的混淆问题,则采用关键词对(例如We**to)可以提高作为组成部分的单词的价值。检索一些不一定邻接而为不同数量的其它词所隔开的词对也得从按出现频率进行整理的准备工作开始。其组成词都是在M个关键词中的词对,若它们能解决任何遗留的词组的混淆现象,则可以整顿好的列表中制取。和先前一样,对最后得出的单个关键词和关键词对列表进行记分,并计算总的词组混淆记分值E。现在开始对其中一个或两个组成关键词都不在现有关键词表中、使用情况更好的词对进行检索。从按出现频率整顿的序列顶部选取下一个词对候选对象,然后添加到关键词表中。同时也加入所添加词对中还未出现的单个关键词,并删除等量使用情况最差的单个关键词。这一下,其它词对,若它们的组成词不再存在的话也可能被删除。计算E的新值(E′)。若情况有所改进且E′<E,就保留对关键词表所作的最新修改,否则将列表回复到其以前的状态。其它词对就根据出现频率的次序进行处理,尽管和检索单个关键词时一样,但可以采用其它试探法提供词对候选对象。值得注意的是,有些关键词通过加入到若干词组而比它们单独使用时对总性能的影响要大。该方法可推广应用到更大的关键词的分组(>2个词)上,但由于出现频率的减少,所以只有在词组是极其大量时,解决词组混淆问题的作用才突出。检索关键词的计算量随着关键词和词组数量而增加。这可通过先对混淆的或极其本文档来自技高网...

【技术保护点】
一种将词组从第一种语言翻译成第二种语言的系统,其特征在于,该翻译系统包括一存储一批第二种语言词组的存储器、一接收第一种语言词组的输入装置、一以第二种语言输出包括所述一批词组中一词组的词组的输出装置、一确定所述一批词组中哪一个词组对应于所述输入词组的鉴定装置和一响应所述鉴定装置来控制输出装置并确保从所述一批词组中输出对应于所述输入词组的装置。

【技术特征摘要】
GB 1986-10-3 8623839;GB 1987-5-1 87103761.一种将词组从第一种语言翻译成第二种语言的系统,其特征在于,该翻译系统包括一存储一批第二种语言词组的存储器、一接收第一种语言词组的输入装置、一以第二种语言输出包括所述一批词组中一词组的词组的输出装置、一确定所述一批词组中哪一个词组对应于所述输入词组的鉴定装置和一响应所述鉴定装置来控制输出装置并确保从所述一批词组中输出对应于所述输入词组的装置。2.如权利要求1所述的系统,其特征在于,该系统包括一通过一数据线路可操作连接的第一和第二终端,第一终端包括所述输入装置和所述鉴定装置,第二终端包括所述存储器和所述输出装置,其中所述第一终端还包括一产生信息并通过所述数据线路传输到所述第二终端的信息发生装置,该信息则指示所述一批词组中哪一个词组对应于所述输入词组。3.如权利要求1或2所述的系统,其特征在于,所述鉴定装置根据输入词组中存在的一...

【专利技术属性】
技术研发人员:弗雷德里克沃里克迈克尔斯坦蒂福德马丁乔治斯蒂尔
申请(专利权)人:英国电信公司
类型:发明
国别省市:GB[英国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1