在机器翻译中能够翻译文化上细微差异的方法技术

技术编号:2888507 阅读:209 留言:0更新日期:2012-04-11 18:40
一种将源语言的句子翻译成目标语言的句子的方法。知识库包含许多基本代表源语言的所有可能的信息形式以及许多相应的目标语言的信息形式,目标语言的信息形式与源语言的信息形式按照预定的关系建立关联。先分析源语言的句子,确定其构成的词类,找出一特定的信息形式。然后咨询知识库,找出相应的目标语言信息形式,把源语言的词插入到目标语言的信息形式中,形成语言规范形式的译文,再应用自校正语法规则,提供经过润饰的译文。(*该技术在2017年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及从源语言到目标语言的计算机翻译,更具体地是涉及在翻译时考虑到文化上细微差别的机器翻译。本专利技术人的美国专利No.5224040(以后有时称为“第一专利”)公开了将源语言(例如中文)翻译成目标语言(例如英文)的机器。由于中文句子是以字符串书写的,以不同方式组合的字符串可以产生不同的词,前一专利所公开的方法包括以下步骤输入一串中文字符;对该字符串进行分段,找出构成词语和成语的字符组;将这些词语翻译成目标语言,产生原始译文。在本专利技术人美国专利No.5384702(以下有时称为“第二专利”)所公开的第二代机器中,运用语法规则和自校正规则对所述的原始译文进行润色。然而,源语言的句法结构和句子成分反映了许多世纪中源语言发展中源语言受到的文化影响。对于目标语言也是同样的情况。因此,在任何两种源语言与目标语言之间,在句法结构和句子成分上通常存在相当大的差异。第一和第二专利中所公开的机器和方法没有将这种差异考虑进去。结果,即使在用第一专利所公开的机器形成原始句子后,在第二专利所公开的机器中通过找出语法标识以及运用语法规则和自校正规则进行润饰,所获得的经过润饰的句子仍然可能缺少目标语言的句法结构和句子成分,即单单用语法规则和自校正规则不足以在缺乏共同文化背景的语言之间沟通各自句法结构和句子成分之间的差异。那么,在对原始译文进行改进,使经过润饰的译文采用目标语言的句法结构和句子成分来代替源语言的句法结构和句子成分时,就需要第三代能够考虑源语言与目标语言之间不同句法结构和句子成分的机器。现有的翻译计算机不具有将具有源语言句法和句子结构的句子转换为具有目标语言句法和结构的句子的能力。一般常识总是这样认为,只有源语言的所有可能的句子在计算机存储器中都能与目标语言的预定的相应句子相匹配,才可能有这样的技能。换句话说,需要由一些语言学家对两种语言之间所有可能的句子进行匹配,再计算机简单地产生与源语言句子相匹配的目标语言句子。显然,由于任何一种语言可能出现的句子数目是无限的,因此,这样一种方案一直被认为是不实际的。到目前为止,已知的通用的翻译机器不能够把无限多在语法上正确的源语言句子翻译成无限多在语法上正确的目标语言句子,这里所说的两种语言具有各自不同的句法和句子结构。此外,在构思本专利技术时,从整个的现有技术看,对于这一
的一般技术人员来说,如何提供这样一个通用的翻译机器并非显而易见的。直到目前为止一直未能实现在机器翻译中能够考虑文化上细微差异的方法,现在,一项新颖、有用和非显而易见的专利技术能够满足对这种方法的需要。本专利技术包括一种对源语言句法结构和句子成分进行分析、理解并转换成相关的目标语言句法结构和句子成分的方法。结果在世界上产生了第一台能够从具有不同句法和句子结构的源语言产生在句法和句子结构上语法正确的目标语言句子的翻译机器。因此,本专利技术所提供的第一台翻译机器能够与在源语言和目标语言方面都流利的翻译人员相比美。然而,与翻译人员不同的是本专利技术的机器不限于所翻译的语言的数量。新的方法通过把源语言的思维过程变换为目标语言的思维过程,采用语言学规范形式(LCFs)和信息型式(IPs)来转换文化上的细微差异。在第一专利公开的翻译机器所提供的原始翻译之后以及在第二专利公开的翻译机器所进行的步骤之前,要进行一些新的步骤。在采用第二专利公开的语法和自校正规则时,通过本专利技术的步骤来反映目标语言的句法和句子结构,将会改善第一专利翻译机器所产生的原始句子。结果,目标语言的句子得到较高水平的润饰,加入了目标语言的文化上细微差异,没有反映源语言的文化上细微差异,即句子的质量达到了至目前为止只能由翻译人员达到的水平。源语言相对于目标语言的LCF是使用源语言的词的一种表示,但是,这里所述的源语言的词是按照目标语言的思维过程和句子结构排列的。因此,LCF反映了目标语言(可以是任何一种自然语言)的文化背景。这就保证了由第二专利专利技术进行的下一步翻译将产生上述的经过高度润饰的句子。新方法的第一步,源语言是中文,按照第一专利中所教的方法,首先将字符串分成可以识别的中文词组。结果便是包含源语言句法结构和句子成分的原始句子。然后,本专利技术将这些中文词重新排列成一个按照英文句子排列的句子,即以预定的英文句子结构排列中文词,产生语言规范形式(LCF)。例如,源语言是中文,目标语言是英文。第一级的翻译是在第一专利公开的机器中进行的,可以是“Zhe ben shu shi ta xie de.”词面翻译产生“This ben bookis he write de,”这里,“ben”是一个类似于“sheet”的量词(MW),英文表示一张纸(“one sheet ofpaper”),“de”没有英文译文,表示过去时态和被动语态。源语言的信息型式是代词(P)+MW+名词(N)+动词(V)+P+V+de。目标语言的相应的预定信息型式是P+N+be+V+by+P。因此,LCF是“Zheshu shi xie bei ta,”其原始译文是“This book is write by he.”经过润饰后的译文是“This book was written by him.”注意“Zhe shu shi xie beita,”是利用中文词按照英文句子结构排列的一种表示。因此,现在可以对词进行翻译,产生的句子将是英文的句子,仅仅需要用第二专利公开的方法进行润饰。英文表示“This book is he write”可以被看作是一种中文式英文表示,因为它反映了中文的思维过程和句子结构,即如上所述,在所述的词排列成英文句子结构前,是从中文词的译文导出的。为了说明起见,把这个中文式英文表示称作为LCF1;在进行英文到中文的自动翻译中,这是很有用的,因为它已经具有中文的句法和句子结构。然后,根据第二专利所教的方法,对这一原始译文(“Zheshu shi ta xie”)进行一些词汇上的编辑,使其可读性更高。“This book was written by him.”的LCF是“Zhe shu shi xie bei ta.”这就是所谓的利用英语思维过程和句子结构给出中文表示的英文式中文。这被称为语言规范形式LCF2。LCF2的直接翻译,得到“This book is write by he.”在进行中文到英文的自动翻译中,LCF2是有用的。然后,根据第二专利所教的方法,对这一原始译文进行语法上的校正,使其可读性更高。因此,新方法的主要思想是产生一个与输入的源语言句子相对应的LCF。从LCF,机器进行到目标语言句子的翻译。由于不可能存储所有可能的句子,试图存储数百万条相匹配的源语言和目标语言的句子也是不实际的,因此,本专利技术包含了以有限数目的信息型式表示所有句子的突破性的见解。然而,在中文与英文之间存在一些相似性。当中文的句法结构和句子成分与英文句子相类似时,翻译是直接的,不必要产生LCF。例如,把“Ta du shu kuai”中文句子逐词翻译成“He read book quick”,再提炼成“He read the bookquickly.”在这个例子中,不需要把中文词重新排列成英文句子结构,因为两种语言具有相同的句子结构。另一方面,大量的中文句子在句法和句子成分上完全不同本文档来自技高网
...

【技术保护点】
一种将源语言的句子翻译成目标语言的句子的方法,其特征在于:在翻译中把源语言的思维过程和句子结构转换为目标语言的思维过程和句子结构,包括以下步骤:输入一个源语言的句子;找出所述源语言句子的词类和所述词类在所述源语言中出现的顺序;找 出所述源语言的信息型式,包括所述词类按所述顺序的排列;找出所述目标语言的预定的信息型式,所述目标语言的信息型式与所述源语言中所找出的信息型式相对应;通过以所述的预定的目标语言的信息型式所表示的词语顺序排列源语言句子的词,产生LCF; 对所述的词进行翻译。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:朱利叶斯T图
申请(专利权)人:信快达电脑公司
类型:发明
国别省市:US[美国]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1