基于例句集合的翻译装置、方法以及短语翻译装置制造方法及图纸

技术编号:4266101 阅读:233 留言:0更新日期:2012-04-11 18:40
基于例句集合的翻译装置、方法和包含翻译装置的短语翻译装置。本发明专利技术的短语翻译装置具有:基于词典的翻译方式的基于词典的翻译部;例句完全匹配翻译方式的例句完全匹配翻译部;基于单词对齐例句的翻译方式的基于单词对齐例句的翻译部;基于例句集合的翻译部;基于例句的翻译方式的基于例句的翻译部、基于规则的翻译方式的基于规则的翻译部,输入短语依次分阶段地输入到这些翻译部。基于例句集合的翻译部从例句对译词典选择包含输入短语的多个例句对译组,分别提取多个例句对译组中各例句对译组相互之间的共同部分的组,计算提取出的多个共同部分的组针对输入短语的支持程度,输出基于支持程度选择的共同部分的组中的对译短语作为第2语言译文。

【技术实现步骤摘要】

本专利技术涉及利用例句对译词典的基于例句集合的翻译装置、方法和包括该基于例句集合的翻译装置的短语翻译装置。
技术介绍
机器翻译利用计算机将某一种语言翻译成另一种语言,这种研究开发在世界上已经进行了半个世纪。机器翻译方式可以大致分为1)基于分析的机器翻译方式、2)基于统计的机器翻译方式、3)基于例句的机器翻译方式。 基于分析的机器翻译方式是对第1语言进行分析(词素分析、句法/语义分析等),将分析结果转换成第2语言,进而生成第2语言译文的技术。因为自然语言分析技术是尚未成熟的技术,所以基于分析的机器翻译方式的实用化存在极限。并且,由于不能学习,所以具有很难对翻译引擎进行改善/改进的缺点。 基于统计的机器翻译方式是使用语言模型和统计模型来构建翻译模型的技术。因为该方式在各模型结构中限定了必要的学习数据(corpus语料库),所以实用化受到限制。 基于例句的机器翻译方式是模拟人学习外语的机制,参考已经学习过的翻译例句来翻译新的文件的技术。该翻译方式于19世纪80年代提出,此后进行了大量的研究开发。在基于例句的机器翻译技术中,根据所参照的对译例句模式的定义以及相似例句参照方法的不同,有翻译存储翻译技术、使用带单词对齐的对译例句的翻译技术、以及使用句子模式的翻译技术等。 图1是示出基于例句的机器翻译方式所涉及的机器翻译系统的整体结构例的图。机器翻译系统10构成为从比较简单的翻译过渡到比较复杂的翻译,从而实现翻译的高速化。并且,机器翻译系统10具有自动回收不能翻译的部分并赋予准确的对应译文的学习功能。 机器翻译系统10具有翻译存储装置14,其翻译从源语言文本语句输入部12输入的以句子为单位的语句;基于例句模式的翻译装置16,其输入翻译存储装置14中无法对照的输入语句即不恰当的输入语句,翻译对其进行词素分析后得到的单词等的例句模式;单词直译翻译装置18,其输入基于例句模式的翻译装置16不能翻译的单词作为不恰当的单词,翻译该单词;目标语言文本语句输出部20,其根据由上述翻译装置恰当翻译的结果来生成并输出目标语言的文本语句。 并且,机器翻译系统10还具有翻译不恰当语句自动回收部22,其回收基于例句模式的翻译装置16不能翻译的语句,对所回收的语句生成恰当的翻译;学习装置24,其检查并修正由翻译不恰当语句自动回收部22生成的翻译;以及翻译词典26。翻译词典26具有单词对译词典26a,其存储第1语言的单词和作为其对应译文的第2语言的单词;例句对译词典26b,其存储第1语言的例句和作为其对应译文的第2语言的例句;以及例句模式对译词典26c,其存储第1语言的例句模式和作为其对应译文的第2语言的例句模式。在翻译存储装置14、基于例句模式的翻译装置16、单词直译翻译装置18中使用翻译词典26。另外,图1的机器翻译系统只是一个结构例子,还可以包括其它基于语段(chunk)等的翻译引擎。 图2是示出图1中的基于例句模式的翻译装置16的结构的框图。基于例句模式的翻译装置16构成为具有词素分析部26,其对输入语句进行词素分析;映射变换部28,其使用例句模式对译词典30来对词素分析后的语句进行映射变换;短语翻译部32,其翻译映射变换后的语句中的各名词短语;以及译文生成部34,其将由短语翻译部32翻译后的短语应用到映射变换后的语句中来生成最终译文。将语句中的两个以上单词构成的名词短语一般化后的多个例句模式及其对应译文形成为组而存储到例句模式对译词典30中。映射变换部28生成输入语句中的名词短语一般化后的语句,对例句模式对译词典30进行检索,提取与其相同的例句模式及其对应译文的组。 图3是示出基于例句模式的翻译装置16的具体翻译处理过程的概念图。在此示出了输入日文作为第1语言,作为第2语言得到中文译文的例子。输入基于例句模式的翻译装置16的日文语句在词素分析部26中进行词素分析(图中的数字是分配给各词素的ID),然后提供给映射变换部28。在映射变换部28中,生成使词素分析后的语句中的短语(phrase)一般化(图中的NP1、NP2、NP3)的语句,从例句模式对译词典30中提取与其一致的例句模式。于是,确定其中文对译例句模式。接着,向短语翻译部32输入由映射变换部28一般化成NP1~NP3的名词短语,得到其对译短语。在译文生成部34中,在这样得到的对译例文模式中嵌入对译短语,生成针对所输入的日文语句的中文译文。其中,短语翻译部32的名词短语的翻译精度对最终翻译语句的翻译精度影响重大。 作为与上述机器翻译技术相关的文献,存在专利文件1~4以及非专利文件1和2。在专利文件1中公开了如下技术在将具有连体修饰节的第1语言语句翻译成第2语言语句时,向第2语言的翻译词典赋予与连体修饰节的语序有关的信息,利用该信息根据第2语言的语法规则来生成第2语言语句,从而得到具有正确语序的名词短语的翻译结果。在专利文件2中,公开了在机器翻译装置的并列名词短语处理中能够进行正确的并列名词短语处理的并列名词短语处理方式。专利文件3中公开了如下技术通过进行结构分析来提取具有复杂结构的名词短语,分割成主要名词和除此以外的构成要素,使用语法规则中的变换/生成规则来生成译文。专利文件4公开了如下技术使用例句对译词典,提取包含有输入短语的例句及其译文,用户从提取出的信息中选择译文。 并且,非专利文件1报导了如下技术针对由第1语言例句和该例句的第2语言译文构成的例句对,分别对例句和译文进行词素分析,分别提取构成例句和译文的单词,从单词对译词典中提取构成例句的单词的译词,将提取出的译词与译文的单词进行对照。非专利文件2报导了使用由例句对的集合构成的单词和译词之间的统计模型来进行对齐的技术,其中,例句对由第1语言例句和该例句的第2语言译文构成。例如,统计模型是DICE系数、X2、相互信息量和T-score等。专利文件1日本特开平5-120329号公报 专利文件2日本特开平6-68131号公报 专利文件3日本特开平9-282320号公报 专利文件4日本特开2001-195404号公报 非专利文件1Jin-xia Huang,Key-sun Choi,2000,“Using BilingualSemantic Information in Chinese-Korean Word Alignment”,Pacific AsiaConference on Language,Information and Computation,PACLIC14,pp.121-130 非专利文件2Melamed,Dan,“A Word-to-Word Model ofTranslational Equivalence”,In Procs.of the ACL97,pp.490-497,MadridSpain,1997 但是,上述专利文件1~3所公开的技术的翻译精度很大程度地依赖于语言的分析技术,在其分析精度不充分的现状下,存在着其翻译精度达不到所要求的水平的问题。此外,专利文件4所公开的技术是翻译支持技术,而不是自动提取短语译文的技术。 此外,非专利文件1所公开的技术使用了单词对齐技术,但是该技术回收率非常低,不能处理单词对译词典中不存在的未登记的单词。并且,如果译词具有多义性则不本文档来自技高网...

【技术保护点】
一种基于例句集合的翻译装置,其特征在于,该基于例句集合的翻译装置具有: 例句对译词典,其存储有多个第1语言例句和作为其对应译文的第2语言对译例句来作为例句对译组; 输入第1语言短语的单元; 从所述例句对译词典中选择包含所述 输入短语的多个例句对译组的单元; 分别提取所述多个例句对译组中的各例句对译组相互之间的共同部分的组的单元; 计算所述提取出的多个共同部分的组针对所述输入短语的支持程度的单元;以及 输出根据所述计算出的支持程度而选择出的共同 部分的组中的对译短语,来作为针对所述输入短语的第2语言译文的单元。

【技术特征摘要】
JP 2008-3-24 2008-0764971.一种基于例句集合的翻译装置,其特征在于,该基于例句集合的翻译装置具有例句对译词典,其存储有多个第1语言例句和作为其对应译文的第2语言对译例句来作为例句对译组;输入第1语言短语的单元;从所述例句对译词典中选择包含所述输入短语的多个例句对译组的单元;分别提取所述多个例句对译组中的各例句对译组相互之间的共同部分的组的单元;计算所述提取出的多个共同部分的组针对所述输入短语的支持程度的单元;以及输出根据所述计算出的支持程度而选择出的共同部分的组中的对译短语,来作为针对所述输入短语的第2语言译文的单元。2.根据权利要求1所述的基于例句集合的翻译装置,其特征在于,计算针对所述输入短语的支持程度的单元进一步包括在所述提取出的共同部分的各组中的第1语言例句之间的共同部分与输入短语处于预定的一致程度的情况下,选择其第2语言对应译文中的共同部分来作为译文候选的单元;以及对所述选择出的译文候选的出现次数进行计数,来表示其支持程度的单元。3.根据权利要求2所述的基于例句集合的翻译装置,其特征在于,在所述提取出的共同部分的各组中的第1语言例句之间的共同部分与输入短语完全一致的情况,或者所述共同部分包含输入短语、并且其对应译文中的共同部分成为译文候选的情况中的任意一种情况下,选择所述译文候选的单元选择其第2语言对应译文中的共同部分来作为译文候选。4.根据权利要求1、2或3所述的基于例句集合的翻译装置,其特征在于,在以下任意一种情况下,输出基于所述计算出的支持程度而选择出的共同部分的组中的对译短语来作为针对所述输入短语的第2语言译文的单元,输出出现次数最多的译文候选来作为针对所述输入短语的第2语言译文,即该出现次数最多的译文候选的该出现次数超过第1阈值的情况,或者该出现次数在第1阈值以下、...

【专利技术属性】
技术研发人员:刘绍明吴宏林胡海鹏
申请(专利权)人:富士施乐株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1