统计机器翻译制造技术

技术编号:2861439 阅读:177 留言:0更新日期:2012-04-11 18:40
一种方法包括检测第一语言的源串中的句法块,将句法标签分配给源串中被检测的句法块,将源串中被检测的句法块映射到第二语言的目标串中的句法块,所述映射基于所分配的句法标签,以及将源串翻译成第二语言的可能翻译。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
相关申请对照本申请要求2002年3月28日提交的美国临时申请序号No.60/368851的优先权,在此全文并入以供参考。专利技术起因本申请中描述的研究和开发在准许号N66001-00-1-8914下由DARPA-ITO支持。美国政府可以具有所要求的本专利技术的某些权利。背景机器翻译(MT)是自动翻译,例如使用计算机系统从第一语言(“源”语言)翻译成另一种语言(“目标”语言)。执行MT过程的系统被称为将源语言“解码”成目标语言。从最终用户的观点来看,MT过程是相对直接的。MT过程接收作为输入的源句子(或者单词的“串”)并在处理该输入句子后输出目标语言的翻译句子。一种类型的MT过程被称作统计MT解码器。常规统计MT解码器可以包括语言模型(LM)和翻译模型(TM)。概述根据本专利技术的一个方面,一种方法包括在第一语言的第一串中检测句法块,将句法标签分配给第一串中被检测的句法块,将第一串中被检测的句法块与第二语言串中的句法块对准,所述对准基于被分配的句法标签,以及将来自第一串的每个单词翻译成对应于第二语言中可能的翻译的第二单词。还可以包括一个或多个以下特点。根据标记给至少两个单词的词性标识符来分组来自第一串的这至少两个单词。限定源串中被检测的句法块和第二串中的块之间的连接。根据块映射表确定连接,该块映射表使用基于句法块标签的预先限定的连接。限定第一串的被检测块与目标串中的至少两个非相邻块之间的连接。限定源串的至少两个被检测块到目标串中的单个块的连接。附图概述附图说明图1是语言统计翻译(LST)过程的流程图。图2示出实例性的源和目标句子。图3示出与图2的句子相对应的句子层次块重新排序表。图4示出与图2-3相对应的块映射对准表。图5示出与图1-4相对应的单词翻译。图6示出LST过程的第二实施例。 具体实施例方式这里描述的统计MT系统可以被模拟成三个分开的部分(1)将概率P(e)分配给单词的任何目标串的语言模型(LM),(2)将概率P(f|e)分配给目标和源串的任何对的翻译模型(TM),以及(3)根据LM和TM的被分配概率确定翻译的解码器。常规MT系统可以通过进行一连串基于单词的判定将源句子翻译成目标句子。基于单词的判定可以包括翻译判定,其中每个源单词都被翻译成目标单词。也可以为每个被翻译单词执行映射(“对准”)判定,例如根据被翻译源单词的被确定的丰度将多个源单词映射到单个目标单词。也可以执行重新排列(“变形”)判定,例如将源句子的单词序列重新排列成相应的目标句子中的被翻译的单词。翻译、映射和变形判定基于在翻译过程期间确定的权重概率。某些源句子引起翻译的挑战,它们不能通过常规基于单词的MT系统得到良好的处理。例如,翻译挑战包括短语的翻译、出于句法原因重新组织句子以及将非相邻单词翻译成目标句子中的单个单词或短语。图1描述了一种语言统计翻译模型(LST)过程10,它包括接收要翻译源句子(15),为源句子中的每个源单词分配“词性”(POS)标记(20),以及检测源句子中包含的句法“块”(30)。LST过程10还包括动作(40)、(50)和(60),它们部分基于被分配的POS标记和/或被检测的句法块。过程10中POS标记和/或句法块的使用允许改善源到目标句子的翻译,以及部分改善前述翻译挑战的串翻译。POS标记涉及表示单词类型的识别符号,例如“VVFIN”符号可以被标记为限定动词。可以用于过程10中的一组实例性POS标记被称作“Penn Treebank Tag set”,并描述于Mitchell P.Marcus,Beatrice Santorini和Mary Ann Marcinkiewicz“Building a Large Annotated Corpus of EnglishThe Penn Treebank”,inComputational Linguistics,卷19,号2(1993年6月),pp.313-330(SpecialIssue on Using Large Corpora),在此全文并入以供参考。分块涉及非递归(non-recursive)的动词、名词、介词或句子中的其它短语的分组。分块可以包括检测源句子中的分组和目标句子中块组合的输出。在Abney,S.(1991)“Parsing by chunks(通过块分析)”Robert Berwick,Steven Abney和Carol TennyPrinciple-based Parsing(基于原理的分析).Kluwer AcademicPublishers中讨论了分块的概念。仍旧参考图1,LST过程10包括接收要翻译的输入源句子(15),用POS标记来标记源句子中的每个单词(20),检测每个源句子中的句法块(例如,短语)(30),句子层次块的重新排序(40),将被检测的源块映射到目标句子中的目标块(50),以及将每个单词从源翻译到目标句子(60)。可以采用可选的目标语言模型(70)进一步改进通过动作(60)产生的单词翻译。图2示出实例性的源句子100,其中每个单词都具有动作(20)中生成的相关POS标记110-116,以及动作(30)中生成的被检测句法块101-105。被检测的块101-105还分别包括句法标签,例如“N,V,N,V和!”。句法标签涉及用于被检测块的句子的句法部分,例如,“N”可以表示基本名词短语,“V”可以表示动词复合,“P”可以表示基本介词短语,“A”可以表示形容词,“F”可以表示功能词,而“!”可以表示标点。句子层次块的重新排序(40)限定每个源块101-106和将包含于目标句子150中的相应目标块130-134之间的连接120-125。在许多情况下,相对于源块重新排序目标块。该重新排序可以基于限定被检测句法块和目标句子中相应的句法块之间可能连接的模板。连接可以是单值或多值的(例如,一对一、多对多、或者一对多等等)。图3示出块连接表160,它表示源块101-105与目标块130-134之间的连接120-125,与图2中示出的那些相对应。图4示出块映射表170、180、190和200,它们表示通过过程10的活动(50)产生的块映射,如应用于实例性句子100的那样。块映射涉及每个源块到目标块的对准并可以按照源块中的单词和目标块中的单词的POS标记参考。例如,如表170所示,源POS标记110(“ART”)和111(“NN”)被对准到目标POS标记140(“DT”)和141(“NNP”)。块映射可以将多个块(“复合块”)映射到单个块或其它复合块。例如,如表190所示,源块103被对准到包含目标块130和131的复合块。来自源句子110的非相邻块可以被组合成单个块,例如,如表180所示,将块102和104组合成目标块132。如前所述,可以用被分配的句法块标签来“标注”每个复合块。该标注可以允许改善句子层次的块重新排序,因为句法标签可以识别它们在句子中的句法作用。随后,过程10将来自源语言句子的源单词翻译成目标语言句子的单词(60)。可以部分根据分配给相应源单词的词性(通过块映射选择)来确定单词翻译,例如限制与分配的POS标记相对应的单词的选择。图5描述了来自过程10的活动(60)的执行,例如描述了与图1-4所示的实例相对应的单本文档来自技高网...

【技术保护点】
一种方法,其特征在于,包括:检测第一语言的源串中的句法块;将句法标签分配给源串中被检测的句法块;将源串中被检测的句法块映射到第二语言的目标串中的句法块,所述映射基于所分配的句法标签;以及将源串翻译成第二语言的 可能的翻译。

【技术特征摘要】
US 2002-3-28 60/368,8511.一种方法,其特征在于,包括检测第一语言的源串中的句法块;将句法标签分配给源串中被检测的句法块;将源串中被检测的句法块映射到第二语言的目标串中的句法块,所述映射基于所分配的句法标签;以及将源串翻译成第二语言的可能的翻译。2.如权利要求1所述的方法,其特征在于,分配句法标签的步骤包括根据标记给源串中的单词的词性标识符进行分配。3.如权利要求1所述的方法,其特征在于,进一步包括限定源串中被检测的句法块和目标串中的块之间的连接。4.如权利要求3所述的方法,其特征在于,限定连接的步骤包括根据块映射表确定连接,该块映射表使用根据句法块标签预先限定的连接。5.如权利要求3所述的方法,其特征在于,限定连接的步骤包括限定来自源串的被检测块与目标串中至少两个非相邻块之间的连接。6.如权利要求3所述的方法,其特征在于,限定连接的步骤包括限定来自源串的至少两个被检测的块到目标串中的单个块的连接。7.如权利要求1所述的方法,其特征在于,翻译包括纳入与源串中的单个单词相对应的目标串中的至少两个单词。8.如权利要求1所述的方法,其特征在于,翻译包括翻译短语。9.如权利要求1所述的方法,其特征在于,进一步包括将语言模型应用于源串,该语言模型基于目标串的语言。10.如权利要求1所述的方法,其特征在于,进一步包括确定所述映射的概率。11.如权利要求1所述的方法,其特征在于,翻译包括在目标串中插入至少一个NULL单词。12.一种包括含机器可执行指令的机器可读介质的制品,该指令用于使得机器检测第一语言的源串中的句法块;将句法标签分配给源串中的被检测句法块;使源串中...

【专利技术属性】
技术研发人员:P克伊赫恩K克奈特
申请(专利权)人:南加利福尼亚大学
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1