一种基于非连续短语的泛化重排序统计翻译方法及装置制造方法及图纸

技术编号:4328746 阅读:295 留言:0更新日期:2012-04-11 18:40
一种基于非连续短语的泛化重排序统计翻译方法及装置,由词对齐模块、语言模型模块、抽取短语模块、训练最大熵分类器模块,最小错误训练模块以及解码器组成装置,对基于短语的统计机器翻译给出泛化的重排序模型,引入非连续短语,对于给定的待翻译文种中的任何一个连续的串,利用规则来组合连续短语和非连续短语,来获取尽可能多的连续的目标翻译,同时与一个重排序的子模型结合,实现短语的局部和全局的重排序,得到该源语言句子的最后的目标翻译。该模型能够抓住短语的局部和全局重排序知识,而且能够通过非连续的短语获得短语的泛化能力。实验结果表明模型改善了基于最大熵的重排序模型和基于层次短语的翻译模型大约1.54%and 0.66%的BLEU打分。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,是一种新的基于非连续短语的 泛化重排序统计翻译方法及装置。
技术介绍
在统计机器翻译中,基于短语的翻译模型已经改善了基于词的翻译 模型。在基于短语的翻译模型中,短语是任意一个没有句法限制的连续 的子串,它能够学习到一些局部知识,例如局部排序,或者多词表达的 翻译,以及与局部上下文相关的词的插入和删除。但是,在基于短语的 翻译模型中,缺少非连续短语、较弱的短语重排序能力和泛化能力等关 键问题仍然没有得到有效的解决。 为了改善基于短语的翻译模型,两个问题必须要解决。一是短语的 类型,既要包括连续短语,又要涉及到非连续短语。二是短语的重排序 问题。基于句法的翻译模型利用句法信息在这两个问题上做了有益的探 索,成为统计机器翻译中的一个热点。一般情况下,基于句法的翻译模 型按照句法知识源可以划分为两类:基于语言学句法的翻译模型和基于 形式句法的翻译模型。 基于语言学句法的翻译模型利用的句法结构来源于句法理论。它们 的句法树要么来自短语结构的分析器,要么来自依存句法分析器。所有 这些语言学句法的翻译方法使用句法结构知识来增强它们的重排序能 力,也使用了非连续短语来获得短语的泛化能力。但是,这些模型高度 依赖于句法分析器,翻译模型的表现也受到句法分析器的准确性的限制。 基于形式句法的翻译模型采用了一个简单并且有效的机制,它利用 同步上下文无关文法,并不依赖于任何句法标注就可以从平行文本中归 纳出文法,改善了基于短语的翻译模型。吴德凯的括号转录文法(BTG) 能够对任意两个相邻的待翻译文种的字符串的翻译进行顺序或者逆序的 -->重排序。由于BTG能够很好地平衡算法的有效性和语言的表达能力之间 的关系,所以它在统计机器翻译中得到了广泛的应用。熊德意提出一个 基于最大熵的重排序模型来加强BTG(MEBTG,又称为最大熵括号转录 文法),但是无论在BTG还是MEBTG中,短语都只涉及到连续的字符串。 蒋伟提出的基于层次短语的翻译模型(HPTM)通过将子短语归约为变量来 组织层次短语,不仅对短语进行了重排序,而且将一些短语的泛化整合 到模型的全局。
技术实现思路
一、要解决的技术问题 现存的基于短语的翻译的基于短语的翻译模型有的不能处理非连续 短语,有的只是通过规则来重排短语,缺乏有效的重排序模型;本专利技术 的目的在于引入非连续短语,与一个重排序的子模型结合,实现了短语 的局部和全局的重排序,从而完成从待翻译文种到翻译文种的翻译,为 此而提供一种基于非连续短语的泛化重排序统计翻译方法及装置。 二、解决技术问题的技术方案 为达成所述目的,本专利技术第一方面,是提供基于非连续短语的泛化 重排序统计翻译方法,分为训练过程和翻译过程两部分,具体过程如下: 训练过程包括: a)对待翻译文种和翻译文种的平行训练语料,利用GIZA++工具, 从待翻译文种到翻译文种和翻译文种到待翻译文种两个方向,得到双向 的GIZA++的词对齐结果,并应用启发式的修正规则为每一个句子对获取 一个多对多的词对齐。 b)使用SRILM工具对训练语料的翻译文种进行训练,生成三元或者 多元的语言模型。 c)在训练语料词对齐结果的基础上,抽取连续和非连续的短语翻译对 并统计其概率信息; d)在训练语料词对齐结果的基础上,抽取连续短语的重排序实例,训 练最大熵分类器。 e)利用最小错误训练算法在开发集上训练我们的翻译模型参数。 -->翻译过程包括: 在抽取的连续和非连续短语翻译对以及训练出的最大熵分类器的基 础上,应用我们的翻译模型参数,使用我们的规则进行推导,相当于对 待翻译文种句子进行翻译及顺序的调整,直至完成翻译。也就是我们的 解码过程。 为达成所述目的,本专利技术第二方面,是提供一种基于非连续短语的 泛化重排序统计翻译装置,由词对齐模块、语言模型模块、抽取短语模 块、训练最大熵分类器模块,最小错误训练模块以及解码器组成,其中: 词对齐模块接收训练语料,用于对待翻译文种和翻译文种平行训练 语料,利用GIZA++工具从待翻译文种到翻译文种和翻译文种到待翻译 文种两个方向,得到双向的GIZA++词对齐结果并应用启发式修正规则 为每一个句子对获取并输出一个多对多的词对齐结果; 语言模型模块接收训练语料,使用SRILM工具对训练语料的翻译文 种训练,生成三元或者多元的语言模型; 抽取短语模块与词对齐模块连接,接收词对齐模块在训练语料的词 对齐结果,用于抽取连续和非连续的短语翻译对并统计其概率信息; 训练最大熵分类器模块与词对齐模块连接,接收词对齐模块在训练 语料的词对齐结果,用于抽取连续短语的重排序实例,训练并生成最大 熵重排序分类器; 最小错误训练模块接收开发集,利用最小错误训练算法在开发集上 训练并输出翻译模型参数; 解码器分别与训练最大熵分类器模块、抽取短语模块和最小错误训 练模块连接,接收抽取短语模块抽取的连续和非连续短语翻译对,用训 练最大熵分类器模块训练出的最大熵分类器、最小错误训练模块的翻译 模型参数,并使用规则组合抽取短语模块抽取的连续和非连续短语翻译 对,对待翻译文种句子进行翻译及顺序的调整,获得待翻译文种的翻译。 本专利技术的有益效果:受HPTM和MEBTG的启发,本专利技术提出一个泛 化的重排序模型(GREM),它引入非连续短语,与一个重排序的子模型 (MEBTG)结合,实现了短语的局部和全局的重排序。和MEBTG或者 BTG相比,我们的模型通过引入非连续短语具备了更大的泛化能力。较之 -->HPTM,HPTM没有这样一个基于最大熵的重排序子模型,它只是通过规 则来重排序,而且HPTM的规则要比我们的模型多,因为我们的非连续 短语只允许一个间隔在待翻译文种端或者翻译文种端,而HPTM的层次 短语可能有2到3个变量。 另外一个涉及到非连续短语的工作,是斯玛德(Simard)第一个 将多词表达引入统计机器翻译,它在待翻译文种端或者翻译文种端不 必是连续的,遗憾的是该方法中非连续短语的间隔(Gap)只能允许一 个词。这样限制了非连续短语的泛化能力,我们的模型允许间隔可以 被任意连续的词序列来填充,而且我们的模型引入了MEBTG具备了 更大的全局的重排序能力。 该模型不仅能够抓住短语的局部和全局重排序知识,而且能够通 过非连续的短语获得短语的一定的泛化能力。实验结果表明我们的模 型GREM分别改善了基于最大熵的重排序模型和基于层次短语的翻译 模型大约1.54%and 0.66%的双语评估替代标准(Bilingual Evaluation Unders本文档来自技高网
...

【技术保护点】
一种基于非连续短语的泛化重排序统计翻译方法,步骤如下:    训练步骤包括:    a)对待翻译文种和翻译文种的平行训练语料,利用GIZA++工具,从待翻译文种到翻译文种和翻译文种到待翻译文种两个方向,双向运行GIZA++工具并应用启发式的修正规则为每一个句子对获取一个多对多的词对齐;    b)使用SRILM工具对训练语料的翻译文种进行训练,生成三元或者多元的语言模型;    c)在训练语料词对齐结果的基础上,抽取连续和非连续的短语翻译对并统计其概率信息;    d)在训练语料词对齐结果的基础上,抽取连续短语的重排序实例,训练最大熵分类器;    e)利用最小错误训练算法在开发集上训练翻译模型参数;    翻译步骤包括:    在抽取的连续和非连续短语翻译对以及训练出的最大熵分类器的基础上,应用翻译模型参数,使用规则对待翻译文种句子进行翻译及顺序的调整,直至完成解码、翻译。

【技术特征摘要】
1、一种基于非连续短语的泛化重排序统计翻译方法,步骤如下: 训练步骤包括: a)对待翻译文种和翻译文种的平行训练语料,利用GIZA++工具, 从待翻译文种到翻译文种和翻译文种到待翻译文种两个方向,双向运行 GIZA++工具并应用启发式的修正规则为每一个句子对获取一个多对多 的词对齐; b)使用SRILM工具对训练语料的翻译文种进行训练,生成三元或者 多元的语言模型; c)在训练语料词对齐结果的基础上,抽取连续和非连续的短语翻译对 并统计其概率信息; d)在训练语料词对齐结果的基础上,抽取连续短语的重排序实例,训 练最大熵分类器; e)利用最小错误训练算法在开发集上训练翻译模型参数; 翻译步骤包括: 在抽取的连续和非连续短语翻译对以及训练出的最大熵分类器的基 础上,应用翻译模型参数,使用规则对待翻译文种句子进行翻译及顺序 的调整,直至完成解码、翻译。 2、根据权利要求1所述的泛化重排序统计翻译方法,其特征在于, 所述非连续的短语为带有一个间隔◇的非连续短语x1◇x2,只允许一个占 位符◇来连接两个连续的非空的字符串x1和x2;◇作为一个间隔在翻译 过程中被任何一个同一文种的连续的字符串来填充,生成具有最简单形 式的连续短语用于在保证算法效率的基础上使得翻译模型具备一定的表 达能力。 3、根据权利要求1所述的泛化重排序统计翻译方法,其特征在于, 所述包含非连续的短语x1◇x2的短语翻译对具备四种形式: (1) x ↔ x ; ]]>(2)(3)(4)其中x、x1或者x2表示任意连续的非空的字符串。 4、根据权利要求3所述的泛化重排序统计翻译方法,其特征在于, -->所述的每一种短语翻译对允许在源语言端存在非连续短语,其中, 短语翻译对的形式为和在源语言端具有连续的短语,而 短语翻译对形式为和在源语言端具有非连续的 短语。 5、根据权利要求3所述的泛化重排序统计翻译方法,其特征在于, 所述每一种短语翻译对允许在目标语言端存在非连续短语,其中,短语 翻译对的形式和在目标语言端具备连续的形式,而形式 和形式在目标语言端是非连续的短语。 6、根据权利要求2所述的泛化重排序统计翻译方法,其特征在于, 对于一个给定的待翻译文种的句子中的任何一个连续的字符串,利用组 合待翻译文种端或者翻译文种端的连续短语或者非连续短语从而扩大该 待翻译文种字符串的候选翻译的规则,获取尽可能多的连续的目标翻译。 7、根据权利要求6所述的泛化重排序统计翻译方法,其特征在于, 规则包括从r1到r4的四个终结符规则和从r5到r11的7个非终结符规则,其 中规则表达式为: r 1 : X X ...

【专利技术属性】
技术研发人员:宗成庆何彦青
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1