一种基于非连续短语的泛化重排序统计翻译方法及装置制造方法及图纸

技术编号：4328746 阅读：313 留言：0更新日期：2012-04-11 18:40

一种基于非连续短语的泛化重排序统计翻译方法及装置，由词对齐模块、语言模型模块、抽取短语模块、训练最大熵分类器模块，最小错误训练模块以及解码器组成装置，对基于短语的统计机器翻译给出泛化的重排序模型，引入非连续短语，对于给定的待翻译文种中的任何一个连续的串，利用规则来组合连续短语和非连续短语，来获取尽可能多的连续的目标翻译，同时与一个重排序的子模型结合，实现短语的局部和全局的重排序，得到该源语言句子的最后的目标翻译。该模型能够抓住短语的局部和全局重排序知识，而且能够通过非连续的短语获得短语的泛化能力。实验结果表明模型改善了基于最大熵的重排序模型和基于层次短语的翻译模型大约１．５４％ａｎｄ　０．６６％的ＢＬＥＵ打分。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理
，是一种新的基于非连续短语的泛化重排序统计翻译方法及装置。
技术介绍
在统计机器翻译中，基于短语的翻译模型已经改善了基于词的翻译模型。在基于短语的翻译模型中，短语是任意一个没有句法限制的连续的子串，它能够学习到一些局部知识，例如局部排序，或者多词表达的翻译，以及与局部上下文相关的词的插入和删除。但是，在基于短语的翻译模型中，缺少非连续短语、较弱的短语重排序能力和泛化能力等关键问题仍然没有得到有效的解决。为了改善基于短语的翻译模型，两个问题必须要解决。一是短语的类型，既要包括连续短语，又要涉及到非连续短语。二是短语的重排序问题。基于句法的翻译模型利用句法信息在这两个问题上做了有益的探索，成为统计机器翻译中的一个热点。一般情况下，基于句法的翻译模型按照句法知识源可以划分为两类：基于语言学句法的翻译模型和基于形式句法的翻译模型。基于语言学句法的翻译模型利用的句法结构来源于句法理论。它们的句法树要么来自短语结构...

【技术保护点】
一种基于非连续短语的泛化重排序统计翻译方法，步骤如下：　　　　训练步骤包括：　　　　ａ）对待翻译文种和翻译文种的平行训练语料，利用ＧＩＺＡ＋＋工具，从待翻译文种到翻译文种和翻译文种到待翻译文种两个方向，双向运行ＧＩＺＡ＋＋工具并应用启发式的修正规则为每一个句子对获取一个多对多的词对齐；　　　　ｂ）使用ＳＲＩＬＭ工具对训练语料的翻译文种进行训练，生成三元或者多元的语言模型；　　　　ｃ）在训练语料词对齐结果的基础上，抽取连续和非连续的短语翻译对并统计其概率信息；　　　　ｄ）在训练语料词对齐结果的基础上，抽取连续短语的重排序实例，训练最大熵分类器；　　　　ｅ）利用最小错误训练算法在开发集上训练翻译模...

【技术特征摘要】
1、一种基于非连续短语的泛化重排序统计翻译方法，步骤如下：训练步骤包括： a)对待翻译文种和翻译文种的平行训练语料，利用GIZA++工具，从待翻译文种到翻译文种和翻译文种到待翻译文种两个方向，双向运行 GIZA++工具并应用启发式的修正规则为每一个句子对获取一个多对多的词对齐； b)使用SRILM工具对训练语料的翻译文种进行训练，生成三元或者多元的语言模型； c)在训练语料词对齐结果的基础上，抽取连续和非连续的短语翻译对并统计其概率信息； d)在训练语料词对齐结果的基础上，抽取连续短语的重排序实例，训练最大熵分类器； e)利用最小错误训练算法在开发集上训练翻译模型参数；翻译步骤包括：在抽取的连续和非连续短语翻译对以及训练出的最大熵分类器的基础上，应用翻译模型参数，使用规则对待翻译文种句子进行翻译及顺序的调整，直至完成解码、翻译。 2、根据权利要求1所述的泛化重排序统计翻译方法，其特征在于，所述非连续的短语为带有一个间隔◇的非连续短语x1◇x2，只允许一个占位符◇来连接两个连续的非空的字符串x1和x2；◇作为一个间隔在翻译过程中被任何一个同一文种的连续的字符串来填充，生成具有最简单形式的连续短语用于在保证算法效率的基础上使得翻译模型具备一定的表达能力。 3、根据权利要求1所述的泛化重排序统计翻译方法，其特征在于，所述包含非连续的短语x1◇x2的短语翻译对具备四种形式： (1) x ↔ x ; ]]>(2)(3)(4)其中x、x1或者x2表示任意连续的非空的字符串。 4、根据权利要求3所述的泛化重排序统计翻译方法，其特征在于， -->所述的每一种短语翻译对允许在源语言端存在非连续短语，其中，短语翻译对的形式为和在源语言端具有连续的短语，而短语翻译对形式为和在源语言端具有非连续的短语。 5、根据权利要求3所述的泛化重排序统计翻译方法，其特征在于，所述每一种短语翻译对允许在目标语言端存在非连续短语，其中，短语翻译对的形式和在目标语言端具备连续的形式，而形式和形式在目标语言端是非连续的短语。 6、根据权利要求2所述的泛化重排序统计翻译方法，其特征在于，对于一个给定的待翻译文种的句子中的任何一个连续的字符串，利用组合待翻译文种端或者翻译文种端的连续短语或者非连续短语从而扩大该待翻译文种字符串的候选翻译的规则，获取尽可能多的连续的目标翻译。 7、根据权利要求6所述的泛化重排序统计翻译方法，其特征在于，规则包括从r1到r4的四个终结符规则和从r5到r11的7个非终结符规则，其中规则表达式为： r 1 : X X ...

【专利技术属性】
技术研发人员：宗成庆，何彦青，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人