【技术实现步骤摘要】
本专利技术涉及自然语言处理
,是一种新的基于非连续短语的 泛化重排序统计翻译方法及装置。
技术介绍
在统计机器翻译中,基于短语的翻译模型已经改善了基于词的翻译 模型。在基于短语的翻译模型中,短语是任意一个没有句法限制的连续 的子串,它能够学习到一些局部知识,例如局部排序,或者多词表达的 翻译,以及与局部上下文相关的词的插入和删除。但是,在基于短语的 翻译模型中,缺少非连续短语、较弱的短语重排序能力和泛化能力等关 键问题仍然没有得到有效的解决。 为了改善基于短语的翻译模型,两个问题必须要解决。一是短语的 类型,既要包括连续短语,又要涉及到非连续短语。二是短语的重排序 问题。基于句法的翻译模型利用句法信息在这两个问题上做了有益的探 索,成为统计机器翻译中的一个热点。一般情况下,基于句法的翻译模 型按照句法知识源可以划分为两类:基于语言学句法的翻译模型和基于 形式句法的翻译模型。 基于语言学句法的翻译模型利用的句法结构来源于句法理论。它们 的句法树要么来自短语结构的分析器,要么来自依存句法分析器。所有 这些语言学句法的翻译方法使用句法结构知识来增强它们的重排序能 力,也使用了非连续短语来获得短语的泛化能力。但是,这些模型高度 依赖于句法分析器,翻译模型的表现也受到句法分析器的准确性的限制。 基于形式句法的翻译模型采用了一个简单并且有效的机制,它利用 同步上下文无关文法,并不依赖于任何句法标注就可以从平行文本中归 纳出文法 ...
【技术保护点】
一种基于非连续短语的泛化重排序统计翻译方法,步骤如下: 训练步骤包括: a)对待翻译文种和翻译文种的平行训练语料,利用GIZA++工具,从待翻译文种到翻译文种和翻译文种到待翻译文种两个方向,双向运行GIZA++工具并应用启发式的修正规则为每一个句子对获取一个多对多的词对齐; b)使用SRILM工具对训练语料的翻译文种进行训练,生成三元或者多元的语言模型; c)在训练语料词对齐结果的基础上,抽取连续和非连续的短语翻译对并统计其概率信息; d)在训练语料词对齐结果的基础上,抽取连续短语的重排序实例,训练最大熵分类器; e)利用最小错误训练算法在开发集上训练翻译模型参数; 翻译步骤包括: 在抽取的连续和非连续短语翻译对以及训练出的最大熵分类器的基础上,应用翻译模型参数,使用规则对待翻译文种句子进行翻译及顺序的调整,直至完成解码、翻译。
【技术特征摘要】
1、一种基于非连续短语的泛化重排序统计翻译方法,步骤如下: 训练步骤包括: a)对待翻译文种和翻译文种的平行训练语料,利用GIZA++工具, 从待翻译文种到翻译文种和翻译文种到待翻译文种两个方向,双向运行 GIZA++工具并应用启发式的修正规则为每一个句子对获取一个多对多 的词对齐; b)使用SRILM工具对训练语料的翻译文种进行训练,生成三元或者 多元的语言模型; c)在训练语料词对齐结果的基础上,抽取连续和非连续的短语翻译对 并统计其概率信息; d)在训练语料词对齐结果的基础上,抽取连续短语的重排序实例,训 练最大熵分类器; e)利用最小错误训练算法在开发集上训练翻译模型参数; 翻译步骤包括: 在抽取的连续和非连续短语翻译对以及训练出的最大熵分类器的基 础上,应用翻译模型参数,使用规则对待翻译文种句子进行翻译及顺序 的调整,直至完成解码、翻译。 2、根据权利要求1所述的泛化重排序统计翻译方法,其特征在于, 所述非连续的短语为带有一个间隔◇的非连续短语x1◇x2,只允许一个占 位符◇来连接两个连续的非空的字符串x1和x2;◇作为一个间隔在翻译 过程中被任何一个同一文种的连续的字符串来填充,生成具有最简单形 式的连续短语用于在保证算法效率的基础上使得翻译模型具备一定的表 达能力。 3、根据权利要求1所述的泛化重排序统计翻译方法,其特征在于, 所述包含非连续的短语x1◇x2的短语翻译对具备四种形式: (1) x ↔ x ; ]]>(2)(3)(4)其中x、x1或者x2表示任意连续的非空的字符串。 4、根据权利要求3所述的泛化重排序统计翻译方法,其特征在于, -->所述的每一种短语翻译对允许在源语言端存在非连续短语,其中, 短语翻译对的形式为和在源语言端具有连续的短语,而 短语翻译对形式为和在源语言端具有非连续的 短语。 5、根据权利要求3所述的泛化重排序统计翻译方法,其特征在于, 所述每一种短语翻译对允许在目标语言端存在非连续短语,其中,短语 翻译对的形式和在目标语言端具备连续的形式,而形式 和形式在目标语言端是非连续的短语。 6、根据权利要求2所述的泛化重排序统计翻译方法,其特征在于, 对于一个给定的待翻译文种的句子中的任何一个连续的字符串,利用组 合待翻译文种端或者翻译文种端的连续短语或者非连续短语从而扩大该 待翻译文种字符串的候选翻译的规则,获取尽可能多的连续的目标翻译。 7、根据权利要求6所述的泛化重排序统计翻译方法,其特征在于, 规则包括从r1到r4的四个终结符规则和从r5到r11的7个非终结符规则,其 中规则表达式为: r 1 : X X ...
【专利技术属性】
技术研发人员:宗成庆,何彦青,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。