一种基于依存句法树的翻译规则抽取方法和翻译方法技术

技术编号:8022381 阅读:425 留言:0更新日期:2012-11-29 04:38
本发明专利技术提供基于依存句法树的翻译规则抽取方法及翻译方法,将翻译调序关系直接表示于源端为中心词及其所有修饰成分组成的依存句法树片段、目标端为串的翻译规则中,从而使翻译规则可以明确地指导翻译过程。通过这种方法抽取的翻译规则,可以提高了基于依存句法树的翻译方法的性能。在154万平行双语语料数据集上,本发明专利技术的依存句法树到串翻译模型的性能较成分树到串模型提高1.68个BLEU点。

【技术实现步骤摘要】

本专利技术属于自然语言处理
,尤其涉及一种基于依存句法树的统计机器翻译方法。
技术介绍
依存文法是自然语言处理中最为流行的文法之一。与短语结构文法相比,依存文法兼具语法和语义信息,具有以下特点依存结构具有最好的短语结合性质(phrasalcohesion properties);依存边给出了语义信息。因此,依存文法是机器翻译领域中非常具有吸引力的资源。但是现有的依存句法树到串模型(参考文献I =Deyi Xiong, Qun Liu, andShouxun Lin. ADependency Treelet String Correspondence Model for StatisticalMachine Translation. In Proceedings of Second Workshop on Statistical Machine Translation. 2007.)以源语言依存句法树中的任意连通子图作为翻译规则的基本结构,这种翻译规则没有明确的语言学意义,更重要的是这种翻译规则不能表达全部的调序关系,需要借助启发式或调序模型来约束翻译得到的串的词序以完成整个翻译过程。此外,即使引入启发式或调序模型来约束翻译结果的词序,现有依存句法树到串模型的性能依然落后于主流的成分树到串模型(参考文献2 :Yang Liu, Qun Liu, and Shouxun Lin. 2006.Tree-to-String Alignment Template for Statistical Machine Translation. InProceedings of C0LING/ACL 2006,pages 609-616, Sydney, Australia, July. )
技术实现思路
因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种基于依存句法树的翻译方法,通过将调序关系直接表示于翻译规则中来提高翻译的性能。本专利技术的目的是通过下述技术方案实现的一方面,本专利技术提供了一种基于依存句法树的翻译规则抽取方法,包括以下步骤步骤I)对于三元组(源语言依存句法树、目标语言串、源语言与目标语言间的词语对齐关系),利用所述对齐关系对源语言依存句法树的每个节点η标记中心词跨度和依存跨度,所述中心词跨度是与η对齐的所有目标词的位置的集合;所述依存跨度指以η为根的子树中,所有对齐一致节点的中心词跨度的并集的闭包,所述对齐一致节点是指该节点的中心词跨度与依存句法树中其他节点的中心词跨度的交集为空;步骤2)对源语言依存树中对齐一致的节点,生成中心词规则;步骤3)对所标记的源语言依存句法树中的中心词-修饰词片段生成中心词-修饰词规则;其中所述中心词-修饰词片段为以中心(head)词为根节点,以修饰(dependent)词为孩子节点的依存句法树片段,所述中心词-修饰词规则的源语言端为中心词-修饰词(head-dependent)片段对应句子模式或短语模式的实例,其目标语言端为串,所述中心词-修饰词规则源语言端和目标语言端的变量的对应关系代表了源语言端和目标语言端之间的调序关系,所述变量包括词汇化约束变量和词性约束变量,对应词汇化约束变量的节点可由以该节点为根的子树替换,对应词性约束变量的节点可由与该节点词性相同的词替换。根据本专利技术实施例的翻译规则抽取方法,其中步骤3)对所标记的源语言依存句法树中满足如下条件的中心词-修饰词片段生成中心词-修饰词规则,所述条件包括(i)中心词节点的中心词跨度对齐一致,(ii)所有修饰词的依存跨度不为空,(iii)中心词节点的中心词跨度与所有修饰词的依存跨度不相交;根据本专利技术实施例的翻译规则抽取方法,步骤3)包括以下步骤 (3-1)将中心词-修饰词片段中对应于依存句法树中内部节点的节点标记为词汇化约束的变量,得到词汇化中心词-修饰词片段规则的源语言端;(3-2)按照中心词节点的中心词跨度及修饰词的依存跨度排列中心词-修饰词片段中的所有节点,对于其中的每个节点,a)如果该节点是词汇化的,且该节点为中心词节点或者对应于依存句法树的叶子节点,则用该节点中心词跨度对应的目标语言串替换该节点;b)如果该节点为依存句法树的内部节点,则用该节点对应的变量替换该节点;从而得到词汇化中心词-修饰词片段规则的目标语言端。根据本专利技术实施例的翻译规则抽取方法,步骤3)还包括以下步骤(3-3)改变词汇化中心词-修饰词规则的源语言端的一个或多个节点为非词汇化约束变量,得到非词汇化中心词-修饰词规则的源语言端;(3-4)如果被改变的节点对应于依存句法树的内部节点,则目标语言端不变;否贝U,将该节点对应的目标语言端端变为一个新的变量,得到非词汇化中心词-修饰词片段规则的目标语言端。又一方面,本专利技术还提供了一种基于依存句法树的翻译方法,包括以下步骤步骤5-1)通过分析源语言串得到源语言串的依存句法树;步骤5-2)遍历源语言串的依存句法树,通过枚举中心词-修饰词片段所对应修饰关系的所有实例的来对翻译规则集合和依存句法树进行匹配,直到访问源语言串的依存句法树的所有节点为止;其中,所述的翻译规则集合包括中心词-修饰词规则,所述中心词-修饰词规则的源语言端为中心词-修饰词片段对应句子模式或短语模式的实例,目标语言端为串,所述中心词-修饰词片段为以中心词为根节点,以修饰词为孩子节点的依存句法树片段,所述中心词-修饰词规则源语言端和目标语言端的变量的对应关系代表了源语言端和目标语言端之间的调序关系,所述变量包括词汇化约束变量和词性约束变量,对应词汇化约束变量的节点可由以该节点为根的子树替换,对应词性约束变量的节点可由与该节点词性相同的词替换。根据本专利技术实施例的翻译方法,所述步骤5-1)中通过依存句法分析器对源语言串进行分析获得源语言串的依存句法树。根据本专利技术实施例的翻译方法,所述步骤5-1)中通过成分树句法分析器分析源语言串得到成分句法树并将其映射为源语言串依存句法树。根据本专利技术实施例的翻译方法,所述步骤5-2)中所述的翻译规则是根据上面的实施例的翻译规则抽取方法得到的规则。根据本专利技术实施例的翻译方法,所述步骤5-2)包括以下步骤后序遍历源语言依存句法树,对于访问到的每个源语言串依存句法树的节点,步骤5-2-1)若该节点为叶子节点,则在翻译规则集合中查找以该节点为源端的翻译规则,使用找到的翻译规则翻译该节点,如果翻译规则中没有匹配的规则,则保持该节点不变;步骤5-2-2)如果该节点为内部节点,则枚举以该节点为中心词的中心词-修饰词 片段所对应修饰关系的所有词汇化与非词汇化实例,在翻译规则集合查找匹配的规则,使用找到的翻译规则进行翻译;步骤5-2-3)如果在步骤5-2-2)中没有找到匹配的翻译规则,则根据中心词-修饰词片段的词序进行顺序翻译;重复步骤5-2-1)、5-2_2)和5_2_3)直到访问了源语言串依存句法树的所有节点为止。与现有技术相比,本专利技术的优点在于直接将翻译调序信息表示于源端为中心(head)节点及其所有修饰(cbpendent)节点组成的树片段、目标端为串的翻译规则中,更好的利用了依存句法树包含的语法和语义知识,从而使翻译规则可以明确地指导翻译过程。在154万平行双语语料数据集上,本专利技术实施例中的依存句法树到本文档来自技高网
...

【技术保护点】
一种基于依存句法树的翻译规则抽取方法,包括以下步骤:步骤1)对于三元组(源语言依存句法树、目标语言串、源语言与目标语言间的词语对齐关系),利用所述对齐关系对源语言依存句法树的每个节点n标记中心词跨度和依存跨度,所述中心词跨度是与n对齐的所有目标词的位置的集合;所述依存跨度指以n为根的子树中,所有对齐一致节点的中心词跨度的并集的闭包,所述对齐一致节点是指该节点的中心词跨度与依存句法树中其他节点的中心词跨度的交集为空;步骤2)对源语言依存树中对齐一致的节点,生成中心词规则;步骤3)对所标记的源语言依存句法树中的中心词?修饰词片段生成中心词?修饰词规则;其中所述中心词?修饰词片段为以中心词为根节点,以修饰词为孩子节点的依存句法树片段,所述中心词?修饰词规则的源语言端为中心词?修饰词片段对应句子模式或短语模式的实例,其目标语言端为串,所述中心词?修饰词规则源语言端和目标语言端的变量的对应关系代表了源语言端和目标语言端之间的调序关系,所述变量包括词汇化约束变量和词性约束变量,对应词汇化约束变量的节点可由以该节点为根的子树替换,对应词性约束变量的节点可由与该节点词性相同的词替换。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:谢军米海涛刘群
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1