一种基于谓词论元结构的统计机器翻译方法技术

技术编号:8532876 阅读:306 留言:0更新日期:2013-04-04 15:54
本发明专利技术涉及一种基于谓词论元结构的统计机器翻译方法,所述方法包括如下步骤:对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的关系进行建模;利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,是一种新颖的基于谓词论元结构(简称为PAS)的统计机器翻译方法。
技术介绍
当前的统计机器翻译方法主要是从双语语料库中自动学习翻译规则,并利用这些规则对测试语句进行翻译的过程。统计机器翻译模型经历了基于词的、基于短语、以及基于句法结构的翻译模型,翻译质量也取得了长足的发展。然而,当前的翻译模型最多只考虑了句子的层次结构属性,而并没有对句子中的语义知识进行建模。 同时,调序(reordering) —直都是机器翻译研究中的一个既重要又困难的课题。当前的翻译模型对于局部调序(local reordering)进行了很好的建模。然而,对于全局调序(global reordering),也就是把句子的整体结构考虑在内的调序,当前的机器翻译模型并没有非常好的解决办法。因此,如果建立一个机器翻译模型,能够对句子的语义知识进行建模,同时又能够很好地处理全局调序问题,将大大推动机器翻译领域的发展,是一项富有挑战且非常有意义的工作。谓词论元结构体现了句子中一个谓词和它的所属论元之间的关系。因此,它从某种程度上就指示了句子的语义属性和主体的骨架结构。根据谓词论元结构的特性,发现它不仅仅提供了机器翻译所需要的语义知识,而且提供了一种骨架结构,可以用于在句子的骨架层面进行全局调序。同时,文献Pascale Fung, Wu Zhaojun, Yang Yongsheng,and Dekai ffu. (2006). Automatic learning of Chinese english semantic structuremapping.1nlEEE/ACL 2006 Workshop on Spoken Language Technology (SLT 2006)和Dekai Wu and Pascale Fung. (2009b). Semantic roles for smt A hybridtwo-passmodel.1n Proceedings of Human Language Technologies The 2009Annual Conferenceof the North American Chapter of the Association forComputational Linguistics,Companion Volume Short Papers还证明了两种语言之间的谓词论元结构比句法结构更能保持结构上的一致性。也就是说,由于当前的基于句法结构的翻译模型总是受到双语句子之间句法结构差异性的限制,谓词论元结构将是句法结构一个非常合适的替代品。
技术实现思路
(一 )要解决的技术问题本专利技术所要解决的技术问题是针对如何有效利用句子中的语义信息,并同时处理机器翻译过程中的全局调序问题,提出了。这种方法使得翻译模型能够充分使用待翻译句子的谓词论元结构中所携带的语义信息,并同时对句子在骨架层面的全局调序进行建模,以提高当前统计机器翻译系统的性能。( 二 )技术方案为了解决上述技术问题,本专利技术提供一种利用句子的谓词论元结构进行统计机器翻译的方法。所述方法包括如下步骤对所述双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的对应关系进行建模;利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述翻译规则的匹配和翻译结果,构造解码超图,最终生成翻译结果。根据本专利技术的优选实施例,所述抽取PAS转换规则的具体步骤如下步骤1:首先利用自动词对齐的结果对双语联合语义角色标注的结果进行修改,以确定双语谓词论元结构的对应关系;步骤2 :根据双语谓词论元结构的对应关系,抽取PAS转换规则。步骤3 :根据所获得的PAS转换规则,对这些规则进行泛化扩展。根据本专利技术的优选实施例,在源语言的谓词论元结构中,若存在多个论元对齐到目标语言的一个或多个论元的情况,不抽取PAS转换规则。根据本专利技术的优选实施例,利用基于谓词的规则翻译概率和基于源端谓词论元结构的规则翻译概率来衡量PAS转换规则的置信度。根据本专利技术的优选实施例,使用PAS转换规则匹配待翻译句子的多个语义角色标注结果时,只保留那些含有最多的论元或者覆盖了最多词汇的匹配结构。根据本专利技术的优选实施例,使用PAS转换规则匹配待翻译句子的多个语义角色标注结果时,使用结构匹配打分来衡量所获得的句子的谓词论元结构的置信度。根据本专利技术的优选实施例,使用PAS转换规则进行翻译时时,根据多个句法分析的结果,把间隔词汇附着到与其相邻的元素上。根据本专利技术的优选实施例,对匹配得到的谓词论元结构进行翻译时,使用基于CKY模式的解码算法进行翻译。根据本专利技术的优选实施例,生成翻译超图时,没有被谓词论元结构覆盖的跨度,使用传统的翻译方法生成翻译候选。根据本专利技术的优选实施例,生成翻译超图时,被谓词论元结构覆盖的跨度,使用PAS转换规则,或者传统的翻译方法生成翻译候选。(三)有益效果本专利技术的有益效果是谓词论元结构描述了句子中谓词和论元之间的关系。它既有效的表示了句子的语义信息,又定义了句子的一种全局骨架结构。本专利技术能够充分利用谓词论元结构中所携带的语义信息,又能够利用这种骨架结构进行有效的全局调序,对于基于语义的机器翻译有着重大的推动作用。附图说明图1是本专利技术的基于谓词论元结构的统计机器翻译方法的流程图;图2中(a)是一个双语联合语义角色标注的例子;(b)是完整的PAS转换规则示例;(c)是简化的PAS转换规则示例;图3是一个使用词对齐对双语联合语义角色标注的结果进行修改的例子;图4是一个示例句子所获得的多个语义角色标注的结果,以及最终的PAS转换规则匹配的结果;图5是一个利用句法分析树对间隔词进行附着的例子;图6是使用基于CKY模式的解码算法对目标端的谓词论元结构TP进行解码的例子;图7是本专利技术翻译超图的一个示例;图8是本专利技术翻译超图的一个示例。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术作进一步的详细说明。本专利技术提出了一种利用谓词论元结构(简称为PAS)进行统计机器翻译的方法。图1是本专利技术的总体流程图。如图1所示,本专利技术首先对双语语料中的双语句子进行自动分词、自动词对齐、句法分析以及双语联合语义角色标注。然后,根据双语联合语义角色标注的结果,抽取PAS转换规则,也就是能够把源语言句子的谓词论元结构转换为目标语言句子的谓词论元结构的规则。然后,本专利技术把机器翻译的过程分解为三个步骤1)PAS获取即通过语义角色标注获取待翻译句子的谓词论元结构,即PAS ;2)PAS转换使用前面从训练语料中得到的PAS转换规则,匹配待翻译句子的谓词论元结构,并利用规则将其转换为目标语言句子的谓词论元结构。3)PAS翻译根据目标语言句子的谓词论元结构,对各个论元和谓词的翻译结果进行合并,以获取最终的句子翻译结果。下面就以汉-英平行句子对作为一个实施例来详细阐述本专利技术的原理与实现方法。该方法包括以下各步骤1.对双语语料中的双语句子进行自动分词、自动词对齐、句法分析以及双语联合语义本文档来自技高网
...

【技术保护点】
基于谓词论元结构的统计机器翻译方法,其特征在于包括如下步骤:步骤1:基于谓词论元结构对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;步骤2:根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的关系进行建模;步骤3:利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;步骤4:根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果。

【技术特征摘要】
1.基于谓词论元结构的统计机器翻译方法,其特征在于包括如下步骤步骤1:基于谓词论元结构对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;步骤2 :根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规贝U,以对两种语言的谓词论元结构之间的关系进行建模;步骤3 :利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;步骤4 :根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果。2.根据权利要求1所述的基于谓词论元结构的统计机器翻译方法,其特征在于抽取 PAS转换规则的具体步骤如下步骤1:首先利用自动词对齐的结果对双语联合语义角色标注的结果进行修正,以确定双语谓词论元结构的对应关系;步骤2 :根据双语谓词论元结构的对应关系,抽取PAS转换规则。步骤3 :根据所获得的PAS转换规则,对这些规则进行泛化扩展。3.根据权利要求2所述的基于谓词论元结构的统计机器翻译方法,其特征在于,所述修正具体为对于没有对齐到目标端的源端论元,如果根据词对齐,其跨度和目标端的各个论元不交叉,而且这个跨度和源端论元的跨度满足对齐一致性,就把这个跨度作为一个虚拟的目标端论元用于抽取PAS转换规则;否则,不考虑这个源端论元;对于对齐到多个目标端论元的源端论元,找到能够覆盖所有与之对齐的目标端论元的最小的连续跨度,如果这个跨度和其他的目标端论元没有交叉,并且它和源端论元的跨度满足对齐一致性,把它作为一个虚拟的目标端论元用于抽取PAS转换规则;否则,不考虑这个源端论元;若存在多个源端论元对齐到一个或多个目标端论元的情况,则不抽取PAS转换规则。4.根据权利要求2所述的基于谓词论元结构的统计机器翻译方法,其特征在于,所述泛化扩展包括将谓词论元结构中的修饰论元和与它对齐的目标端论元丢弃掉,用剩余的结构构造一条新的PAS转换规则。5.根据权利要求1所述的基于谓词论元结构的统计机器翻译方法,其特征在于建模时利用基于谓...

【专利技术属性】
技术研发人员:宗成庆翟飞飞张家俊周玉
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1