一种基于谓词论元结构的统计机器翻译方法技术

技术编号：8532876 阅读：338 留言：0更新日期：2013-04-04 15:54

本发明专利技术涉及一种基于谓词论元结构的统计机器翻译方法，所述方法包括如下步骤：对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注；根据所述双语联合语义角色标注的结果，抽取所述双语句子对的PAS转换规则，以对两种语言的谓词论元结构之间的关系进行建模；利用所述PAS转换规则，匹配待翻译句子的多个语义角色标注结果，并相应进行翻译；根据所述PAS转换规则的匹配和翻译结果，构造翻译超图，最终生成翻译结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理
，是一种新颖的基于谓词论元结构(简称为PAS)的统计机器翻译方法。
技术介绍
当前的统计机器翻译方法主要是从双语语料库中自动学习翻译规则，并利用这些规则对测试语句进行翻译的过程。统计机器翻译模型经历了基于词的、基于短语、以及基于句法结构的翻译模型，翻译质量也取得了长足的发展。然而，当前的翻译模型最多只考虑了句子的层次结构属性，而并没有对句子中的语义知识进行建模。同时，调序(reordering) —直都是机器翻译研究中的一个既重要又困难的课题。当前的翻译模型对于局部调序(local reordering)进行了很好的建模。然而，对于全局调序(global reordering),也就是把句子的整体结构考虑在内的调序，当前的机器翻译模型并没有非常好的解决办法。因此，如果建立一个机器翻译模型，能够对句子的语义知识进行建模，同时又能够很好地处理全局调序问题，将大大推动机器翻译领域的发展，是一项富有挑战且非常有意义的工作。谓词论元结构体现了句子中一个谓词和它的所属论元之间的关系。因此，它从某种程度上就指示了句子的语义属性和主体的骨架结...

【技术保护点】
基于谓词论元结构的统计机器翻译方法，其特征在于包括如下步骤：步骤1：基于谓词论元结构对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注；步骤2：根据所述双语联合语义角色标注的结果，抽取所述双语句子对的PAS转换规则，以对两种语言的谓词论元结构之间的关系进行建模；步骤3：利用所述PAS转换规则，匹配待翻译句子的多个语义角色标注结果，并相应进行翻译；步骤4：根据所述PAS转换规则的匹配和翻译结果，构造翻译超图，最终生成翻译结果。

【技术特征摘要】
1.基于谓词论元结构的统计机器翻译方法，其特征在于包括如下步骤步骤1:基于谓词论元结构对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注；步骤2 :根据所述双语联合语义角色标注的结果，抽取所述双语句子对的PAS转换规贝U，以对两种语言的谓词论元结构之间的关系进行建模；步骤3 :利用所述PAS转换规则，匹配待翻译句子的多个语义角色标注结果，并相应进行翻译；步骤4 :根据所述PAS转换规则的匹配和翻译结果，构造翻译超图，最终生成翻译结果。2.根据权利要求1所述的基于谓词论元结构的统计机器翻译方法，其特征在于抽取 PAS转换规则的具体步骤如下步骤1:首先利用自动词对齐的结果对双语联合语义角色标注的结果进行修正，以确定双语谓词论元结构的对应关系；步骤2 :根据双语谓词论元结构的对应关系，抽取PAS转换规则。步骤3 :根据所获得的PAS转换规则，对这些规则进行泛化扩展。3.根据权利要求2所述的基于谓词论元结构的统计机器翻译方法，其特征在于，所述修正具体为对于没有对齐到目标端的源端论元，如果根据词对齐，其跨度和目标端的各个论元不交叉，而且这个跨度和源端论元的跨度满足对齐一致性，就把这个跨度作为一个虚拟的目标端论元用于抽取PAS转换规则；否则，不考虑这个源端论元；对于对齐到多个目标端论元的源端论元，找到能够覆盖所有与之对齐的目标端论元的最小的连续跨度，如果这个跨度和其他的目标端论元没有交叉，并且它和源端论元的跨度满足对齐一致性，把它作为一个虚拟的目标端论元用于抽取PAS转换规则；否则，不考虑这个源端论元；若存在多个源端论元对齐到一个或多个目标端论元的情况，则不抽取PAS转换规则。4.根据权利要求2所述的基于谓词论元结构的统计机器翻译方法，其特征在于，所述泛化扩展包括将谓词论元结构中的修饰论元和与它对齐的目标端论元丢弃掉，用剩余的结构构造一条新的PAS转换规则。5.根据权利要求1所述的基于谓词论元结构的统计机器翻译方法，其特征在于建模时利用基于谓...

【专利技术属性】
技术研发人员：宗成庆，翟飞飞，张家俊，周玉，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人