一种基于谓词论元结构的层次机器翻译方法及系统技术方案

技术编号:9667889 阅读:148 留言:0更新日期:2014-02-14 06:18
本发明专利技术涉及一种基于谓词论元结构的层次机器翻译方法及系统,包括训练和翻译过程,将句子中所有的谓词论元结构有机的组织成图状结构,再将此结构作为改进层次短语机器翻译的顶层语义骨架结构,从而直接将谓词论元结构建模到层次短语机器翻译中,将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文,由此得到的译文具有更好的语义相关性、语义结构和长距离调序特征,并因此降低了机器翻译生成毫无意义译文的概率。

【技术实现步骤摘要】
一种基于谓词论元结构的层次机器翻译方法及系统
本专利技术涉及自然语言处理
,具体地说,涉及一种基于谓词语义结构的机器翻译方法及系统。
技术介绍
对于机器翻译而言,语义信息是非常重要的信息。专利技术专利“基于语义的机器翻译系统及方法”公开了一种基于语义的自然语言机器翻译方法,用于将原始语种的原文自动地翻译成一个或多个目的语种的译文,该方法包括如下步骤:提取原文的一句;根据语义单元表示库,对该句进行语义分析,从而得到该句的句义表达式;根据语义单元表示库,将该句义表达式用目的语种的语义单元表示进行展开;将展开后的句子作为译文输出。本专利技术机器翻译方法可以高效的同时翻译多种目的语种的译文。基本翻译方法和语义获取和使用方法均不相同。该专利是基于规则机器翻译方法的,利用人工定义的语义规则来进行语义处理的。专利技术专利“一种基于语义模板的问题自动翻译方法及其系统”公开了专利摘要:本专利技术公开了一种基于语义模板的问题自动翻译方法及其系统,其中该方法包括:模板获取步骤,用于获取与用户提出的问题最相关的语义模板;模板映射步骤,用于将最相关的语义模板映射到目标语言模板,得到问题的可填充项及可填充项对应于目标语言模板中的语义标签;语义选择步骤,用于对可填充项进行自动翻译,得到可填充项的所有语义;利用语义标签从所有语义中选择可填充项的最佳语义,将最佳语义填充到目标语言模板中,得目标语言问题。本专利技术能够对交互式问答系统中用户提出的问题进行自动翻译,实现了不同语言用户之间的无障碍交流。基本翻译方法和语义获取和使用方法均不相同。该专利是基于规则机器翻译方法的,利用人工定义的语义模板来进行翻译的。专利技术专利“一种语义约定全文翻译系统和方法”公开了一种语义约定全文翻译系统和方法。该翻译系统和方法作为一种多语通用的人机交互自然语言翻译技术可以满足以下要求:保证语义信息传递质量;人机交互只需使用母语;可自动转换为多种语言译文。本专利技术可用于短信、电子邮件、网页和各类数据库(比如数字图书馆)信息翻译,可提供电子商务多语洽谈、多语交流专线、多语共享BBS,并且可以以短信通讯方式实现任意语言用户之间的远程和面对面多语交流。该方法将不同语言的词汇映射到相同的语义信息上去,利用该信息直接进行翻译。该方法系规则翻译方法,且歧义极大。专利技术专利“语言翻译系统”公开了用户可以在各种语言之间通信的一种语言转换系统。翻译单元(300)将构建自然语言表达的自然语言的组元翻译为对应于该组元并进入通用语言字典(210)的通用语言元素。翻译规则(220)被应用于经翻译的通用语言元素,由此根据该次序创建以二项式关系表达的通用语言的表达。反翻译部分(350)根据包括在所述翻译规则中的以二元关系表达的规则、参考所述翻译规则(220)将以所述二元关系表达的通用语言的表达解析为构建连接的通用语言元素。参考通用语言(210),将已解析的通用语言元素翻译为构建自然语言表达的组元,由此创建自然语言的表达。该专利技术是一种自然语言的简单翻译技术,基本翻译方法为规则方法,并未在翻译过程中涉及任何语义相关处理,也未使用任何与谓词语义相关的语义算法及结构。可见,目前大部分的统计机器翻译模型都没有对语义结构进行直接建模。语义结构和句法结构是两种独立的结构。任何结构都包括两方面内容,一是成分,二是成分关系。在成分方面,语义结构有施事、受事、谓词等成分,句法结构有主语、谓语、宾语等成分。语义结构的最小单位是语义词(又叫义位),最大单位是义句;句法结构的最小单位是词汇词(又叫词位)。谓词论兀结构(PAS:Predicate Argument Structure)作为浅层语义结构的一种,表示句子成分之间的谓词逻辑关系,例如谓词论元结构:“他们[A0]举行[Pred]会议[Al] ”,表示“他们”为施事,而“会议”为受事,“举行”为响应的谓词。该结构为统计机器翻译提供了较强的先验结构知识,能够在一定程度上帮助机器进行词汇选择及调序。但是由于谓词论元结构组织结构较为离散,现有工作均是以该结构作为补充信息指导翻译而不是将其直接在机器翻译中进行建模。目前直接针对谓词论元结构建模的障碍在于:谓词论元结构可以互相嵌套,且同样的词汇或短语可以在不同的谓词论元结构中所作为不同的论元成分;谓词论元结构中的成分之间有可能存在不属于该谓词论元结构的词汇或短语。例如图1中,一个句子中有三个谓词论元结构,其中谓词论元结构I中的“Al”成分嵌套着两个不同的谓词论元结构;谓词论元结构2和3共享“会议”作为其结构的组成部分,并且“会议”在不同的谓词论元结构中代表不同作用的论元(A1/A0);其中谓词论元结构3中的“会议”和“将”之间存在着与该谓词论元结构无关的词汇及短语在现有技术中,可以利用统计学习得到的转换映射规则生成目标端语义结构,但不是在源端利用谓词语义结构进行翻译,更不是对语义独立片段进行单独翻译,最终生成目标端翻译。
技术实现思路
为了解决上述问题,本专利技术的目的在于提出一种基于谓词论元结构的层次机器翻译方法:将句子中所有的谓词论元结构有机的组织成图状结构,再将此结构作为改进层次短语机器翻译的顶层语义骨架结构,从而直接将谓词论元结构建模到层次短语机器翻译中。直接在谓词语义结构上对翻译过程进行建模,将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文,由此得到的译文具有更好的语义相关性、语义结构和长距离调序特征,并因此降低了机器翻译生成毫无意义译文的概率。具体地讲,本专利技术公开了一种基于谓词论元结构的层次机器翻译方法,包括训练和翻译步骤,其中,训练步骤包括:步骤11,对双语平行句对中的源语言句子进行语义角色标注,得到源语言句子所有的谓词论元结构;源语言的谓词论元结构可以由语义角色标注工具获得。步骤12,将双语平行句对中的源语言句子的谓词论元结构组织成相应的图状结构;所有谓词论元结构是通过以下步骤转换为图状结构的:将源语言句子根据谓词论元结构拆分成最小的谓词语义元素;将各个谓词语义元素通过原有的谓词论元结构中语义元素之间的关系联系起来,从而将谓词语义元素组织成图状结构,其中两个不同与谓词论元结构I有嵌套关系的谓词论元结构2和3的谓词通过“Pred”标签与其上层结构的谓词联系起来,并通过相应边的方向表示其从属关系。步骤13,将源端谓词论元的图状结构拆分成多个语义独立片段;所有谓词论元的图状结构是通过以下步骤转换语义独立片段的:将谓词及所有指向谓词的非谓词语义元素构成的子图抽取出来;将上述抽取出的子图转换成语义独立片段,其中句子中与该语义片段无关的单词或短语和下层结构的谓词元素将会泛化为语义非终结符S。步骤14,得到双语平行句对中的源语言句子及其对应的语义独立片段结构后,在双语词汇对齐的双语平行句对上抽取双语谓词论元结构规则和层次短语翻译规则;抽取双语谓词论元结构规则和基本层次短语翻译规则具体包括:将语义独立片段中的单词及对应标签组织成线图形式,并将对应的目标语言句子与语义非终极符对齐的部分泛化为同样的语义非终结符;将源端语义独立片段和目标端翻译及其对齐组织成线图结构,在该线图结构上根据源端的线图抽取翻译所需的语义规则。翻译步骤包括:步骤21,对待翻译的源语言句子进行语义角色标注,得到待翻译源语言句子所有的谓词论元结构本文档来自技高网
...

【技术保护点】
一种基于谓词论元结构的层次机器翻译方法,其特征在于,包括训练和翻译步骤,其中,训练步骤包括:步骤11,对双语平行句对中的源语言句子进行语义角色标注,得到源语言句子所有的谓词论元结构;步骤12,将双语平行句对中的源语言句子的谓词论元结构组织成相应的图状结构;步骤13,将源端谓词论元的图状结构拆分成多个语义独立片段;步骤14,得到双语平行句对中的源语言句子及其对应的语义独立片段结构后,在双语词汇对齐的双语平行句对上抽取双语谓词论元结构规则和层次短语翻译规则;翻译步骤包括:步骤21,对待翻译的源语言句子进行语义角色标注,得到待翻译源语言句子所有的谓词论元结构;步骤22,将待翻译源语言句子所有谓词论元结构组织成相应的图状结构;步骤23,将谓词论元的图状结构拆分成多个语义独立片段;步骤24,根据基于谓词论元结构的层次机器翻译文法,将带语义独立片段单独翻译并将其合并成为目标语言译文。

【技术特征摘要】
1.一种基于谓词论元结构的层次机器翻译方法,其特征在于,包括训练和翻译步骤,其中,训练步骤包括: 步骤11,对双语平行句对中的源语言句子进行语义角色标注,得到源语言句子所有的谓词论元结构; 步骤12,将双语平行句对中的源语言句子的谓词论元结构组织成相应的图状结构; 步骤13,将源端谓词论元的图状结构拆分成多个语义独立片段; 步骤14,得到双语平行句对中的源语言句子及其对应的语义独立片段结构后,在双语词汇对齐的双语平行句对上抽取双语谓词论元结构规则和层次短语翻译规则; 翻译步骤包括: 步骤21,对待翻译的源语言句子进行语义角色标注,得到待翻译源语言句子所有的谓词论元结构; 步骤22,将待翻译源语言句子所有谓词论元结构组织成相应的图状结构; 步骤23,将谓词论元的图状结构拆分成多个语义独立片段; 步骤24,根据基于谓词论元结构的层次机器翻译文法,将带语义独立片段单独翻译并将其合并成为目标语言译文。2.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤11中,源语言的谓词论元结构可以由语义角色标注工具获得。3.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤12中,所有谓词论元结构是通过以下步骤转换为图状结构的: 将源语言句子根据谓词论元结构拆分成最小的谓词语义元素; 将各个谓词语义元素通过原有的谓词论元结构中语义元素之间的关系联系起来,从而将谓词语义元素组织成图状结构,其中两个不同与谓词论元结构I有嵌套关系的谓词论元结构2和3的谓词通过“Pred”标签与其上层结构的谓词联系起来,并通过相应边的方向表示其从属关系。4.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤13中,所有谓词论元的图状结构是通过以下步骤转换语义独立片段的: 将谓词及所有指向谓词的非谓词语义元素构成的子图抽取出来; 将上述抽取出的子图转换成语义独立片段,其中句子中与该语义片段无关的单词或短语和下层结构的谓词元素将会泛化为语义非终结符S。5.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤14中,抽取双语谓词论元结构规则和基本层次短语翻译规则具体包括:将语义独立片段中的单词及对应标签组织成线图形式,并将对应的目标语言句子与语义非终极符对齐的部分泛化为同样的语义非终结符;将源端语义独立片段和目标端翻译及其对齐组织成线图结构,在该线图结构上根据源端的线图抽取翻译所需的语义规则。6.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤21中获得谓词论元结构的方式与步骤11中相同,步骤22中将待翻译源语言句子的谓词论元结构的方法与步骤12中相同,步骤23将谓词论元的图状...

【专利技术属性】
技术研发人员:刘凯姜文斌吕雅娟刘群
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1