【技术实现步骤摘要】
一种基于谓词论元结构的层次机器翻译方法及系统
本专利技术涉及自然语言处理
,具体地说,涉及一种基于谓词语义结构的机器翻译方法及系统。
技术介绍
对于机器翻译而言,语义信息是非常重要的信息。专利技术专利“基于语义的机器翻译系统及方法”公开了一种基于语义的自然语言机器翻译方法,用于将原始语种的原文自动地翻译成一个或多个目的语种的译文,该方法包括如下步骤:提取原文的一句;根据语义单元表示库,对该句进行语义分析,从而得到该句的句义表达式;根据语义单元表示库,将该句义表达式用目的语种的语义单元表示进行展开;将展开后的句子作为译文输出。本专利技术机器翻译方法可以高效的同时翻译多种目的语种的译文。基本翻译方法和语义获取和使用方法均不相同。该专利是基于规则机器翻译方法的,利用人工定义的语义规则来进行语义处理的。专利技术专利“一种基于语义模板的问题自动翻译方法及其系统”公开了专利摘要:本专利技术公开了一种基于语义模板的问题自动翻译方法及其系统,其中该方法包括:模板获取步骤,用于获取与用户提出的问题最相关的语义模板;模板映射步骤,用于将最相关的语义模板映射到目标语言模板,得到问题的可填充项及可填充项对应于目标语言模板中的语义标签;语义选择步骤,用于对可填充项进行自动翻译,得到可填充项的所有语义;利用语义标签从所有语义中选择可填充项的最佳语义,将最佳语义填充到目标语言模板中,得目标语言问题。本专利技术能够对交互式问答系统中用户提出的问题进行自动翻译,实现了不同语言用户之间的无障碍交流。基本翻译方法和语义获取和使用方法均不相同。该专利是基于规则机器翻译方法的,利 ...
【技术保护点】
一种基于谓词论元结构的层次机器翻译方法,其特征在于,包括训练和翻译步骤,其中,训练步骤包括:步骤11,对双语平行句对中的源语言句子进行语义角色标注,得到源语言句子所有的谓词论元结构;步骤12,将双语平行句对中的源语言句子的谓词论元结构组织成相应的图状结构;步骤13,将源端谓词论元的图状结构拆分成多个语义独立片段;步骤14,得到双语平行句对中的源语言句子及其对应的语义独立片段结构后,在双语词汇对齐的双语平行句对上抽取双语谓词论元结构规则和层次短语翻译规则;翻译步骤包括:步骤21,对待翻译的源语言句子进行语义角色标注,得到待翻译源语言句子所有的谓词论元结构;步骤22,将待翻译源语言句子所有谓词论元结构组织成相应的图状结构;步骤23,将谓词论元的图状结构拆分成多个语义独立片段;步骤24,根据基于谓词论元结构的层次机器翻译文法,将带语义独立片段单独翻译并将其合并成为目标语言译文。
【技术特征摘要】
1.一种基于谓词论元结构的层次机器翻译方法,其特征在于,包括训练和翻译步骤,其中,训练步骤包括: 步骤11,对双语平行句对中的源语言句子进行语义角色标注,得到源语言句子所有的谓词论元结构; 步骤12,将双语平行句对中的源语言句子的谓词论元结构组织成相应的图状结构; 步骤13,将源端谓词论元的图状结构拆分成多个语义独立片段; 步骤14,得到双语平行句对中的源语言句子及其对应的语义独立片段结构后,在双语词汇对齐的双语平行句对上抽取双语谓词论元结构规则和层次短语翻译规则; 翻译步骤包括: 步骤21,对待翻译的源语言句子进行语义角色标注,得到待翻译源语言句子所有的谓词论元结构; 步骤22,将待翻译源语言句子所有谓词论元结构组织成相应的图状结构; 步骤23,将谓词论元的图状结构拆分成多个语义独立片段; 步骤24,根据基于谓词论元结构的层次机器翻译文法,将带语义独立片段单独翻译并将其合并成为目标语言译文。2.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤11中,源语言的谓词论元结构可以由语义角色标注工具获得。3.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤12中,所有谓词论元结构是通过以下步骤转换为图状结构的: 将源语言句子根据谓词论元结构拆分成最小的谓词语义元素; 将各个谓词语义元素通过原有的谓词论元结构中语义元素之间的关系联系起来,从而将谓词语义元素组织成图状结构,其中两个不同与谓词论元结构I有嵌套关系的谓词论元结构2和3的谓词通过“Pred”标签与其上层结构的谓词联系起来,并通过相应边的方向表示其从属关系。4.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤13中,所有谓词论元的图状结构是通过以下步骤转换语义独立片段的: 将谓词及所有指向谓词的非谓词语义元素构成的子图抽取出来; 将上述抽取出的子图转换成语义独立片段,其中句子中与该语义片段无关的单词或短语和下层结构的谓词元素将会泛化为语义非终结符S。5.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤14中,抽取双语谓词论元结构规则和基本层次短语翻译规则具体包括:将语义独立片段中的单词及对应标签组织成线图形式,并将对应的目标语言句子与语义非终极符对齐的部分泛化为同样的语义非终结符;将源端语义独立片段和目标端翻译及其对齐组织成线图结构,在该线图结构上根据源端的线图抽取翻译所需的语义规则。6.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤21中获得谓词论元结构的方式与步骤11中相同,步骤22中将待翻译源语言句子的谓词论元结构的方法与步骤12中相同,步骤23将谓词论元的图状...
【专利技术属性】
技术研发人员:刘凯,姜文斌,吕雅娟,刘群,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。