机器翻译中抽取调序模板的方法及系统技术方案

技术编号:4251567 阅读:295 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及机器翻译中抽取调序模板的方法及系统,方法包括:步骤1,输入双语对齐语料,对所述双语对齐语料中的源语言部分进行分词和词性标注;步骤2,对双语对齐语料中每一个双语句对,进行调序分析,抽取出调序实例;步骤3,对于每个所述调序实例,根据所述调序实例中的词对在源语言和目标语言中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所述变量部分替换为变量。本发明专利技术能够消除现有技术中对抽取翻译模板的限制,并能够提取出多种调序模板以增加调序模板对于翻译中调序现象的覆盖率。

【技术实现步骤摘要】

本专利技术涉及机器翻译领域,尤其涉及机器翻译中抽取调序模板的方法及系统
技术介绍
翻译模板是机器翻译中常用的指导翻译的知识表示形式,描述从源语言翻译到目 标语言时所需遵循的对应关系。翻译模板为源语言端和目标语言端的常量和变量组成的字 符串,而且源语言和目标语言字符串的各部分一一对应。 —个汉语_英语的简单翻译模板举例 今天X。 X today. 模板中的常量即指语言片段,也称终结符,如上例中的今天,对应today;。 对应.。变量即指用X代表的部分,也称非终结符。非终结符为在抽取过程中对终结符 序列进行替换得到。 由于源语言和目标语言的顺序通常不一致,翻译模板又分为顺序模板和调序模板 两类。顺序模板中的所有对应部分在源语言和目标语言中顺序一致,而调序模板则描述了 源语言和目标语言翻译对顺序不一致的情况。 翻译模板可以由手工构建,也可以从双语语料中自动抽取。由于手工构建的模板 成本较高,而且匹配时容易发生冲突,在现有技术的机器翻译系统中一般使用从双语语料 中自动抽取方法抽取翻译模板。 尽管自动抽取翻译模板成本低,容易在机器翻译系统中使用,但是由于翻译模板的非终结符通过替换多种终结符序列得到,造成自动抽取模板的数量巨大,现有技术中为了保证机器翻译系统的效率,通常对抽取翻译模板具有多种限制,例如,对抽取翻译模板的句子部分的长度限制,对翻译模板源语言端和目标语言端长度的限制等。 在机器翻译中,调序问题是指由于源语言和目标语言词序通常不一致,需要在翻译过程中对目标语言进行重排序的问题。它是机器翻译的核心问题之一,因为好的机器翻译结果必须具有正确的目标语言顺序。在使用自动抽取模板的统计机器翻译系统中,调序通常通过匹配调序模板实现。但是,现有技术中机器翻译系统中使用的翻译模板由于抽取过程的种种限制,不能准确,完整地描述重排序现象;在机器翻译过程中,由于计算翻译模板调序代价巨大,在没有合适的翻译模板使用时,默认按照顺序方式翻译,从而造成错误调序。 所以,现有的调序模板自动抽取方法存在调序模板对于翻译中调序现象覆盖低的 问题。
技术实现思路
为解决上述问题,本专利技术提供了机器翻译中抽取调序模板的方法及系统,能够消 除现有技术中对抽取翻译模板的限制,并能够提取出多种调序模板以增加调序模板对于翻译中调序现象的覆盖率。 本专利技术公开了一种机器翻译中抽取调序模板的方法,包括 步骤l,输入双语对齐语料,对所述双语对齐语料中的源语言部分进行分词和词性 标注; 步骤2,对双语对齐语料中每一个双语句对,进行调序分析,抽取出调序实例; 步骤3,对于每个所述调序实例,根据所述调序实例中的词对在源语言和目标语言 中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所 述变量部分替换为变量。 所述步骤2进一步为, 步骤21,对每一个双语句对,将所述双语句对中满足条件的句块对抽取为调序实 例; 所述条件为所述句块对满足词语对齐一致性,所述句块对包括两个相邻的子句块对,并且所述两个子句块对的源语言部分在所述句块对的源语言语言部分的顺序与所述两个子句块对的目标语言部分在所述句块对的目标语言部分的顺序相反,且不能通过延伸所述两个子句块对中的任一子句块对得到满足词语对齐一致性的新子句块对。 所述步骤3进一步为, 步骤31,对于每个所述调序实例,根据调序实例中词对在源语言和目标语言中的 位置确定调序的分界,从所述分界处将所述调序实例划分为两部分; 步骤32,对于每个部分,根据词性标注在所述部分的源语言部分中查找满足条件的句段,选择满足条件的句段中最长的句段作为所述部分的源语言部分的变量部分,以所述句段根据词对齐确定的在目标语言部分中对应的句段为所述部分的目标语言部分的变量部分,将源语言部分和目标语言部分的变量部分替换为变量,以形成调序模板; 所述条件为句段的第一个词和最后一个词为实词,并且所述句段和所述句段在所述部分的目标语言部分中的对应句段满足词语对齐一致性。 所述步骤21还包括, 步骤41,对每一个双语句对,根据双语句对的调序实例间的包含关系,将所述调序实例组成树状结构。 所述步骤3后还包括, 步骤51,如果变量部分包含调序实例,将所述变量部分替换为所述变量实例对应 的调序模板。 所述步骤3后还包括 步骤61 ,对双语对齐语料应用最大似然估计法,计算每个词对的翻译概率,根据所述词对的翻译概率计算所述调序模板的词汇化概率。所述步骤3后还包括 步骤71,对每个所述调序模板,在所述双语对齐语料中匹配所述调序模板的源语 言部分和目标语言部分,获得匹配次数和完全匹配次数; 步骤72,根据所述匹配次数和完全匹配次数计算所述调序模板从目标语言到源语 言的翻译概率和从源语言到目标语言的翻译概率。 本专利技术还公开了一种机器翻译中抽取调序模板的系统,包括 语料处理模块,用于输入双语对齐语料,对所述双语对齐语料中的源语言部分进 行分词和词性标注; 调序实例抽取模块,用于对双语对齐语料中每一个双语句对,进行调序分析,抽取 出调序实例; 调序模板生成模块,用于对于每个所述调序实例,根据所述调序实例中的词对在 源语言和目标语言中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确 定变量部分,将所述变量部分替换为变量。 所述调序实例抽取模块进一步用于对每一个双语句对,将所述双语句对中满足条 件的句块对抽取为调序实例; 所述条件为所述句块对满足词语对齐一致性,所述句块对包括两个相邻的子句块对,并且所述两个子句块对的源语言部分在所述句块对的源语言语言部分的顺序与所述两个子句块对的目标语言部分在所述句块对的目标语言部分的顺序相反,且不能通过延伸所述两个子句块对中的任一子句块对得到满足词语对齐一致性的新子句块对。 所述调序模板生成模块进一步用于对于每个所述调序实例,根据调序实例中词对在源语言和目标语言中的位置确定调序的分界,从所述分界处将所述调序实例划分为两部分;对于每个部分,根据词性标注在所述部分的源语言部分中查找满足条件的句段,选择满足条件的句段中最长的句段作为所述部分的源语言部分的变量部分,以所述句段根据词对齐确定的在目标语言部分中对应的句段为所述部分的目标语言部分的变量部分,将源语言部分和目标语言部分的变量部分替换为变量,以形成调序模板; 所述条件为句段的第一个词和最后一个词为实词,并且所述句段和所述句段在所 述部分的目标语言部分中的对应句段满足词语对齐一致性。 所述调序实例抽取模块还用于对每一个双语句对,根据双语句对的调序实例间的 包含关系,将所述调序实例组成树状结构。 所述调序模板生成模块还用于在变量部分包含调序实例时,将所述变量部分替换为所述变量实例对应的调序模板。 所述系统还包括 概率生成模块,用于对双语对齐语料应用最大似然估计法,计算每个词对的翻译 概率,根据所述词对的翻译概率计算所述调序模板的词汇化概率。 所述系统还包括 概率生成模块,用于对每个所述调序模板,在所述双语对齐语料中匹配所述调序 模板的源语言部分和目标语言部分,获得匹配次数和完全匹配次数;根据所述匹配次数和 完全匹配次数计算所述调序模板从目标语言到源语言的翻译概率和从源语言到目标语言 的翻译概率。 本专利技术的有益效果在于,在调序模板抽取时没有长度限制,本文档来自技高网
...

【技术保护点】
一种机器翻译中抽取调序模板的方法,其特征在于,包括:    步骤1,输入双语对齐语料,对所述双语对齐语料中的源语言部分进行分词和词性标注;    步骤2,对双语对齐语料中每一个双语句对,进行调序分析,抽取出调序实例;    步骤3,对于每个所述调序实例,根据所述调序实例中的词对在源语言和目标语言中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所述变量部分替换为变量。

【技术特征摘要】
一种机器翻译中抽取调序模板的方法,其特征在于,包括步骤1,输入双语对齐语料,对所述双语对齐语料中的源语言部分进行分词和词性标注;步骤2,对双语对齐语料中每一个双语句对,进行调序分析,抽取出调序实例;步骤3,对于每个所述调序实例,根据所述调序实例中的词对在源语言和目标语言中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所述变量部分替换为变量。2. 如权利要求1所述的机器翻译中抽取调序模板的方法,其特征在于,所述步骤2进一 步为,步骤21,对每一个双语句对,将所述双语句对中满足条件的句块对抽取为调序实例;所述条件为所述句块对满足词语对齐一致性,所述句块对包括两个相邻的子句块对, 并且所述两个子句块对的源语言部分在所述句块对的源语言语言部分的顺序与所述两个 子句块对的目标语言部分在所述句块对的目标语言部分的顺序相反,且不能通过延伸所述 两个子句块对中的任一子句块对得到满足词语对齐一致性的新子句块对。3. 如权利要求2所述的机器翻译中抽取调序模板的方法,其特征在于,所述步骤3进一 步为,步骤31,对于每个所述调序实例,根据调序实例中词对在源语言和目标语言中的位置 确定调序的分界,从所述分界处将所述调序实例划分为两部分;步骤32,对于每个部分,根据词性标注在所述部分的源语言部分中查找满足条件的句 段,选择满足条件的句段中最长的句段作为所述部分的源语言部分的变量部分,以所述句 段根据词对齐确定的在目标语言部分中对应的句段为所述部分的目标语言部分的变量部 分,将源语言部分和目标语言部分的变量部分替换为变量,以形成调序模板;所述条件为句段的第一个词和最后一个词为实词,并且所述句段和所述句段在所述部 分的目标语言部分中的对应句段满足词语对齐一致性。4. 如权利要求2所述的机器翻译中抽取调序模板的方法,其特征在于, 所述步骤21还包括,步骤41,对每一个双语句对,根据双语句对的调序实例间的包含关系,将所述调序实例 组成树状结构。5. 如权利要求4所述的机器翻译中抽取调序模板的方法,其特征在于,所述步骤3后还 包括,步骤51,如果变量部分包含调序实例,将所述变量部分替换为所述变量实例对应的调 序模板。6. 如权利要求1所述的机器翻译中抽取调序模板的方法,其特征在于,所述步骤3后还 包括步骤61 ,对双语对齐语料应用最大似然估计法,计算每个词对的翻译概率,根据所述词 对的翻译概率计算所述调序模板的词汇化概率。7. 如权利要求1所述的机器翻译中抽取调序模板的方法,其特征在于,所述步骤3后还 包括步骤71,对每个所述调序模板,在所述双语对齐语料中匹配所述调序模板的源语言部分和目标语言部分,获得匹配次数和完全匹配次数;步骤72,根据所述匹配次数和完全匹配次数计算所述调序模板从目标语言到源语言的 翻译概率和从源语言到目标语言的翻译概率。8. —种机器翻译中...

【专利技术属性】
技术研发人员:蔡舒
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1