一种用于机器翻译的调序模型的生成方法和装置制造方法及图纸

技术编号:5459484 阅读:252 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种用于机器翻译的调序模型的生成方法,包括:获取双语语料库;对双语语料库中的源语言例句进行搭配抽取,以获取源语言搭配词对;对源语言例句以及目标语言例句进行双语词对齐,并根据双语词对齐结果确定源语言搭配词的对应译文;根据源语言搭配词在源语言例句中的顺序以及对应译文在目标语言例句的顺序确定源语言搭配词对的调序方向;对调序方向进行统计,获取每一调序方向的调序概率,以形成调序模型。通过上述方式,基于源语言的词与词之间的搭配信息建立调序模型,进而提高调序模型的调序能力。

【技术实现步骤摘要】

本专利技术涉及机器翻译领域,特别涉及一种用于机器翻译的调序模型的生成方法和直O
技术介绍
近年来,基于短语的统计机器翻译(phrase-based statistical machine translation)相比于IBM公司当初提出的基于单词的统计机器翻译(word-based statistical machine translation)在译文质量上有了很大的进步,因而受到人们的广泛 关注。简单地说,基于短语的统计机器翻译在训练时,首先将双语语料库中的双语例句进行 双语词对齐,随后双语词对齐的基础上抽取出带概率的双语短语表。在翻译时,首先是将要 翻译的源语言句子与短语表中的源语言短语进行匹配,得到与源语言短语对应的目标语言 短语,然后对目标语言短语进行调序,进而得到目标语言句子。在基于短语的统计机器翻译系统中,存在三个比较重要的模型翻译模型、调序模 型以及语言模型。其中,调序模型是为了解决翻译中存在的调序问题。现有的调序模型主 要是基于相邻的短语。例如,在翻译“人们将来的发展与他们幼年时的发展息息相关”时, 调序模型考虑的是“与他们幼年时的发展”与“息息相关”之间的调序问题。基于短语的调 序模型存在以下两个缺陷一是不能对非连续性的短语进行调序,例如不能对“与...息息 相关”和“他们幼年时的发展”进行调序;二是调序模型依赖于整个短语,使得估计参数时存 在数据稀疏问题,导致估计不准。为了提高调序模型的调序能力,部分研究者采用功能词(function word)或者边 界词(boundary word)等方式来解决数据稀疏问题,但上述解决方案的效果仍不理想,无法 满足机器翻译需求。
技术实现思路
本专利技术所要解决的技术问题是提供一种用于机器翻译的调序模型的生成方法和 装置,以通过词与词之间的搭配信息来提高调序模型的调序能力。本专利技术为解决技术问题而采用的技术方案是提供一种用于机器翻译的调序模型 的生成方法,包括a.获取双语语料库,所述双语语料库包括多个双语例句对,每一所述双 语例句对包括源语言例句以及与所述源语言例句对应的目标语言例句;b.对所述源语言 例句进行搭配抽取,以获取源语言搭配词对,每一所述源语言搭配词对包括两个具有搭配 关系的源语言搭配词;c.对所述源语言例句以及所述目标语言例句进行双语词对齐,并根 据双语词对齐结果确定所述源语言搭配词的对应译文;d.根据所述源语言搭配词在所述 源语言例句中的顺序以及所述对应译文在所述目标语言例句的顺序确定所述源语言搭配 词对的调序方向;e.对所述调序方向进行统计,获取每一所述调序方向的调序概率,以形 成调序模型。根据本专利技术之一优选实施例,所述步骤b进一步包括bl.对所述源语言例句进行复制,以形成包括两个所述源语言例句的源语言例句对;b2.对所述源语言例句对进行单 语词对齐,并根据单语词对齐结果获得一组源语言对齐词对,每一所述源语言对齐词对包 括两个具有对齐关系的源语言对齐词;b3.从所述源语言对齐词对中选择所述源语言搭配 词对。根据本专利技术之一优选实施例,在所述步骤1^2中,利用单语词对齐模型对所述源语 言例句对进行单语词对齐。根据本专利技术之一优选实施例,在所述步骤b3中,过滤掉对齐频率小于第一阈值的 所述源语言对齐词对。根据本专利技术之一优选实施例,在所述步骤b3中,基于所述源语言对齐词对的对齐 频率计算所述源语言对齐词对的对齐概率,根据所述对齐概率计算所述源语言对齐词对的 搭配概率,并选择搭配概率大于第二阈值的所述源语言对齐词对作为所述源语言搭配词 对。根据本专利技术之一优选实施例,在所述步骤C中,利用双语词对齐模型对所述源语 言例句以及所述目标语言例句进行双语词对齐。根据本专利技术之一优选实施例,所述调序方向包括所述源语言搭配词在所述源语言 例句中的顺序与所述对应译文在所述目标语言例句中的顺序相同以及所述源语言搭配词 在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相反。本专利技术为解决技术问题而采用的技术方案是提供一种用于机器翻译的调序模型 的生成装置,包括双语语料获取单元,用于获取双语语料库,所述双语语料库包括多个双 语例句对,每一所述双语例句对包括源语言例句以及与所述源语言例句对应的目标语言例 句;搭配抽取单元,用于对所述源语言例句进行搭配抽取,以获取源语言搭配词对,每一所 述源语言搭配词对包括两个具有搭配关系的源语言搭配词;双语词对齐单元,用于对所述 源语言例句以及所述目标语言例句进行双语词对齐,并根据双语词对齐结果确定所述源语 言搭配词的对应译文;调序方向确定单元,用于根据所述源语言搭配词在所述源语言例句 中的顺序以及所述对应译文在所述目标语言例句的顺序确定所述源语言搭配词对的调序 方向;调序模型生成单元,用于对所述调序方向进行统计,获取每一所述调序方向的调序概 率,以形成调序模型。根据本专利技术之一优选实施例,所述搭配抽取单元进一步包括源语言例句对形成 单元,用于对所述源语言例句进行复制,以形成包括两个所述源语言例句的源语言例句对; 单语词对齐单元,用于对所述源语言例句对进行单语词对齐,并根据单语词对齐结果获得 一组源语言对齐词对,每一所述源语言对齐词对包括两个具有对齐关系的源语言对齐词; 源语言搭配词对选择单元,从所述源语言对齐词对中选择所述源语言搭配词对。根据本专利技术之一优选实施例,所述单语词对齐单元利用单语词对齐模型对所述源 语言例句对进行单语词对齐。根据本专利技术之一优选实施例,所述源语言搭配词对选择单元过滤掉对齐频率小于 第一阈值的所述源语言对齐词对。根据本专利技术之一优选实施例,所述源语言搭配词对选择单元基于所述源语言对齐 词对的对齐频率计算所述源语言对齐词对的对齐概率,根据所述对齐概率计算所述源语言 对齐词对的搭配概率,并选择搭配概率大于第二阈值的所述源语言对齐词对作为所述源语言搭配词对。根据本专利技术之一优选实施例,所述双语词对齐单元利用双语词对齐模型对所述源 语言例句以及所述目标语言例句进行双语词对齐。根据本专利技术之一优选实施例,所述调序方向包括所述源语言搭配词在所述源语言 例句中的顺序与所述对应译文在所述目标语言例句中的顺序相同以及所述源语言搭配词 在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相反。由以上技术方案可以看出,本专利技术提供的调序模型的生成方法及装置基于源语言 的词与词之间的搭配信息来建立调序模型,进而提高了调序模型的调序能力。附图说明图1是本专利技术实施例中的调序模型生成方法的流程示意图;图2是本专利技术实施例中的搭配抽取结果的示意图;图3是本专利技术实施例中的双语词对齐结果的示意图;图4是本专利技术实施例中的搭配抽取方法的流程示意图;图5是本专利技术实施例中的调序模型生成装置的示意框图;图6是本专利技术实施例中的搭配抽取单元的示意框图。具体实施例方式下面结合附图和实施例对本专利技术进行详细说明。本专利技术利用源语言句子中的词与词之间的搭配信息来提高调序模型的调序能力, 例如在以上例句中,如果能够发现“与”和“息息相关”是一个搭配词对,那么在调序过程中, 考虑采用这样的调序模型来约束二者的调序方向ρ (o I wi Wj) ο ^ (straight,inverted)在上述调序模型中,Wi和%表示在源语言句子中具有搭配关系的两个源本文档来自技高网
...

【技术保护点】
一种用于机器翻译的调序模型的生成方法,其特征在于,所述生成方法包括以下步骤:a.获取双语语料库,所述双语语料库包括多个双语例句对,每一所述双语例句对包括源语言例句以及与所述源语言例句对应的目标语言例句;b.对所述源语言例句进行搭配抽取,以获取源语言搭配词对,每一所述源语言搭配词对包括两个具有搭配关系的源语言搭配词;c.对所述源语言例句以及所述目标语言例句进行双语词对齐,并根据双语词对齐结果确定所述源语言搭配词的对应译文;d.根据所述源语言搭配词在所述源语言例句中的顺序以及所述对应译文在所述目标语言例句的顺序确定所述源语言搭配词对的调序方向;e.对所述调序方向进行统计,获取每一所述调序方向的调序概率,以形成调序模型。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴华胡晓光王海峰
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1