基于组合的短语规则抽取方法技术

技术编号:8489781 阅读:294 留言:0更新日期:2013-03-28 10:23
本发明专利技术涉及一种基于组合的短语规则抽取方法,包括以下步骤:在双语语料中构造一个“最小短语规则”;通过组合构造组合的短语规则集;从给定的双语平行语料中生成最小短语规则集,并存放在哈希数据结构中;构造组合的短语规则,通过最小短语规则集判断该组合的短语规则由几个最小短语规则组成;如果该组合的短语规则由小于或等于n条最小短语规则集中的最小短语规则组成,将其放入一个新的哈希数据结构中;输出新的最小短语规则集与组合的短语规则集中的短语规则,一次基于组合的短语规则抽取过程结束。本发明专利技术有效的生成高质量的含有较多上下文信息的短语规则集,在翻译性能不降低的情况下,本发明专利技术方法比基准方法抽取的短语规则集减小56.5%。

【技术实现步骤摘要】
基于组合的短语规则抽取方法
本专利技术涉及一种基于短语的统计机器翻译系统中的短语处理技术,具体的说是一种基于组合的短语规则抽取方法。
技术介绍
基于短语的统计机器翻译系统在机器翻译领域的性能表现出非常强的竞争力。基于短语的方法之所以有效很大一部分原因在于该方法依赖一个质量较高的短语规则集。在短语规则集中,每一个源语言短语被映射到一个或多个不同的目标语短语。在短语系统中,短语由一系列连续的单词构成,短语并没有语言学意义。目前,一些机器翻译领域研究人员已经提出一些行之有效的短语规则抽取方法。在这些短语规则抽取方法中,启发式方法得到了广泛的应用。该抽取方法通过使用双语语料中每个句子对应的词对齐信息,抽取出所有与词对齐信息保持一致的短语规则。由于该规则抽取方法简单、易于实现,同时表现出非常优越的性能,所以在目前基于短语的统计机器翻译系统中得到了广泛的应用。在使用抽取短语规则的过程中,最终抽取出来的短语规则的数量与训练数据中单词的数量成二次方关系。为了得到一个规模可控的短语规则集,通常的做法是对抽取的源语言及目标语言短语的长度加以限制。在多数的性能优异的机器翻译系统中,默认设置将抽取的源语和目本文档来自技高网...
基于组合的短语规则抽取方法

【技术保护点】
一种基于组合的短语规则抽取方法,其特征在于包括以下步骤:在双语语料中构造一个“最小短语规则”;通过组合最小短语规则来构造一个含有更多上下文信息的短语规则集,形成“组合的短语规则集”;基于组合的短语规则集,从给定的含有词对齐信息的双语平行语料中生成最小短语规则集,并存放在哈希数据结构中;设置组合次数n的值,构造组合的短语规则,通过最小短语规则集判断该组合的短语规则由几个最小短语规则组成;如果该组合的短语规则由小于或等于n条最小短语规则集中的最小短语规则组成,将其放入一个新的哈希数据结构中;输出新的最小短语规则集与组合的短语规则集中的短语规则,一次基于组合的短语规则抽取过程结束。

【技术特征摘要】
1.一种基于组合的短语规则抽取方法,其特征在于包括以下步骤:在双语语料中构造一个“最小短语规则”;通过组合最小短语规则来构造一个含有更多上下文信息的短语规则集,形成“组合的短语规则集”;基于组合的短语规则集,从给定的含有词对齐信息的双语平行语料中生成最小短语规则集,并存放在哈希数据结构中;设置组合次数n的值,构造组合的短语规则,通过最小短语规则集判断该组合的短语规则由几个最小短语规则组成;如果短语规则由小于或等于n条最小短语规则集中的最小短语规则组成,将其放入一个新的哈希数据结构中;输出最小短语规则集与所有组合的短语规则集中的短...

【专利技术属性】
技术研发人员:朱靖波李强肖桐张浩
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1