一种统计机器翻译方法和系统技术方案

技术编号:2823778 阅读:170 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种统计机器翻译方法和系统,其中该方法包括下列步骤:1)对源语言句进行短语划分,根据划分的短语从双语短语表中检索双语短语;2)检查划分的短语与双语短语匹配程度,如果完全匹配将双语短语加入候选短语表,执行步骤4),如果部分匹配,执行步骤3);3)根据划分的短语和双语短语构造翻译模板,把划分的短语与双语短语不同的词语翻译填入翻译模板,生成新双语短语,并加入所述候选短语表;4)根据候选短语表翻译所述待翻译源语言句。本发明专利技术能够在双语语料受限的情况下有效的提高翻译质量,解决了统计机器翻译系统面临的数据稀疏问题。

【技术实现步骤摘要】

本专利技术涉及机器翻译
,特别涉及一种基于短语的统计机器翻译方法和系统
技术介绍
随着社会的不断进步和经济的飞速发展,国际间的交流和合作日益密切,对不同语种之间的翻译提出了更高的要求。借助于计算机强大的存储和计算能力进行自然语言之间的翻译(又称机器翻译)可以极大地降低翻译成本,提高工作效率。另外,蓬勃发展的互联网络以及多语种的文档资料等为我们提供了大量的平行语料库,为统计机器翻译奠定了深厚的基础。统计机器翻译是一种基于语料库的翻译方法,其主要思想是对翻译过程构建数学模型,并利用计算机从庞大的双语语料库中自动学习模型参数,最终完成翻译。与传统的基于规则的翻译方法相比,统计机器翻译无需人类专家撰写大量规则,其翻译知识可以全自动的从双语语料库中获取;统计机器翻译具有语言无关性的特点,一个统计机器翻译系统可以翻译多种语言对,而无需做大量的改动,而基于规则的方法需要针对特定的语言对撰写特定的翻译规则。由于以上特点,统计机器翻译系统开发周期短,翻译质量好,是目前被广泛使用的翻译方法。由于统计机器翻译系统需要从双语平行语料库中学习翻译知识,因此,对于双语语料库的数量和质量要求都比较高。理论上来说,只要有足够多并且足够好的双语语料,统计机器翻译系统就能够输出高质量的译文。然而,在实践中,这样的条件往往很难达到。一方面,有些语言对本身存在的双语语料就比较少,例如蒙古语-汉语,这样训练出来的模型就面临很严重的数据稀疏问题;另一方面,在具体的应用中,对于计算资源会有比较多的限制,例如在手机或者掌上电脑中,其内存和硬盘空间非常有限,限制了统计机器翻译系统的知识库。目前,在统计机器翻译领域,基于短语的统计机器翻译方法表现出了-->很好的性能,其中短语是指连续的词语串。该方法的翻译知识是从双语平行语料库中自动学习的双语短语,称之为双语短语表。利用双语短语表,翻译系统能够很好的翻译固定搭配、习惯用语,输出准确度和流利度都很高的译文。在翻译过程中,对于一个具体的短语翻译,普遍采用的方法是完全匹配策略,即如果它和短语表中的某个短语完全一样,那么就能够找到该短语的翻译,否则,即便是只有一个词语不一样,也不能翻译该短语。这就是所谓的数据稀疏问题。当双语语料库规模受限时,数据稀疏问题尤为严重。因此,如何有效的利用有限的双语语料资源,减轻实际应用中的数据稀疏问题,提高翻译的质量,是一个亟待解决的问题。
技术实现思路
本专利技术的目的在于克服现有的利用短语进行翻译的统计机器翻译系统在双语语料库受限时面临的数据稀疏问题,提供一种基于短语的统计机器翻译方法和系统,从而使统计机器翻译系统在双语语料库受限时能够输出高质量的译文。为了实现上述目的,根据本专利技术的一个方面,本专利技术提供了一种基于短语相似度的统计机器翻译方法,包括以下步骤:1)对源语言句进行短语划分,根据所述划分的短语从双语短语表中检索双语短语;2)检查所述划分的短语与所述双语短语匹配程度,如果完全匹配将所述双语短语加入候选短语表,执行步骤4),如果部分匹配,执行步骤3);3)根据所述双语短语的词语对齐,删除所述双语短语中与所述划分的短语不同的词语,把所述划分的短语中与所述双语短语不同词语的翻译填入所述双语短语的目标语言短语,生成新双语短语,并加入所述候选短语表;4)根据所述候选短语表翻译所述待翻译源语言句。根据本专利技术的第二方面,所述双语短语包括源语言短语、目标语言短语,源语言短语和目标语言短语内部的词语对齐,短语翻译分数。根据本专利技术的第三方面,所述步骤2)根据相似度检查所述划分的短语与所述双语短语的匹配程度。其中,所述相似度根据所述划分的短语和所述双语短语的源语言短语-->中相同词语数量占所述划分的短语长度的比例进行计算。其中,优选的,所述步骤2)的部分匹配是相似度属于(0.3,1)。根据本专利技术的第四方面,所述步骤3)进一步包括以下步骤:31)比较所述划分的短语和所述双语短语的源语言短语中的词语,记录词语不同的位置;32)删除所述双语短语的源语言短语和目标语言短语的步骤31)所述位置的词语,形成所述翻译模板;33)翻译与所述双语短语的源语言短语中词语不同的所述划分的短语中的词语,并将翻译结果填入所述翻译模板,生成新双语短语,将所述新双语短语加入所述候选短语表。根据本专利技术的第五方面,所述步骤1)进一步包括:11)对源语言句进行短语划分;12)根据所述双语短语的源语言短语建立索引,索引项是源语言短语,索引值是双语短语在所述双语短语表中的位置;13)根据所述划分的短语和所述索引从双语短语表中检索双语短语。根据本专利技术的第六方面,所述步骤1)对源语言句进行短语划分,列举该句子所有划分;所述步骤4)根据所述候选短语表翻译所述待翻译源语言句,根据所述候选短语的翻译分数选择翻译结果。根据本专利技术的第七方面,步骤1)的双语短语表通过下列步骤获得:a)对句子对齐的训练语料库进行词语对齐,得到词语对齐的训练语料库;b)从所述词语对齐的训练语料库中抽取双语短语形成所述双语短语表。根据本专利技术的第八方面,所述步骤b)包括下列步骤:b1)从所述词语对齐的训练语料库中抽取双语短语;b2)计算所述抽取的双语短语的翻译分数,生成所述双语短语表。根据本专利技术的第九方面,所述步骤b2)的翻译分数包括短语翻译概率和词汇化翻译概率。根据本专利技术的第十方面,还提供了一种统计机器翻译系统,包括:短语划分装置,其用于对源语言句进行短语划分;短语检索装置,其用于根据所述划分的短语从双语短语表中检索双语-->短语;确定匹配程度装置,其用于检查所述划分的短语与所述双语短语的匹配程度,并记录完全匹配的双语短语;部分匹配短语翻译装置,其用于翻译与所述双语短语部分匹配的划分的短语,生成新双语短语;源语言句翻译装置,其用于根据完全匹配的双语短语和/或所述部分匹配短语翻译装置生成的新双语短语翻译所述源语言句。根据上述装置,所述部分匹配短语翻译装置进一步包含如下装置:比较装置,其用于比较所述部分匹配的划分的短语和所述双语短语的源语言短语中的词语,并记录词语不同的位置;翻译模板生成装置,其用于删除所述双语短语的源语言短语和目标语言短语的所述比较装置记录位置的词语,形成所述翻译模板;新双语短语生成装置,其用于翻译与双语短语的源语言短语中词语不同的所述部分匹配的划分的短语中的词语,并将翻译结果填入所述翻译模板生成装置生成的翻译模板,生成新双语短语。本专利技术的优点在于:本专利技术提供的基于短语的统计机器翻译方法和系统,可以深入挖掘已有的双语语料资源,有效地提高短语表的利用程度,缓解数据稀疏问题;本专利技术提供的基于短语的统计机器翻译方法和系统,能够在语料资源受限的情况下,获得较高的翻译质量;本专利技术提供的基于短语的统计机器翻译方法和系统,适用于任何使用短语进行翻译的统计机器翻译系统,例如基于短语的系统、基于句法的系统等。附图说明下面结合附图对本专利技术的具体实施方式作进一步详细的说明,其中:图1是从双语语料库中获取双语短语表的流程图。图2是短语翻译的流程图。图3是句子翻译的流程图。具体实施方式基于短语的统计机器翻译方法首先需要获得双语短语表,然后对源语-->言句子进行翻译。现有技术中,翻译源语言句子具体包括下列步骤:首先,对待翻译源语言句子F′1H=f′1…f′H(其中,f′本文档来自技高网
...

【技术保护点】
一种基于短语的统计机器翻译方法,包括下列步骤:1)对源语言句进行短语划分,根据所述划分的短语从双语短语表中检索双语短语;2)检查所述划分的短语与所述双语短语匹配程度,如果完全匹配将所述双语短语加入候选短语表,执行步骤4),如果部分匹配,执行步骤3);3)根据所述双语短语的词语对齐,删除所述双语短语中与所述划分的短语不同的词语,把所述划分的短语中与所述双语短语不同词语的翻译填入所述双语短语的目标语言短语,生成新双语短语,并加入所述候选短语表;4)根据所述候选短语表翻译所述待翻译源语言句。

【技术特征摘要】
1.一种基于短语的统计机器翻译方法,包括下列步骤:1)对源语言句进行短语划分,根据所述划分的短语从双语短语表中检索双语短语;2)检查所述划分的短语与所述双语短语匹配程度,如果完全匹配将所述双语短语加入候选短语表,执行步骤4),如果部分匹配,执行步骤3);3)根据所述双语短语的词语对齐,删除所述双语短语中与所述划分的短语不同的词语,把所述划分的短语中与所述双语短语不同词语的翻译填入所述双语短语的目标语言短语,生成新双语短语,并加入所述候选短语表;4)根据所述候选短语表翻译所述待翻译源语言句。2.根据权利要求1所述的方法,其特征在于,所述双语短语包括源语言短语、目标语言短语,源语言短语和目标语言短语内部的词语对齐,短语翻译分数。3.根据权利要求2所述的方法,其特征在于,所述步骤2)根据相似度检查所述划分的短语与所述双语短语的匹配程度。4.根据权利要求3所述的方法,其特征在于,所述相似度根据所述划分的短语和所述双语短语的源语言短语中相同词语数量占所述划分的短语长度的比例进行计算。5.根据权利要求4所述的方法,其特征在于,所述步骤2)的部分匹配是相似度属于(0.3,1)。6.根据权利要求2所述的方法,其特征在于,所述步骤3)进一步包括以下步骤:31)比较所述划分的短语和所述双语短语的源语言短语中的词语,记录词语不同的位置;32)删除所述双语短语的源语言短语和目标语言短语的步骤31)所述位置的词语,形成所述翻译模板;33)翻译与所述双语短语的源语言短语中词语不同的所述划分的短语中的词语,并将翻译结果填入所述翻译模板,生成新双语短语,将所述新双语短语加入所述候选短语表。7.根据权利要求1所述的方法,其特征在于,所述步骤1)包括:11)对源语言句进行短语划分;12)根据所述双语短语的源语言短语建立索引,索引项是源语言短语,索引值是双语短语在所述双语短语表中的位置;13)根据所述划分的短语和所述索引从双语短...

【专利技术属性】
技术研发人员:何中军刘群林守勋
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利