【技术实现步骤摘要】
本专利技术涉及机器翻译
,特别涉及一种基于短语的统计机器翻译方法和系统。
技术介绍
随着社会的不断进步和经济的飞速发展,国际间的交流和合作日益密切,对不同语种之间的翻译提出了更高的要求。借助于计算机强大的存储和计算能力进行自然语言之间的翻译(又称机器翻译)可以极大地降低翻译成本,提高工作效率。另外,蓬勃发展的互联网络以及多语种的文档资料等为我们提供了大量的平行语料库,为统计机器翻译奠定了深厚的基础。统计机器翻译是一种基于语料库的翻译方法,其主要思想是对翻译过程构建数学模型,并利用计算机从庞大的双语语料库中自动学习模型参数,最终完成翻译。与传统的基于规则的翻译方法相比,统计机器翻译无需人类专家撰写大量规则,其翻译知识可以全自动的从双语语料库中获取;统计机器翻译具有语言无关性的特点,一个统计机器翻译系统可以翻译多种语言对,而无需做大量的改动,而基于规则的方法需要针对特定的语言对撰写特定的翻译规则。由于以上特点,统计机器翻译系统开发周期短,翻译质量好,是目前被广泛使用的翻译方法。由于统计机器翻译系统需要从双语平行语料库中学习翻译知识,因此,对于双语语料库的数量和 ...
【技术保护点】
一种基于短语的统计机器翻译方法,包括下列步骤:1)对源语言句进行短语划分,根据所述划分的短语从双语短语表中检索双语短语;2)检查所述划分的短语与所述双语短语匹配程度,如果完全匹配将所述双语短语加入候选短语表,执行步骤4),如果部分匹配,执行步骤3);3)根据所述双语短语的词语对齐,删除所述双语短语中与所述划分的短语不同的词语,把所述划分的短语中与所述双语短语不同词语的翻译填入所述双语短语的目标语言短语,生成新双语短语,并加入所述候选短语表;4)根据所述候选短语表翻译所述待翻译源语言句。
【技术特征摘要】
1.一种基于短语的统计机器翻译方法,包括下列步骤:1)对源语言句进行短语划分,根据所述划分的短语从双语短语表中检索双语短语;2)检查所述划分的短语与所述双语短语匹配程度,如果完全匹配将所述双语短语加入候选短语表,执行步骤4),如果部分匹配,执行步骤3);3)根据所述双语短语的词语对齐,删除所述双语短语中与所述划分的短语不同的词语,把所述划分的短语中与所述双语短语不同词语的翻译填入所述双语短语的目标语言短语,生成新双语短语,并加入所述候选短语表;4)根据所述候选短语表翻译所述待翻译源语言句。2.根据权利要求1所述的方法,其特征在于,所述双语短语包括源语言短语、目标语言短语,源语言短语和目标语言短语内部的词语对齐,短语翻译分数。3.根据权利要求2所述的方法,其特征在于,所述步骤2)根据相似度检查所述划分的短语与所述双语短语的匹配程度。4.根据权利要求3所述的方法,其特征在于,所述相似度根据所述划分的短语和所述双语短语的源语言短语中相同词语数量占所述划分的短语长度的比例进行计算。5.根据权利要求4所述的方法,其特征在于,所述步骤2)的部分匹配是相似度属于(0.3,1)。6.根据权利要求2所述的方法,其特征在于,所述步骤3)进一步包括以下步骤:31)比较所述划分的短语和所述双语短语的源语言短语中的词语,记录词语不同的位置;32)删除所述双语短语的源语言短语和目标语言短语的步骤31)所述位置的词语,形成所述翻译模板;33)翻译与所述双语短语的源语言短语中词语不同的所述划分的短语中的词语,并将翻译结果填入所述翻译模板,生成新双语短语,将所述新双语短语加入所述候选短语表。7.根据权利要求1所述的方法,其特征在于,所述步骤1)包括:11)对源语言句进行短语划分;12)根据所述双语短语的源语言短语建立索引,索引项是源语言短语,索引值是双语短语在所述双语短语表中的位置;13)根据所述划分的短语和所述索引从双语短...
【专利技术属性】
技术研发人员:何中军,刘群,林守勋,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。