【技术实现步骤摘要】
本申请涉及机器翻译
,具体涉及到机器翻译领域中平行语料选取技术。
技术介绍
在全球化趋势下,世界各国、各民族之间的交往越来越频繁。而要进行畅通无阻的交流,语言是一大障碍。于是,机器翻译作为从一种语言到另一种语言的自动翻译有着巨大的市场需求和广泛的应用前景。相对于基于规则的机器翻译方法,近年来,统计机器翻译研究得到了迅猛的发展,提出了很多新的模型和方法并取得了很好的效果。统计机器翻译系统的构建一般分为训练和翻译两个主要步骤。训练步骤是从语料中学习统计知识并进行参数训练。典型的基于短语的统计机器翻译系统的训练包含在大规模的双语语料库上的翻译模型训练、在目标语言的单语语料库上的语言模型训练、参数训练三个主要部分。如果抛开翻译系统模型的好坏而纯从训练语料的角度来看,训练语料与待翻译文本的领域相似性与统计机器翻译系统的质量有着重要关系。领域相似性越高,翻译系统的效果越好。训练得到的模型在翻译同一领域的文本时通常会得到质量较高的译文,但翻译其他领域文本时,翻译质量明显下降。如,在商务领域语料上训练出来的模型无法较好地应用在餐饮领域的翻译上。然而,就翻译模型 ...
【技术保护点】
基于领域相似性度量方法的统计机器翻译方法,其特征在于,所述统计机器翻译方法为在现有统计机器翻译方法中,在从双语平行的训练语料库中选取与翻译文本的领域相似性高的若干篇文档作为训练语料。
【技术特征摘要】
1.基于领域相似性度量方法的统计机器翻译方法,其特征在于,所述统计机器翻译方法为在现有统计机器翻译方法中,在从双语平行的训练语料库中选取与翻译文本的领域相似性高的若干篇文档作为训练语料。2.根据权利要求1所述的基于领域相似性度量方法的统计机器翻译方法,其特征在于,在从双语平行的训练语料库中选取与翻译文本的领域最相似的若干篇文档作为训练语料的过程为:将翻译文本逐一与双语平行训练语料库中的文档进行相似性度量,然后对所有度量结果进行排序,选取度量结果最佳的若干篇文档作为训练语料。3.根据权利要求2所述的基于领域相似性度量方法的统计机器翻译方法,其特征在于,将翻译文本与双语平行训练语料库中的任意一个文档进行相似性度量的方法为: 采用相对词频作为特征代表,采用余弦距离函数、变分距离函数、欧式距离函数、偏斜距离函数或者JS距离函数作为相似度函数进行文当相似性度量。4.根据权利要求3所述的基于领域相似性度量方法的统计机器翻译方法,其特征在于,所述相对词频的获得方法为采用TF-1DF公式计算相对词频(TF),所述TF-1DF公式为:TF-1DF=词频(TF) X逆文档频率(IDF),其中:词频(TF):某个词在文章中的出现次数’ 文章的总词数 , f语料库的文档总数)逆又档频率(IDF) = 1g ,.,加,就^ ο '包含该词的又档数+ 1J5.根据权利要求2所述的基于领域相似性度量方法的统计机器翻译方法,其特征在于,将翻译文本与双语平行训练语料库中的任意一个文档进行相似性度量的方法为: 采用主题模型作为特征代表,采用余弦距离函数、变分距离函数、欧式距离函数、偏斜距离函数或者JS距离函数作为相似度函数进行文当相似性度量。6.根据权利要求3...
【专利技术属性】
技术研发人员:曹海龙,刘淋,赵铁军,郑德权,杨沐昀,徐冰,朱聪慧,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。