【技术实现步骤摘要】
一种基于目标语言复述资源的机器翻译方法及装置
本专利技术涉及机器翻译领域,特别涉及一种基于目标语言复述资源的机器翻译方法及装置。背景技木随着自然语言处理技术在各个领域的不断发展,机器翻译已经得到了越来越广泛地使用。评价机器翻译的质量主要有两个指标一是忠实度,表示翻译后的内容是否忠实地传达了被翻译内容的意思;ニ是流利度,表示被翻译的内容是否符合目标语言的语法。在实际应用中,即使翻译的忠实度很高,但是如果流利度不够,还是会出现翻译结果不通畅的情况,从而影响用户的体验。 现有技术通常只利用语言模型来衡量翻译质量,假如某个翻译结果的片段在语言模型中出现的概率很低,则认为这个翻译结果是不流利的,但是现有技术并没有很好地解决翻译不流利的问题。实际上,翻译不流利的主要原因是双语翻译资源的匮乏。在机器翻译中,双语语料库是很重要的资源,所谓双语语料库,就是说对应相同的含义,源语言与目标语言有配对的信息,这些信息组合在一起形成了双语语料库。所谓的源语言与目标语言是针对翻译行为而言的,例如从英文翻译成中文,英文就是源语言,中文就是目标语言。当要翻译的源语言句子中的片段无法在双语语料 ...
【技术保护点】
【技术特征摘要】
1.一种基于目标语言复述资源的机器翻译方法,其特征在于,所述方法包括 a.获取N-Best个翻译结果,所述翻译结果由翻译片段组成; b.选取所述翻译结果的难翻译片段; c.根据目标语言的复述资源对所述难翻译片段进行扩展,以得到候选翻译结果集合; d.对所述的候选翻译结果集合进行评分,以得到最佳翻译結果。2.根据权利要求I所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述步骤b进ー步包括 bl.计算所述翻译片段的置信度; b2.根据所述置信度识别难翻译的片段。3.根据权利要求2所述的基于目标语言复述资源的机器翻译方法,其特征在干,影响所述置信度的因素包括所述翻译片段在所述N-Best个翻译结果中的后验概率和所述翻译片段在目标语言模型中的概率。4.根据权利要求I所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述步骤b中,采用机器学习得到的分类器来选取所述难翻译片段。5.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述分类器采用的特征进一歩包括所述翻译片段在所述N-Best个翻译结果中的后验概率。6.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述分类器采用的特征进一歩包括所述翻译片段在目标语言模型中的概率。7.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述分类器采用的特征进一歩包括所述翻译片段的平均未登录词的个数。8.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述分类器采用的特征进一歩包括所述翻译片段的词对齐的比例。9.根据权利要求I所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述复述资源进ー步包括词、短语或句子。10.根据权利要求I所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述步骤d中,采用对数线性模型进行评分。11.根据权利要求10所述的基于目标语言复述资源的机器翻译方法,其特征在于,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。12.一种基于目标语言复述资源的机器翻译装置...
【专利技术属性】
技术研发人员:吴华,赵世奇,王海峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。