一种基于源语言复述资源的机器翻译方法及装置制造方法及图纸

技术编号:7718656 阅读:313 留言:0更新日期:2012-08-30 02:47
本发明专利技术提供了一种基于源语言复述资源的机器翻译方法,包括:获取源语言句子;选取所述源语言句子的难翻译片段;根据源语言的复述资源对所述难翻译片段进行扩展,以获取待翻译候选集合;对所述待翻译候选集合进行翻译,以得到翻译结果,通过上述方式,可以部分解决双语翻译资源匮乏的问题,有效地提高机器翻译的流利度,从而提高机器翻译的质量。

【技术实现步骤摘要】
一种基于源语言复述资源的机器翻译方法及装置
本专利技术涉及机器翻译领域,特别涉及一种基于源语言复述资源的机器翻译方法及装置。背景技木随着自然语言处理技术在各个领域的不断发展,机器翻译已经得到了越来越广泛地使用。评价机器翻译的质量主要有两个指标一是忠实度,表示翻译后的内容是否忠实地传达了被翻译内容的意思;ニ是流利度,表示被翻译的内容是否符合目标语言的语法。在实 际应用中,即使翻译的忠实度很高,但是如果流利度不够,还是会出现翻译结果不通畅的情况,从而影响用户的体验。现有技术通常只利用语言模型来衡量翻译质量,假如某个翻译结果的片段在语言模型中出现的概率很低,则认为这个翻译结果是不流利的,但是现有技术并没有很好地解决翻译不流利的问题。实际上,翻译不流利的主要原因是双语翻译资源的匮乏。在机器翻译中,双语语料库是很重要的资源,所谓双语语料库,就是说对应相同的含义,源语言与目标语言有配对的信息,这些信息组合在一起形成了双语语料库。所谓的源语言与目标语言是针对翻译行为而言的,例如从英文翻译成中文,英文就是源语言,中文就是目标语言。当要翻译的源语言句子中的片段无法在双语语料库中找到对应的目标语言片本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于源语言复述资源的机器翻译方法,其特征在于,所述方法包括 a.获取源语言句子; b.选取所述源语言句子的难翻译片段; c.根据源语言的复述资源对所述难翻译片段进行扩展,以获取待翻译候选集合; d.对所述待翻译候选集合进行翻译,以得到翻译結果。2.根据权利要求I所述的方法,其特征在于,所述步骤b进ー步包括 bl.对所述源语言句子进行分词处理,以获得分词结果; b2.通过控制片段长度将所述源语言句子划分为不同的片段集合,以得到全部的源语言句子片段,所述片段长度表示每一所述源语言句子片段可以包含的所述分词结果的词语数量; b3.对所述全部的源语言句子片段进行识别,确定其中的难翻译片段。3.根据权利要求2所述的方法,其特征在于,在所述步骤b3中,利用机器学习得到的分类器进行识别。4.根据权利要求3所述的方法,其特征在于,所述分类器采用的特征进一歩包括所述源语言句子片段中平均未登录词的个数。5.根据权利要求3所述的方法,其特征在于,所述分类器采用的特征进一歩包括所述源语言句子片段中平均包含的介词短语的个数。6.根据权利要求3所述的方法,其特征在于,所述分类器采用的特征进一歩包括所述源语言句子片段相对于前后片段被调序的概率。7.根据权利要求3所述的方法,其特征在于,所述分类器采用的特征进一歩包括所述源语言句子片段在语言模型中的概率。8.根据权利要求I所述的方法,其特征在于,所述复述资源进一歩包括词、短语或句子。9.根据权利要求I所述的方法,其特征在于,所述方法进ー步包括 e.对所述翻译结果进行评分,以得到最佳的N个翻译結果。10.根据权利要求9所述的方法,其特征在于,所述步骤e采用对数线性模型对所述翻译结果进行评分。11.根据权利要求10所述的方法,其特征在于,建立所述对数线性模型时使用的ー个特征为所述复述资源及其权重。12.一种基于源语言复述资源的机器翻译装置,其特征在于,所述装...

【专利技术属性】
技术研发人员:吴华赵世奇王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1