基于伪反馈的个性化机器翻译系统及方法技术方案

技术编号:10742543 阅读:145 留言:0更新日期:2014-12-10 15:44
本发明专利技术涉及一种基于伪反馈的个性化机器翻译系统及方法。现有传统的机器翻译方法无法获得高质量的个性化翻译系统,造成不能满足用户各种翻译需求的问题。本发明专利技术翻译系统包括:用短语表过滤模块、输入模块、初步翻译模块、伪反馈检索模块、短语表分类模块和解码器模块。基于伪反馈的个性化机器翻译方法包括:输入过程:用户将翻译任务S输入;初步翻译过程:利用初步翻译模块得到翻译任务的初步机器翻译结果T′;伪反馈检索过程:利用伪反馈检索模块检索得到相似翻译实例的初步翻译结果和标准翻译译文R;短语表分类过程:使训练后的通用后编辑模型变成个性化后编辑模型,再过滤得到优化的个性化后编辑模型;解码器模块解码过程:以优化的个性化后编辑模型对翻译任务的初步机器翻译结果T′进行解码,得到佳化的最终翻译结果。本发明专利技术用于机器翻译领域。

【技术实现步骤摘要】
基于伪反馈的个性化机器翻译系统及方法
本专利技术涉及一种个性化机器翻译系统及方法,属于机器翻译领域。
技术介绍
近年来随着机器翻译技术的迅速发展,其翻译的质量已经有了很大程度上的提升,目前一些通用的在线翻译服务已经能够帮助人们突破语言的障碍去阅读和理解一些常用的跨语言的文本。然而进一步提升机器翻译的质量却遇到了很大的困难。一方面,因为现有的统计机器翻译技术主要缺点是,如果要完成个性化翻译,需要大量的用户反馈信息,并在这些数据上进行统计训练建模,实现一个个性化的机器翻译模型。而这些训练所需的用户反馈信息的获得是十分困难的,并且现有方法无法有效利用这些反馈信息,从而无法获得高质量的个性化翻译系统。虽然通过传统的后编辑能够利用用户反馈信息,但是由于可使用用户数据较少,导致统计后编辑模型的优势难以发挥出来。另一方面,传统的机器翻译方法的优化目标通常是基于开放式领域的,而不是针对于特定的翻译任务进行的。尽管存在针对领域自适应问题的研究,但仍属于针对专业群体,而面对广泛又多样的机器翻译用户尤其是互联网在线用户而言,无法满足用户各种翻译需求。所以进一步提高机器翻译的质量是我们要亟待解决的一个技术问题。
技术实现思路
本专利技术的目的是为了解决传统的机器翻译方法无法获得高质量的个性化翻译系统,造成不能满足用户各种翻译需求的问题,而提出一种能够提高机器翻译质量的基于伪反馈的个性化机器翻译系统和翻译方法。一种基于伪反馈的个性化机器翻译系统,所述翻译系统包括:用于对开发集数据的每个通用后编辑模型短语表进行过滤的短语表过滤模块;用于获得用户输入的翻译任务S的输入模块;用于对用户输入翻译任务S之后进行翻译而得到翻译任务的初步机器翻译结果T′,对本地系统提供的翻译实例库的源语言句子进行翻译得到翻译实例初步翻译句子T的初步翻译模块;用于在本地系统词对齐形式的翻译实例库中,检索得到相似翻译实例的初步翻译结果和标准翻译译文R的伪反馈检索模块;用于对训练后的后编辑模型的短语表进行分类而得到个性化后编辑模型的短语表分类模块;用于对伪反馈检索模块检索得到的相似翻译实例的初步翻译结果进行解码,而得到最终的翻译结果的解码器模块。一种基于伪反馈的个性化机器翻译翻译系统的翻译方法,在用户输入翻译任务S之前,利用翻译记忆中的翻译实例初步翻译句子T和标准翻译译文R采用统计方法训练通用后编辑模型,完成通用后编辑模型的训练过程;所述个性化机器翻译方法通过以下步骤实现:步骤一,短语表过滤模过程:利用短语表过滤模块对开发集数据的每个通用后编辑模型短语表进行过滤;基于过滤后的结果采用默认权重对开发集数据中每个句子Di进行解码,产生n-best翻译结果;然后,将n-best翻译结果进行结合;最后,使用MERT工具对结合后的n-best翻译结果整体调参,还能够实现特征参数优化过程;步骤二,输入过程:用户将翻译任务S输入至输入模块;步骤三,初步翻译过程:所述初步翻译过程包括用户输入翻译任务S之前和用户输入翻译任务S之后两部分;在用户输入翻译任务S之前,利用本地系统的机器翻译系统搭建的翻译平台,将本地系统提供的翻译实例库的源语言句子进行初步翻译,得到翻译实例初步翻译句子T;同时,通过输入模块获得用户输入的翻译任务S之后,利用初步翻译模块翻译得到翻译任务的初步机器翻译结果T′;步骤四,伪反馈检索过程:根据步骤三中得到的翻译实例初步翻译句子T,在本地词对齐形式的翻译实例库中,利用伪反馈检索模块以源语言词袋模型进行余弦相似度的检索,得到相似翻译实例的初步翻译结果和标准翻译译文R,并从相似翻译实例的初步翻译结果和标准翻译译文R的检索结果中选择最相似的前900-1100个;其中,所述余弦相似度CS按照以源语言词袋模型为单元的向量空间模型计算,所述余弦相似度CS的计算方法为:其中,Vec(Sexample)为翻译实例的源语言句子向量,Vec(Sinput)为翻译任务向量,Vec(Sinput)·Vec(Sexample)是两个向量的内积,||·||是向量的范数;步骤五,短语表分类过程:根据步骤四选择的最相似的前900-1100个相似翻译实例的初步翻译结果和标准翻译译文R,利用短语表分类模块将训练后的通用后编辑模型的短语表分类为有助于提升翻译质量的积极短语和对最终翻译结果融入噪音的消极短语,使训练后的通用后编辑模型变成个性化后编辑模型,再将个性化后编辑模型中的积极短语和消极短语与步骤四中伪反馈检索过程检索出的相似翻译实例的初步翻译结果和标准翻译译文R对比,将所述消极短语从个性化后编辑模型短语表中过滤掉,从而得到一个优化的个性化后编辑模型;步骤六,解码器模块解码过程:以步骤五中优化的个性化后编辑模型作为翻译模型,利用解码器模块使用传统的机器翻译解码方法对步骤三获得的翻译任务的初步机器翻译结果T′进行解码,得到佳化的最终翻译结果。本专利技术的有益效果为:本专利技术是利用伪反馈检索模块对翻译实例库中进行相似翻译实例进行检索,再通过短语表分类模块对通用后编辑短语进行分类,过滤掉消极后编辑短语,选择后编辑规则而获得优化的个性化后编辑模型,从而提升机器翻译的质量。另外,通过在初步翻译过程中搭建后编辑模型时应用特征参数优化过程,并在特征参数优化过程中,对于给定的开发集数据,对输入的进行分别解码,而后进行整体调参,具有有效优化参数、提升系统性能的好处。特别的,在利用伪反馈检索模块在本地翻译实例库数据集中检索过程中,得到与由用户输入获得的待翻译句子初步翻译结果相似的平行语句对来代替反馈信息,从而解决了难以获取用户反馈信息这一问题。另外,本专利技术方法很好的利用了反馈信息,在初始翻译模型上建立有效地后编辑模型,本专利技术的基于伪反馈的个性化机器翻译系统及方法得到的翻译结果与谷歌的翻译结果进行对比,其翻译质量提高了19.5%;与Moses工具训练出的机器翻译系统的翻译结果进行对比,其翻译质量提高了14.1%附图说明图1为本专利技术的翻译流程示意图。具体实施方式具体实施方式一:本实施方式的基于伪反馈的个性化机器翻译系统,所述翻译系统包括:用于对开发集数据的每个通用后编辑模型短语表进行过滤的短语表过滤模块;用于获得用户输入的翻译任务S的输入模块;用于对用户输入翻译任务S之后进行翻译而得到翻译任务的初步机器翻译结果T′,对本地系统提供的翻译实例库的源语言句子进行翻译得到翻译实例初步翻译句子T的初步翻译模块;用于在本地系统词对齐形式的翻译实例库中,检索得到相似翻译实例的初步翻译结果和标准翻译译文R的伪反馈检索模块;用于对训练后的后编辑模型的短语表进行分类而得到个性化后编辑模型的短语表分类模块;用于对伪反馈检索模块检索得到的相似翻译实例的初步翻译结果进行解码,而得到最终的翻译结果的解码器模块。具体实施方式二:与具体实施方式一不同的是,本实施方式所述基于伪反馈的个性化机器翻译系统,所述短语表过滤模块包含于所述短语表分类模块内。具体实施方式三:本实施方式的基于伪反馈的个性化机器翻译系统的翻译方法,在用户输入翻译任务S之前,利用翻译记忆中的翻译实例初步翻译句子T和标准翻译译文R采用统计方法训练通用后编辑模型,完成通用后编辑模型的训练过程;所述个性化机器翻译方法通过以下步骤实现:步骤一,短语表过滤模过程:利用短语表过滤模块对开发集数据的每个本文档来自技高网...
基于伪反馈的个性化机器翻译系统及方法

【技术保护点】
一种基于伪反馈的个性化机器翻译系统,其特征在于,所述翻译系统包括:用于对开发集数据的每个通用后编辑模型短语表进行过滤的短语表过滤模块;用于获得用户输入的翻译任务S的输入模块;用于对用户输入翻译任务S之后进行翻译而得到翻译任务的初步机器翻译结果T′,对本地系统提供的翻译实例库的源语言句子进行翻译得到翻译实例初步翻译句子T的初步翻译模块;用于在本地系统词对齐形式的翻译实例库中,检索得到相似翻译实例的初步翻译结果和标准翻译译文R的伪反馈检索模块;用于对训练后的后编辑模型的短语表进行分类而得到个性化后编辑模型的短语表分类模块;用于对伪反馈检索模块检索得到的初步机器翻译结果进行解码,而得到最终的翻译结果的解码器模块。

【技术特征摘要】
1.一种基于伪反馈的个性化机器翻译系统,其特征在于,所述翻译系统包括:用于对开发集数据的每个通用后编辑模型短语表进行过滤的短语表过滤模块;用于获得用户输入的翻译任务S的输入模块;用于对用户输入翻译任务S之后进行翻译而得到翻译任务的初步机器翻译结果T′,对本地系统提供的翻译实例库的源语言句子进行翻译得到翻译实例初步翻译句子T的初步翻译模块;用于在本地系统词对齐形式的翻译实例库中,检索得到相似翻译实例的初步翻译结果和标准翻译译文R的伪反馈检索模块;用于对训练后的后编辑模型的短语表进行分类而得到个性化后编辑模型的短语表分类模块;用于对伪反馈检索模块检索得到的相似翻译实例的初步翻译结果进行解码,而得到最终的翻译结果的解码器模块。2.根据权利要求1所述基于伪反馈的个性化机器翻译系统,其特征在于,所述短语表过滤模块包含于所述短语表分类模块内。3.一种权利要求2所述的基于伪反馈的个性化机器翻译系统的翻译方法,其特征在于:在用户输入翻译任务S之前,利用翻译记忆中的翻译实例初步翻译句子T和标准翻译译文R采用统计方法训练通用后编辑模型,完成通用后编辑模型的训练过程;所述个性化机器翻译方法通过以下步骤实现:步骤一,短语表过滤过程:利用短语表过滤模块对开发集数据的每个通用后编辑模型短语表进行过滤;基于过滤后的结果采用默认权重对开发集数据中每个句子Di进行解码,产生n-best翻译结果;然后,将n-best翻译结果进行结合;最后,使用MERT工具对结合后的n-best翻译结果整体调参,还能够实现特征参数优化过程;步骤二,输入过程:用户将翻译任务S输入至输入模块;步骤三,初步翻译过程:所述初步翻译过程包括用户输入翻译任务S之前和用户输入翻译任务S之后两部分;在用户输入翻译任务S之前,利用本地系统的机器翻译系统搭建的翻译平台,将本地系统提供的翻译实例库的源语言句子进行初步翻译,得到翻译实例初步翻译句子T;同时,通过输入模块获得用户输入的翻译任务S之后,利用初步翻译模块翻译得到翻译任务的初步机器翻译结果T′;步骤四,伪反馈检索过程:根据步骤三中得到的翻译实例初步翻译句子T,在本地词对齐形式的翻译实例库中,利用伪反馈检索模块以源语言词袋模型进行余弦相似度的检索,得到相似翻译实例的初步翻译结果和标准翻译译文R,并从相似翻译实例的初步翻译结果和标准翻译译文R的检索结果中选择最相似的前900-1100个;其中,所述余弦相似度CS按照以源语言词袋模型为单元的向量空间模...

【专利技术属性】
技术研发人员:杨沐昀朱俊国赵铁军李生徐冰曹海龙朱聪慧郑德权
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1