翻译模型构建方法和装置制造方法及图纸

技术编号:20944574 阅读:30 留言:0更新日期:2019-04-24 02:25
本申请提出一种翻译模型构建方法和装置,其中,方法包括:在第一正例语料集中的翻译词对的数量小于阈值时,根据获取的第一正例语料集中的各翻译词对,随机生成负例语料集,其中,第一正例语料集及负例语料集中的翻译词对分别包括源语言及对应的目标语言,对第一正例语料集及负例语料集进行机器学习,以生成分类模型,利用分类模型,将预设的翻译模型进行剪枝处理,以生成与源语言及目标语言对应的翻译模型。该方法实现了在源语言与目标语言的双语语料较少时,利用源语言与目标语言的翻译词对得到分类模型,通过分类模型对借助于参考语言的得到的源语言与目标语言的翻译模型进行过滤,大大降低了翻译模型的噪声,提高了翻译模型的翻译质量。

Method and Device for Constructing Translation Model

This application proposes a translation model construction method and device. The method includes: when the number of translated word pairs in the first positive case corpus is less than the threshold value, according to the translated word pairs in the first positive case corpus, the negative case corpus is randomly generated, in which the translated word pairs in the first positive case corpus and the negative case corpus include the source language and the corresponding target language, respectively. In this paper, the first positive case corpus and negative case corpus are machine-learned to generate classification model, and the presupposed translation model is pruned by using classification model to generate translation model corresponding to source language and target language. When the bilingual corpus of the source language and the target language is small, the classification model is obtained by using the translation word pairs of the source language and the target language, and the translation model of the source language and the target language obtained by the reference language is filtered by the classification model, which greatly reduces the noise of the translation model and improves the translation quality of the translation model.

【技术实现步骤摘要】
翻译模型构建方法和装置
本申请涉及机器翻译
,尤其涉及一种翻译模型构建方法和装置。
技术介绍
在构建翻译模型时,通常利用大规模的双语语料来训练翻译模型,以提高翻译模型的翻译质量。但是,对于具有小语种的语言对,很难获得大规模双语语料,那么如果利用小规模的双语语料来训练翻译模型,得到的翻译模型的质量会比较低。
技术实现思路
本申请提出一种翻译模型构建方法和装置,用于解决利用小规模的双语语料训练翻译模型,得到的翻译模型的翻译质量较低的问题。本申请一方面实施例提出了一种翻译模型构建方法,包括:在第一正例语料集中的翻译词对的数量小于阈值时,根据获取的第一正例语料集中的各翻译词对,随机生成负例语料集,其中,所述第一正例语料集及负例语料集中的翻译词对分别包括源语言及对应的目标语言;对所述第一正例语料集及所述负例语料集进行机器学习,以生成分类模型;利用所述分类模型,将预设的翻译模型进行剪枝处理,以生成与所述源语言及目标语言对应的翻译模型;其中,所述预设的翻译模型,为将第一翻译模型及第二翻译模型融合后得到的翻译模型,第一翻译模型为利用包括源语言与参考语言的第二正例语料集训练得到的、第二翻译模型为利用包括参考语言与目标语言的第三正例语料集训练得到的。本申请实施例的翻译模型构建方法,通过在第一正例语料集中的翻译词对的数量小于阈值时,根据获取的第一正例语料集中的各翻译词对,随机生成负例语料集,其中,第一正例语料集及负例语料集中的翻译词对分别包括源语言及对应的目标语言,对第一正例语料集及负例语料集进行机器学习,以生成分类模型,利用分类模型,将预设的翻译模型进行剪枝处理,以生成与源语言及目标语言对应的翻译模型,其中,预设的翻译模型,为将第一翻译模型及第二翻译模型融合后得到的翻译模型,第一翻译模型为利用包括源语言与参考语言的第二正例语料集训练得到的、第二翻译模型为利用包括参考语言与目标语言的第三正例语料集训练得到的。由此,在源语言与目标语言的双语语料较少时,利用源语言与目标语言的翻译词对得到分类模型,通过分类模型对借助于参考语言的得到的源语言与目标语言的翻译模型进行过滤,大大降低了翻译模型的噪声,提高了翻译模型的翻译质量。本申请另一方面实施例提出了一种翻译模型构建装置,包括:第一生成模块,用于在第一正例语料集中的翻译词对的数量小于阈值时,根据获取的第一正例语料集中的各翻译词对,随机生成负例语料集,其中,所述第一正例语料集及负例语料集中的翻译词对分别包括源语言及对应的目标语言;第二生成模块,用于对所述第一正例语料集及所述负例语料集进行机器学习,以生成分类模型;第三生成模块,用于利用所述分类模型,将预设的翻译模型进行剪枝处理,以生成与所述源语言及目标语言对应的翻译模型;其中,所述预设的翻译模型,为将第一翻译模型及第二翻译模型融合后得到的翻译模型,所述第一翻译模型为利用包括源语言与参考语言的第二正例语料集训练得到的第一翻译模型、所述第二翻译模型为利用包括参考语言与目标语言的第三正例语料集训练得到的。本申请实施例的翻译模型构建装置,通过在第一正例语料集中的翻译词对的数量小于阈值时,根据获取的第一正例语料集中的各翻译词对,随机生成负例语料集,其中,第一正例语料集及负例语料集中的翻译词对分别包括源语言及对应的目标语言,对第一正例语料集及负例语料集进行机器学习,以生成分类模型,利用分类模型,将预设的翻译模型进行剪枝处理,以生成与源语言及目标语言对应的翻译模型,其中,预设的翻译模型,为将第一翻译模型及第二翻译模型融合后得到的翻译模型,第一翻译模型为利用包括源语言与参考语言的第二正例语料集训练得到的、第二翻译模型为利用包括参考语言与目标语言的第三正例语料集训练得到的。由此,在源语言与目标语言的双语语料较少时,利用源语言与目标语言的翻译词对得到分类模型,通过分类模型对借助于参考语言的得到的源语言与目标语言的翻译模型进行过滤,大大降低了翻译模型的噪声,提高了翻译模型的翻译质量。本申请另一方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述一方面实施例所述的翻译模型构建方法。本申请另一方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一方面实施例所述的翻译模型构建方法。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请实施例提供的一种翻译模型构建方法的流程示意图;图2为本申请实施例提供的另一种翻译模型构建方法的流程示意图;图3为本申请实施例提供的又一种翻译模型构建方法的流程示意图;图4为本申请实施例提供的再一种翻译模型构建方法的流程示意图;图5为本申请实施例提供的一种翻译模型构建装置的结构示意图;图6示出了适于用来实现本申请实施方式的示例性计算机设备的框图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的翻译模型构建方法和装置。本申请实施例,针对相关技术中对于语料较少的小语种语言对,直接利用双语语料训练得到的翻译模型的质量比较低的问题,提出一种翻译模型构建方法。本申请实施例提出的翻译模型构建方法,在源语言与目标语言的双语语料较少时,利用源语言与目标语言的翻译词对得到分类模型,通过分类模型对借助于参考语言的得到的源语言与目标语言的翻译模型进行过滤,大大降低了翻译模型的噪声,提高了翻译模型的翻译质量。图1为本申请实施例提供的一种翻译模型构建方法的流程示意图。本申请实施例的翻译模型构建方法,可由本申请实施例提供的翻译模型构建装置执行,以实现利用源语言与目标语言的翻译词对得到的分类模型,对借助于参考语言的得到的源语言与目标语言的翻译模型进行过滤,以提高翻译模型的翻译质量。如图1所示,该翻译模型构建方法包括:步骤101,在第一正例语料集中的翻译词对的数量小于阈值时,根据获取的第一正例语料集中的各翻译词对,随机生成负例语料集。在构建翻译模型时,通常是利用大规模的双语语料通过训练得到翻译模型,但是对于存在小语种的翻译模型,例如中文与日文,中日语料较少,通过少量的中日语料训练得到的中日翻译模型的翻译质量对比较低。本申请中,当源语言与目标语言的语料较少时,可借助于参考语言得到源语言与目标语言的预设的翻译模型,并利用源语言与目标语言的语料对翻译模型进行过滤,得到源语言与目标语言的翻译模型。具体而言,在第一正例语料集中的翻译词对的数量小于阈值时,可根据第一正例语料集中的各翻译词对,随机生成负例语料集。其中,第一正例语料集和负例语料集中的翻译词对均包括源语言及对应的目标语言。也就是说,第一例语料集和负例语料集中的翻译词对是源语言与目标语言词对。本实施例中,正例语料集中的翻译词对是正确的互译词对,而负例语料集中的翻译词对不是互译词对本文档来自技高网...

【技术保护点】
1.一种翻译模型构建方法,其特征在于,包括:在第一正例语料集中的翻译词对的数量小于阈值时,根据获取的第一正例语料集中的各翻译词对,随机生成负例语料集,其中,所述第一正例语料集及负例语料集中的翻译词对分别包括源语言及对应的目标语言;对所述第一正例语料集及所述负例语料集进行机器学习,以生成分类模型;利用所述分类模型,将预设的翻译模型进行剪枝处理,以生成与所述源语言及目标语言对应的翻译模型;其中,所述预设的翻译模型,为将第一翻译模型及第二翻译模型融合后得到的翻译模型,所述第一翻译模型为利用包括所述源语言与参考语言的第二正例语料集训练得到的、所述第二翻译模型为利用包括参考语言与所述目标语言的第三正例语料集训练得到的。

【技术特征摘要】
1.一种翻译模型构建方法,其特征在于,包括:在第一正例语料集中的翻译词对的数量小于阈值时,根据获取的第一正例语料集中的各翻译词对,随机生成负例语料集,其中,所述第一正例语料集及负例语料集中的翻译词对分别包括源语言及对应的目标语言;对所述第一正例语料集及所述负例语料集进行机器学习,以生成分类模型;利用所述分类模型,将预设的翻译模型进行剪枝处理,以生成与所述源语言及目标语言对应的翻译模型;其中,所述预设的翻译模型,为将第一翻译模型及第二翻译模型融合后得到的翻译模型,所述第一翻译模型为利用包括所述源语言与参考语言的第二正例语料集训练得到的、所述第二翻译模型为利用包括参考语言与所述目标语言的第三正例语料集训练得到的。2.如权利要求1所述的方法,其特征在于,所述利用所述分类模型,将预设的翻译模型进行剪枝处理,包括:将所述预设翻译模型中的双语数据库中的每个翻译词对分别输入所述分类模型中,以确定每个翻译词对为合法词对的概率;根据获取的合法词对对所述预设的翻译模型进行剪枝处理。3.如权利要求1所述的方法,其特征在于,所述对所述第一正例语料集及所述负例语料集进行机器学习之前,还包括:对所述第一正例语料集及所述负例语料集中的每个翻译词对进行解析处理,以确定每个翻译词对的特征集;所述利用所述分类模型,将预设的翻译模型进行剪枝处理之前,还包括:对所述预设的翻译模型中的双语数据库中的每个翻译词对进行解析处理,以确定每个翻译词对的特征集。4.如权利要求3所述的方法,其特征在于,所述每个翻译词对的特征集中包括以下特征中的至少一个:源语言短语长度、目标语言短语长度、翻译词对长度比及翻译词对互译概率值。5.如权利要求1-4任一所述的方法,其特征在于,所述根据获取的第一正例语料集中的各翻译词对,随机生成负例语料集,包括:将所述第一正例语料集的各翻译词对中的目标语言进行随机互换,生成所述负例语料集。6.如权利要求1-4任一所述的方法,其特征在于,所述根据获取的第一正例语料集中的各翻译词对,随机生成...

【专利技术属性】
技术研发人员:朱晓宁张睿卿何中军吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1