This application proposes a translation model construction method and device. The method includes: when the number of translated word pairs in the first positive case corpus is less than the threshold value, according to the translated word pairs in the first positive case corpus, the negative case corpus is randomly generated, in which the translated word pairs in the first positive case corpus and the negative case corpus include the source language and the corresponding target language, respectively. In this paper, the first positive case corpus and negative case corpus are machine-learned to generate classification model, and the presupposed translation model is pruned by using classification model to generate translation model corresponding to source language and target language. When the bilingual corpus of the source language and the target language is small, the classification model is obtained by using the translation word pairs of the source language and the target language, and the translation model of the source language and the target language obtained by the reference language is filtered by the classification model, which greatly reduces the noise of the translation model and improves the translation quality of the translation model.
【技术实现步骤摘要】
翻译模型构建方法和装置
本申请涉及机器翻译
,尤其涉及一种翻译模型构建方法和装置。
技术介绍
在构建翻译模型时,通常利用大规模的双语语料来训练翻译模型,以提高翻译模型的翻译质量。但是,对于具有小语种的语言对,很难获得大规模双语语料,那么如果利用小规模的双语语料来训练翻译模型,得到的翻译模型的质量会比较低。
技术实现思路
本申请提出一种翻译模型构建方法和装置,用于解决利用小规模的双语语料训练翻译模型,得到的翻译模型的翻译质量较低的问题。本申请一方面实施例提出了一种翻译模型构建方法,包括:在第一正例语料集中的翻译词对的数量小于阈值时,根据获取的第一正例语料集中的各翻译词对,随机生成负例语料集,其中,所述第一正例语料集及负例语料集中的翻译词对分别包括源语言及对应的目标语言;对所述第一正例语料集及所述负例语料集进行机器学习,以生成分类模型;利用所述分类模型,将预设的翻译模型进行剪枝处理,以生成与所述源语言及目标语言对应的翻译模型;其中,所述预设的翻译模型,为将第一翻译模型及第二翻译模型融合后得到的翻译模型,第一翻译模型为利用包括源语言与参考语言的第二正例语料集训练得到的、第二翻译模型为利用包括参考语言与目标语言的第三正例语料集训练得到的。本申请实施例的翻译模型构建方法,通过在第一正例语料集中的翻译词对的数量小于阈值时,根据获取的第一正例语料集中的各翻译词对,随机生成负例语料集,其中,第一正例语料集及负例语料集中的翻译词对分别包括源语言及对应的目标语言,对第一正例语料集及负例语料集进行机器学习,以生成分类模型,利用分类模型,将预设的翻译模型进行剪枝处理,以生成与源 ...
【技术保护点】
1.一种翻译模型构建方法,其特征在于,包括:在第一正例语料集中的翻译词对的数量小于阈值时,根据获取的第一正例语料集中的各翻译词对,随机生成负例语料集,其中,所述第一正例语料集及负例语料集中的翻译词对分别包括源语言及对应的目标语言;对所述第一正例语料集及所述负例语料集进行机器学习,以生成分类模型;利用所述分类模型,将预设的翻译模型进行剪枝处理,以生成与所述源语言及目标语言对应的翻译模型;其中,所述预设的翻译模型,为将第一翻译模型及第二翻译模型融合后得到的翻译模型,所述第一翻译模型为利用包括所述源语言与参考语言的第二正例语料集训练得到的、所述第二翻译模型为利用包括参考语言与所述目标语言的第三正例语料集训练得到的。
【技术特征摘要】
1.一种翻译模型构建方法,其特征在于,包括:在第一正例语料集中的翻译词对的数量小于阈值时,根据获取的第一正例语料集中的各翻译词对,随机生成负例语料集,其中,所述第一正例语料集及负例语料集中的翻译词对分别包括源语言及对应的目标语言;对所述第一正例语料集及所述负例语料集进行机器学习,以生成分类模型;利用所述分类模型,将预设的翻译模型进行剪枝处理,以生成与所述源语言及目标语言对应的翻译模型;其中,所述预设的翻译模型,为将第一翻译模型及第二翻译模型融合后得到的翻译模型,所述第一翻译模型为利用包括所述源语言与参考语言的第二正例语料集训练得到的、所述第二翻译模型为利用包括参考语言与所述目标语言的第三正例语料集训练得到的。2.如权利要求1所述的方法,其特征在于,所述利用所述分类模型,将预设的翻译模型进行剪枝处理,包括:将所述预设翻译模型中的双语数据库中的每个翻译词对分别输入所述分类模型中,以确定每个翻译词对为合法词对的概率;根据获取的合法词对对所述预设的翻译模型进行剪枝处理。3.如权利要求1所述的方法,其特征在于,所述对所述第一正例语料集及所述负例语料集进行机器学习之前,还包括:对所述第一正例语料集及所述负例语料集中的每个翻译词对进行解析处理,以确定每个翻译词对的特征集;所述利用所述分类模型,将预设的翻译模型进行剪枝处理之前,还包括:对所述预设的翻译模型中的双语数据库中的每个翻译词对进行解析处理,以确定每个翻译词对的特征集。4.如权利要求3所述的方法,其特征在于,所述每个翻译词对的特征集中包括以下特征中的至少一个:源语言短语长度、目标语言短语长度、翻译词对长度比及翻译词对互译概率值。5.如权利要求1-4任一所述的方法,其特征在于,所述根据获取的第一正例语料集中的各翻译词对,随机生成负例语料集,包括:将所述第一正例语料集的各翻译词对中的目标语言进行随机互换,生成所述负例语料集。6.如权利要求1-4任一所述的方法,其特征在于,所述根据获取的第一正例语料集中的各翻译词对,随机生成...
【专利技术属性】
技术研发人员:朱晓宁,张睿卿,何中军,吴华,王海峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。