【技术实现步骤摘要】
基于多级翻译模型生成中泰双语语料的方法及装置
本专利技术涉及文本翻译
,更具体地,涉及基于多级翻译模型生成中泰双语语料的方法及装置。
技术介绍
训练一个较高质量机器翻译模型往往需要上百万的双语平行语料。然而对于一些资源较为稀缺的双语语种对,例如中泰双语语料,机翻模型的构建往往是一个不小的挑战。为了解决这个问题,NLP(NaturalLanguageProcessing)工程师往往会做数据合成的工作来产生更多的双语数据,再利用这些合成语料进行机翻模型的训练。由于高质量且数量众多的单语语料很容易获得,因此当前主要的合成方法是基于大量的单语语料和少量的双语语料。例如,对于中泰双语语料,利用当前已有的中泰双语构建一个基础的机翻模型,再利用此机翻模型翻译大量的中文单语成为相应的泰语,以产生合成的中泰双语;最后叠加所有的双语数据进行最终模型的训练。但目前的训练方式存在翻译准确度不够高的问题。
技术实现思路
本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的基于多级翻译模型生成中泰双语语料的 ...
【技术保护点】
1.一种基于多级翻译模型生成中泰双语语料的方法,其特征在于,包括:/n获取中文原文句子和泰文原文句子;/n将所述中文原文句子输入至预先训练完成的第一两级翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二两级翻译模型,输出中文译文句子;/n其中,所述第一两级翻译模型和第二两级翻译模型以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。/n
【技术特征摘要】
1.一种基于多级翻译模型生成中泰双语语料的方法,其特征在于,包括:
获取中文原文句子和泰文原文句子;
将所述中文原文句子输入至预先训练完成的第一两级翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二两级翻译模型,输出中文译文句子;
其中,所述第一两级翻译模型和第二两级翻译模型以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。
2.根据权利要求1所述的基于多级翻译模型生成中泰双语语料的方法,其特征在于,所述第一两级翻译模型和所述第二两级翻译模型的训练方法包括:
根据所述高资源的中英双语语料训练用于将中文原文翻译为英文译文的中英翻译模型和用于将英文原文翻译为中文译文的英中翻译模型;根据所述高资源的泰英双语语料训练用于将泰文原文翻译为泰文译文的泰英翻译模型和用于将英文原文翻译为泰文译文的英泰翻译模型;
分别构建第一三级翻译模型和第二三级翻译模型,所述第一三级翻译模型沿数据传输方向包括所述中英翻译模型、所述英泰翻译模型和所述泰英翻译模型,所述第二三级翻译模型沿数据传输方向包括所述泰英翻译模型、所述英中翻译模型和所述中英翻译模型,根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型;
将训练好的第二三级翻译模型中的中英翻译模型和训练好的第三翻译模型中的英泰翻译模型组成所述第一两级翻译模型,将训练好的第一三级翻译模型中的泰英翻译模型和训练好的第四翻译模型中的英中翻译模型组成所述第二两级翻译模型。
3.根据权利要求2所述的基于多级翻译模型生成中泰双语语料的方法,其特征在于,所述根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型,包括:
将所述低资源的中泰双语语料中的中文原文输入至所述第一三级翻译模型进行训练,获取所述第一三级翻译模型中的英泰翻译模型输出的泰文译文以及泰英翻译模型输出的英文译文;
根据所述英泰翻译模型输出的泰文译文与所述中文原文的真实泰文译文间的差异,对所述英泰翻译模型的参数进行调整;根据所述泰英翻译模型输出的英文译文与所述第一三级翻译模型中的中英翻译模型输出的英文译文间的差异,对所述泰英翻译模型的参数进行调整。
4.根据权利要求2或3所述的基于多级翻译模型生成中泰双语语料的方法,其特征在于,所述根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型,包括:
将所述低资源的中泰双语语料中的泰文原文输入至所述第二三级翻译模型,获取所述第二三级翻译模型中的英中翻译模型输出的中文译文以及中英翻译模型输出的英文译文;
根据所述英中翻译模型输出的中文译文与所述泰文原文的真实中文译文间的差异,对所述英中翻译模...
【专利技术属性】
技术研发人员:张睦,
申请(专利权)人:语联网武汉信息技术有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。