翻译模型的训练方法、装置、电子设备、及存储介质制造方法及图纸

技术编号：24457870 阅读：30 留言：0更新日期：2020-06-10 16:05

本公开实施例公开了一种翻译模型的训练方法、装置、电子设备、及存储介质，方法包括：基于训练用的第一平行语对集合进行模型训练得到正向翻译模型和反向翻译模型；将测试用的第二平行语对集合进行分类划分为多个测试子集，分别采用测试子集测试正向翻译模型和反向翻译模型，根据测试结果确定低质类别集；将第一平行语对集合拆分为属于低质类别集的第三平行语对子集和不属于低质类别集的第四平行语对子集；基于第三平行语对子集分别采用正向翻译模型和反向翻译模型进行翻译得到伪平行语对，与第四平行语对子集混合后再对正向翻译模型和反向翻译模型进行训练。本公开实施例能够利用反向翻译技术提升低质领域语料质量，能提升模型质量。

Training method, device, electronic equipment and storage medium of translation model

全部详细技术资料下载

【技术实现步骤摘要】
翻译模型的训练方法、装置、电子设备、及存储介质
本公开实施例涉及自然语言处理
，具体涉及一种翻译模型的训练方法、装置、电子设备、及存储介质。
技术介绍
目前机器翻译领域主要运用基于神经网络的机器翻译算法。算法模型主体由编码器(encoder)和解码器(decoder)组成。在该类算法中，以谷歌在2017年发表的Transformer模型最为流行。虽然基于神经网络的翻译模型准确性很高，但是需要大量平行语料来训练模型，在低资源情况下,经训练后的翻译模型的性能可能会比较差。
技术实现思路
有鉴于此，本公开实施例提供一种翻译模型的训练方法、装置、电子设备、及存储介质，以提升模型质量。本公开实施例的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开实施例的实践而习得。第一方面，本公开实施例提供了一种翻译模型的训练方法，包括：基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型，以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反...

【技术保护点】
1.一种翻译模型的训练方法，其特征在于，包括：/n基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型，以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型，其中，所述平行语对包括源语言的源语句和目标语言的目标语句；/n将测试用的第二平行语对集合进行分类划分为多个测试子集，分别采用所述测试子集测试所述正向翻译模型和所述反向翻译模型，根据测试结果确定翻译效果指标最差的至少一个测试子集，获取所述至少一个测试子集对应的至少一个分类作为低质类别集；/n将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集，其中，所述第三平行语对子集中的平行语对属...

【技术特征摘要】
1.一种翻译模型的训练方法，其特征在于，包括：
基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型，以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型，其中，所述平行语对包括源语言的源语句和目标语言的目标语句；
将测试用的第二平行语对集合进行分类划分为多个测试子集，分别采用所述测试子集测试所述正向翻译模型和所述反向翻译模型，根据测试结果确定翻译效果指标最差的至少一个测试子集，获取所述至少一个测试子集对应的至少一个分类作为低质类别集；
将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集，其中，所述第三平行语对子集中的平行语对属于所述低质类别集，所述第四平行语对子集中的平行语对不属于所述低质类别集；
将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译，以及将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译，根据翻译结果生成平行语对集合，根据所生成的平行语对集合和所述第四平行语对子集，对所述正向翻译模型和所述反向翻译模型进行训练。

2.根据权利要求1所述的方法，其特征在于：
基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型包括：
利用机器学习的方法，将基于训练用的第一平行语对集合中任一平行语对的源语句作为第一初始翻译模型的输入，将该平行语对的目标语句作为所述第一初始翻译模型的期望输出，训练得到正向翻译模型；
基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型包括：
利用机器学习的方法，将所述第一平行语对集合中任一平行语对的目标语句作为第二初始翻译模型的输入，将该平行语对的源语句作为所述第二初始翻译模型的期望输出，训练得到反向翻译模型。

3.根据权利要求1所述的方法，其特征在于，将测试用的第二平行语对集合进行分类划分为多个测试子集包括：
通过用于识别平行语对所属领域的领域分类模型，将测试用的第二平行语对集合进行领域分类划分为多个测试子集。

4.根据权利要求3所述的方法，其特征在于，将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集包括：
通过所述领域分类模型将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集。

5.根据权利要求1所述的方法，其特征在于，将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译，以及将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译，根据翻译结果生成平行语对集合，根据所生成的平行语对集合和所述第四平行语对子集，对所述正向翻译模型和所述反向翻译模型进行训练包括：
将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译，根据翻译结果得到第五平行语对集合，将所述第五平行语对集合和所述第四平行语对子集混合后，基于混合结果对所述反向翻译模型进行训练；
以及，将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译，根据翻译结果...

【专利技术属性】
技术研发人员：俞春龙，
申请(专利权)人：苏州交驰人工智能研究院有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人