System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多任务学习和特征自蒸馏的半监督机器翻译方法技术_技高网

基于多任务学习和特征自蒸馏的半监督机器翻译方法技术

技术编号:40053333 阅读:4 留言:0更新日期:2024-01-16 21:33
本发明专利技术属于自然语言处理技术领域,公开一种基于多任务学习和特征自蒸馏的半监督机器翻译方法,包括:步骤1:输入源语言语句,源语言语句类型包括源端单语数据,目标端单语数据和有标记双语数据;步骤2:根据输入的不同,分别执行步骤3、步骤4或步骤5;步骤3:若输入为源端单语数据,执行编码器自蒸馏任务,得到编码后特征并对模型进行更新;步骤4:若输入为目标端单语数据,执行解码器自蒸馏任务,得到最终的机器翻译结果并对模型进行更新;步骤5:若输入为有标记双语数据,执行监督机器翻译任务,得到最终的机器翻译结果并对模型进行更新。本发明专利技术所提方法可以有效挖掘单语数据中的有用知识,提升模型性能,并与其他方法显示出互补效果。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种基于多任务学习和特征自蒸馏的半监督机器翻译方法


技术介绍

1、最先进的神经机器翻译模型都是以数据为驱动的方法,当监督数据规模受限时模型性能下降明显。目前主流的解决数据稀缺的方法是在模型训练过程中加入单语数据,运用回译方法构建伪平行语句进行数据增强。但是这种方法训练步骤繁琐、时间成本高并且构建的部分伪平行语句对质量不高、对模型有害。


技术实现思路

1、本专利技术针对上述问题,提出一种基于多任务学习和特征自蒸馏的半监督机器翻译方法(multi-task feature self-distillation,mfsd),它可以在由双语数据和单语数据联合构成的混合数据集上在线训练模型。我们在监督机器翻译任务的基础上,针对源语言和目标语言的编码器和解码器提出了自蒸馏任务在线训练两种单语数据。在自蒸馏任务中,通过集成前面轮次学生模型构建教师模型,使用性能更加稳定的教师模型输出的特征软标签在线指导学生模型训练,通过对比两个模型输出特征的一致性实现在线挖掘单语数据高层知识。

2、为了实现上述目的,本专利技术采用以下技术方案:

3、一种基于多任务学习和特征自蒸馏的半监督机器翻译方法,包括:

4、步骤1:输入源语言语句,所述源语言语句的类型包括源端单语数据,目标端单语数据和有标记双语数据;

5、步骤2:根据输入的不同,分别执行步骤3、步骤4或步骤5;

6、步骤3:若输入为源端单语数据,执行编码器自蒸馏任务,得到编码后特征;

7、步骤4:若输入为目标端单语数据,执行解码器自蒸馏任务,得到最终的机器翻译结果;

8、步骤5:若输入为有标记双语数据,执行监督机器翻译任务,得到最终的机器翻译结果。

9、进一步地,在所述步骤3之后,还包括:

10、基于编码后特征进行解码,进而得到最终的机器翻译结果。

11、进一步地,所述编码器包括学生编码器和教师编码器,所述解码器包括学生解码器和教师解码器,所述学生编码器和学生解码器组成学生模型,所述教师编码器和教师解码器组成教师模型,教师模型和学生模型架构完全相同。

12、进一步地,采用动量编码器思想动态构建教师模型。

13、进一步地,所述教师模型和学生模型均采用transformer结构。

14、进一步地,所述编码器自蒸馏任务包括:

15、将输入x加以不同的扰动后分别输入到教师编码器和学生编码器,并将两个编码器的特征输出记为ft(x)和fs(x),经过softmax函数得到概率分布pt(x)和ps(x),通过最小化两个输出之间的mse损失来更新学生编码器的参数效果:

16、

17、其中m为每批次样本个数。

18、进一步地,所述解码器自蒸馏任务包括:

19、将输入x分别输入到教师解码器和学生解码器,将两个解码器的特征输出记为gt(x)和gs(x),通过softmax函数得到预测概率分布pt(yi∣x,y<i)和ps(yi∣x,y<i),通过最小化两个概率分布之间的mse损失来定义解码器自蒸馏任务的训练目标:

20、

21、其中m为每批次样本个数。

22、进一步地,在所述步骤3、步骤4和步骤5之后,均包括:

23、对模型进行更新。

24、与现有技术相比,本专利技术具有的有益效果:

25、本专利技术提出了基于多任务学习和特征自蒸馏(mfsd)的半监督机器翻译方法,本专利技术的半监督任务由一个针对双语数据的监督机器翻译任务和两个针对单语数据的自蒸馏任务组成,通过多任务学习实现在线对由双语数据和两种单语数据组成的混合数据的训练并且省略了构建伪平行语料的步骤,有效缓解了现有方法存在的问题。具体来说,针对源端和目标端语言,提出编码器和解码器的特征自蒸馏的自监督学习方法,并将对比学习和知识蒸馏结合起来,通过对比两个模型输出特征的一致性来将知识蒸馏拓展到没有标签的情况。本专利技术在训练阶段用动量编码器思想动态构建教师模型,将其输出的特征作为软标签在线指导学生模型训练,最小化两个模型输出特征的区别实现在线直接地挖掘单语数据本身内在的高层知识。

本文档来自技高网...

【技术保护点】

1.一种基于多任务学习和特征自蒸馏的半监督机器翻译方法,其特征在于,包括:

2.根据权利要求1所述的基于多任务学习和特征自蒸馏的半监督机器翻译方法,其特征在于,在所述步骤3之后,还包括:

3.根据权利要求1所述的基于多任务学习和特征自蒸馏的半监督机器翻译方法,其特征在于,所述编码器包括学生编码器和教师编码器,所述解码器包括学生解码器和教师解码器,所述学生编码器和学生解码器组成学生模型,所述教师编码器和教师解码器组成教师模型,教师模型和学生模型架构完全相同。

4.根据权利要求3所述的基于多任务学习和特征自蒸馏的半监督机器翻译方法,其特征在于,采用动量编码器思想动态构建教师模型。

5.根据权利要求3所述的基于多任务学习和特征自蒸馏的半监督机器翻译方法,其特征在于,所述教师模型和学生模型均采用Transformer结构。

6.根据权利要求3所述的基于多任务学习和特征自蒸馏的半监督机器翻译方法,其特征在于,所述编码器自蒸馏任务包括:

7.根据权利要求3所述的基于多任务学习和特征自蒸馏的半监督机器翻译方法,其特征在于,所述解码器自蒸馏任务包括:

8.根据权利要求1所述的基于多任务学习和特征自蒸馏的半监督机器翻译方法,其特征在于,在所述步骤3、步骤4和步骤5之后,均包括:

...

【技术特征摘要】

1.一种基于多任务学习和特征自蒸馏的半监督机器翻译方法,其特征在于,包括:

2.根据权利要求1所述的基于多任务学习和特征自蒸馏的半监督机器翻译方法,其特征在于,在所述步骤3之后,还包括:

3.根据权利要求1所述的基于多任务学习和特征自蒸馏的半监督机器翻译方法,其特征在于,所述编码器包括学生编码器和教师编码器,所述解码器包括学生解码器和教师解码器,所述学生编码器和学生解码器组成学生模型,所述教师编码器和教师解码器组成教师模型,教师模型和学生模型架构完全相同。

4.根据权利要求3所述的基于多任务学习和特征自蒸馏的半监督机器翻译方法,其特征在于...

【专利技术属性】
技术研发人员:张文林万玉宪李真屈丹杨绪魁陈琦邱泽宇张昊
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1