【技术实现步骤摘要】
本申请涉及计算机,特别涉及一种翻译模型的训练方法、文本翻译方法、装置、设备及介质。
技术介绍
1、机器翻译能够让人与人的沟通不受语言的限制,进而促进各国家各地区的经济文化交流,有利于各种知识的互相传播。
2、相关技术中,通常采用变换器(transformer)模型执行文本翻译的任务,transformer模型通常由一个编码器和一个解码器组成,其中编码器和解码器均具有多层(通常为6层)结构。根据每层中层规范化(layernorm)层的位置不同,transformer模型的编码器和解码器中每层的实现可分为两类,即前置层规范化(pre-layernorm,pre-ln)和后置层规范化(post-layernorm,post-ln)。
3、基于post-ln的transformer模型往往具有更好的效果和泛化性,但是与基于pre-ln的transformer模型相比,基于post-ln的transformer模型训练的稳定性较差,在模型层数较多的情况下容易在训练过程崩溃,这会使得翻译模型的性能受限,导致文本翻译的质量较差
【技术保护点】
1.一种翻译模型的训练方法,其特征在于,所述翻译模型包括级联的n个编码子模型和级联的m个解码子模型,每个所述编码子模型和每个所述解码子模型包括级联的层规范化层和子网络层,n为大于或等于2的正整数,m为大于或等于3的正整数,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述翻译模型包括级联的k个编码模型,每个所述编码模型包括所述n个编码子模型中级联的至少两个所述编码子模型,k为大于或等于2的正整数;所述将所述样本文本输入所述n个编码子模型,通过所述n个编码子模型中的每个所述编码子模型依次进行特征提取,得到所述n个编码子模型输出的编码特征,包括:<
...【技术特征摘要】
1.一种翻译模型的训练方法,其特征在于,所述翻译模型包括级联的n个编码子模型和级联的m个解码子模型,每个所述编码子模型和每个所述解码子模型包括级联的层规范化层和子网络层,n为大于或等于2的正整数,m为大于或等于3的正整数,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述翻译模型包括级联的k个编码模型,每个所述编码模型包括所述n个编码子模型中级联的至少两个所述编码子模型,k为大于或等于2的正整数;所述将所述样本文本输入所述n个编码子模型,通过所述n个编码子模型中的每个所述编码子模型依次进行特征提取,得到所述n个编码子模型输出的编码特征,包括:
3.根据权利要求2所述的方法,其特征在于,每个所述编码模型包括级联的第一编码子模型和第二编码子模型,所述第一编码子模型的子网络层为多头自注意力网络,所述第二编码子模型的子网络层为前馈全连接网络;
4.根据权利要求3所述的方法,其特征在于,所述将所述第i个编码模型的输出特征和所述第一编码子模型的所述层规范化层的输出特征,通过所述残差连接与所述第一编码子模型的所述多头自注意力网络的输出特征相加,得到所述第一编码子模型的输出特征,包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
7.根据权利要求2至5任一所述的方法,其特征在于,每个所述解码模型包括级联的第一解码子模型、第二解码子模型和第三解码子模型,所述第一解码子模型的子网络层为第一多头自注意力网络,所述第二解码子模型的子网络层为第二多头自注意力网络,所述第三编码子模型的子网络层为前馈全连接网络;
8.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
9.一种基于翻译模型的文本翻译方法,其特征在于,所述翻译模型包括级联的n个编码子模型和级联的m个解码子模型,...
【专利技术属性】
技术研发人员:曾显峰,刘宜进,孟凡东,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。