一种翻译模型的训练方法及装置制造方法及图纸

技术编号:26343193 阅读:15 留言:0更新日期:2020-11-13 20:42
本申请提供一种翻译模型的训练方法及装置,所述翻译模型包括编码器和解码器,所述编码器包括n个顺次连接的编码层,所述解码器包括n个顺次连接的解码层,第i个编码层的自注意力子层与第i个解码层的自注意力子层共享自注意力参数,其中,n≥1,1≤i≤n,其中所述方法包括:接收训练语句和训练语句对应的目标语句;获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量;将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量;将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量,并根据所述解码向量计算损失值;根据所述损失值调整所述翻译模型的参数。

A training method and device of translation model

【技术实现步骤摘要】
一种翻译模型的训练方法及装置
本申请涉及人工智能
,特别涉及一种翻译模型的训练方法及装置、计算设备和计算机可读存储介质。
技术介绍
随着计算机运算能力的提升,神经网络的应用越来越广泛,例如构建翻译模型,以实现待翻译语句到目标语句的转换。翻译模型是一种端到端的网络结构,包括编码器和解码器,编码器包括多个编码层,解码器包括多个解码层,在每个编码层中包括自注意力子层和前馈神经网络子层,在每个解码层中包括自注意力子层、编码-解码注意力子层和前馈神经网络子层,每个子层中都有各自的参数权重。现有的翻译模型结构复杂、每个子层的参数量较大,模型体积庞大,在对翻译模型进行训练时训练周期长,并且消耗计算资源高。因此,如何加快模型的训练速度,减少模型体积就成为技术人员目前亟待解决的问题。
技术实现思路
有鉴于此,本申请实施例提供了一种翻译模型的训练方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。根据本申请实施例的第一方面,提供了一种翻译模型的训练方法,所述翻译模型包括编码器和解码器,所述编码器包括n个顺次连接的编码层,所述解码器包括n个顺次连接的解码层,对于每个所述编码层和每个所述解码层的自注意力子层,第i个编码层的自注意力子层与第i个解码层的自注意力子层共享自注意力参数,其中,n≥1,1≤i≤n;所述翻译模型的训练方法包括:接收训练数据,其中,所述训练数据包括训练语句和训练语句对应的目标语句;获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量;将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量;将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量,并根据所述解码向量计算损失值;根据所述损失值调整所述翻译模型的参数,继续训练所述翻译模型,直至达到训练停止条件。可选的,所述编码器还包括第一嵌入层,所述解码器还包括第二嵌入层;获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量,包括:将所述训练语句输入至所述第一嵌入层做嵌入化处理获得训练语句向量;将所述目标语句输入至所述第二嵌入层做嵌入化处理获得目标语句向量。可选的,根据所述解码向量计算损失值,包括:将所述解码向量与预设的向量验证集进行对比,得到所述解码向量的损失值。可选的,每个解码层还包括编码-解码注意力子层和前馈神经网络子层,每个编码层还包括前馈神经网络子层;根据所述损失值调整所述翻译模型的参数,包括:根据所述损失值依次调整每个所述解码层的自注意力子层的自注意力参数、编码-解码注意力子层的编码-解码注意力参数和前馈神经网络子层的前馈神经参数;根据所述损失值依次调整每个所述编码层的自注意力层的自注意力参数和前馈神经网络子层的前馈神经参数。可选的,将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量,包括:S51、将所述训练语句向量输入至所述编码器的第1个编码层,得到所述第1个编码层输出的编码向量;S52、将第t-1个编码层输出的编码向量输入至第t个编码层,得到第t个编码层输出的编码向量,其中2≤t≤n;S53、将t自增1,判断t是否大于n,若是,则获得编码向量,若否,继续执行步骤S52。可选的,将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量,包括:S61、将所述编码向量和所述目标语句向量输入至所述解码器的第1个解码层,得到所述第1个解码层输出的解码向量;S62、将所述编码向量和第j-1个解码层输出的解码向量输入至第j个解码层,得到第j个解码层输出的解码向量,其中2≤j≤n;S63、将j自增1,判断j是否大于n,若是,则获得解码向量,若否,继续执行步骤S62。可选的,所述编码器的前m个编码层和后m个编码层对应共享编码参数,和/或,所述解码器的前p个解码层和后p个解码层对应共享解码参数,其中,2m≤n,2p≤n。可选的,所述编码器的前m个编码层和后m个编码层一一对应地共享编码参数,和/或,所述解码器的前p个解码层和后p个解码层一一对应地共享解码参数。可选的,所述编码器的前m个编码层和后m个编码层一一对应地共享自注意力参数,和/或,所述解码器的前p个解码层和后p个解码层一一对应地共享自注意力参数。根据本申请实施例的第二方面,提供了一种翻译方法,包括:获取待翻译语句;将所述待翻译语句输入至翻译模型的编码器中进行编码,获得所述待翻译语句对应的编码向量,其中,所述翻译模型是通过上述任意一项翻译模型的训练方法训练得到的;将所述编码向量输入至所述翻译模型的解码器中进行解码,获得所述待翻译语句对应的目标语句。根据本申请实施例的第三方面,提供了一种翻译模型的训练装置,所述翻译模型包括编码器和解码器,所述编码器包括n个顺次连接的编码层,所述解码器包括n个顺次连接的解码层,对于每个所述编码层和每个所述解码层的自注意力子层,第i个编码层的自注意力子层与第i个解码层的自注意力子层共享自注意力参数,其中,n≥1,1≤i≤n;所述翻译模型的训练装置包括:接收模块,被配置为接收训练数据,其中,所述训练数据包括训练语句和训练语句对应的目标语句;获取模块,被配置为获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量;编码模块,被配置为将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量;解码模块,被配置为将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量,并根据所述解码向量计算损失值;训练模块,被配置为根据所述损失值调整所述翻译模型的参数,继续训练所述翻译模型,直至达到训练停止条件。可选的,所述编码器还包括第一嵌入层,所述解码器还包括第二嵌入层;所述获取模块,进一步被配置为将所述训练语句输入至所述第一嵌入层做嵌入化处理获得训练语句向量;将所述目标语句输入至所述第二嵌入层做嵌入化处理获得目标语句向量。可选的,所述解码模块,进一步被配置为将所述解码向量与预设的向量验证集进行对比,得到所述解码向量的损失值。可选的,每个解码层还包括编码-解码注意力子层和前馈神经网络子层,每个编码层还包括前馈神经网络子层;所述训练模块,进一步被配置为根据所述损失值依次调整每个所述解码层的自注意力子层的自注意力参数、编码-解码注意力子层的编码-解码注意力参数和前馈神经网络子层的前馈神经参数;根据所述损失值依次调整每个所述编码层的自注意力层的自注意力参数和前馈神经网络子层的前馈神经参数。可选的,所述编码模块,包括:第一编码子单元,被配置为将所述训练语句向量输入至所述编码器的第1个编码层,得到所述第1个编码层输出的编码向量;第二编码子单元,被配置为将第t-1个编码层输出的编码向量输入至第t个编码层,得到第t个编码本文档来自技高网...

【技术保护点】
1.一种翻译模型的训练方法,其特征在于,所述翻译模型包括编码器和解码器,所述编码器包括n个顺次连接的编码层,所述解码器包括n个顺次连接的解码层,对于每个所述编码层和每个所述解码层的自注意力子层,第i个编码层的自注意力子层与第i个解码层的自注意力子层共享自注意力参数,其中,n≥1,1≤i≤n;/n所述翻译模型的训练方法包括:/n接收训练数据,其中,所述训练数据包括训练语句和训练语句对应的目标语句;/n获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量;/n将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量;/n将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量,并根据所述解码向量计算损失值;/n根据所述损失值调整所述翻译模型的参数,继续训练所述翻译模型,直至达到训练停止条件。/n

【技术特征摘要】
1.一种翻译模型的训练方法,其特征在于,所述翻译模型包括编码器和解码器,所述编码器包括n个顺次连接的编码层,所述解码器包括n个顺次连接的解码层,对于每个所述编码层和每个所述解码层的自注意力子层,第i个编码层的自注意力子层与第i个解码层的自注意力子层共享自注意力参数,其中,n≥1,1≤i≤n;
所述翻译模型的训练方法包括:
接收训练数据,其中,所述训练数据包括训练语句和训练语句对应的目标语句;
获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量;
将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量;
将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量,并根据所述解码向量计算损失值;
根据所述损失值调整所述翻译模型的参数,继续训练所述翻译模型,直至达到训练停止条件。


2.如权利要求1所述的翻译模型的训练方法,其特征在于,所述编码器还包括第一嵌入层,所述解码器还包括第二嵌入层;
获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量,包括:
将所述训练语句输入至所述第一嵌入层做嵌入化处理获得训练语句向量;
将所述目标语句输入至所述第二嵌入层做嵌入化处理获得目标语句向量。


3.如权利要求1所述的翻译模型的训练方法,其特征在于,根据所述解码向量计算损失值,包括:
将所述解码向量与预设的向量验证集进行对比,得到所述解码向量的损失值。


4.如权利要求1所述的翻译模型的训练方法,其特征在于,每个解码层还包括编码-解码注意力子层和前馈神经网络子层,每个编码层还包括前馈神经网络子层;
根据所述损失值调整所述翻译模型的参数,包括:
根据所述损失值依次调整每个所述解码层的自注意力子层的自注意力参数、编码-解码注意力子层的编码-解码注意力参数和前馈神经网络子层的前馈神经参数;
根据所述损失值依次调整每个所述编码层的自注意力层的自注意力参数和前馈神经网络子层的前馈神经参数。


5.如权利要求1所述的翻译模型的训练方法,其特征在于,将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量,包括:
S51、将所述训练语句向量输入至所述编码器的第1个编码层,得到所述第1个编码层输出的编码向量;
S52、将第t-1个编码层输出的编码向量输入至第t个编码层,得到第t个编码层输出的编码向量,其中2≤t≤n;
S53、将t自增1,判断t是否大于n,若是,则获得编码向量,若否,继续执行步骤S52。


6.如权利要求1所述的翻译模型的训练方法,其特征在于,将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量,包括:
S61、将所述编码向量和所述目标语句向量输入至所述解码器的第1个解码层,得到所述第1个解码层输出的解码向量;
S62、将所述编码向量和第j-1个解码层输出的解码向量输入至第j个解码层,得到第j个解码层输出的解码向量,其中2≤j≤n;
S63、将j自增1,判断j...

【专利技术属性】
技术研发人员:李长亮郭馨泽
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1