文本翻译模型的训练方法、设备及存储介质技术

技术编号:33710114 阅读:21 留言:0更新日期:2022-06-06 08:41
本申请提供一种文本翻译模型的训练方法、设备及存储介质,其中训练方法包括:通过接收来自客户端的包含多对自然语言文本的文本训练样本集,基于词级别的对比学习,同时结合自然语言文本的词频信息,对文本翻译模的模型参数进行优化,通过多轮训练,直至文本翻译模型的损失函数收敛时,获取最终的文本翻译模型,文本翻译模型用于将一种自然语言文本翻译成另一种自然语言文本。由于上述训练过程可基于词频信息优化文本翻译模型的模型参数,从而优化不同词频的词的语义空间表示,增强模型对输入文本的语义表达能力,提高机器翻译模型的性能。能。能。

【技术实现步骤摘要】
文本翻译模型的训练方法、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种文本翻译模型的训练方法、设备及存储介质。

技术介绍

[0002]在机器翻译任务中,Transformer模型是一个利用注意力机制来提高模型训练速度的模型,是当前最常用的深度学习模型。通常情况下,Transformer模型包括编码模块和解码模块,输入文本先经过编码模块,对该文本进行编码,然后将编码后的数据再传入解码模块进行解码,解码后得到翻译后的文本。
[0003]然而,由于机器翻译语料中低频词的存在,在模型训练时,这些词极少地出现在模型的输出端,其表示会被优化推向大多高频词表示的反方向,这会导致表示空间中样本表示塌缩到一个更狭窄的锥体中,使得不同目标词表示之间的边界变小,语义表示能力变差。语义塌缩问题会严重影响Transformer模型的语义空间的表示能力,进而影响机器翻译的效果。

技术实现思路

[0004]本申请实施例提供一种文本翻译模型的训练方法、设备及存储介质,提高文本翻译模型的翻译效果。
[0005]本申请实施例的第一方面提供一种文本翻译模型的训练方法,包括:
[0006]接收来自客户端的文本训练样本集,所述文本训练样本集包括多对自然语言文本,每对自然语言文本包括含义相同的第一自然语言文本以及第二自然语言文本;
[0007]根据所述文本训练样本集中自然语言文本的词频信息,对初始文本翻译模型的模型参数进行优化,直至所述文本翻译模型的损失函数收敛时,获取最终的文本翻译模型;所述词频信息用于指示自然语言文本中每个词在所述文本训练样本集的出现次数,所述文本翻译模型用于将所述第一自然语言文本翻译成所述第二自然语言文本。
[0008]本申请第一方面的一个可选实施例中,所述根据所述文本训练样本集中自然语言文本的词频信息,对初始文本翻译模型的模型参数进行优化,包括:
[0009]从所述文本训练样本集中随机选取至少一对自然语言文本;
[0010]将所述至少一对自然语言文本的第一自然语言文本作为所述初始文本翻译模型的输入,将所述至少一对自然语言文本的第二自然语言文本作为所述初始文本翻译模型的输出;
[0011]根据所述至少一对自然语言文本的第二自然语言文本中每个词在所述文本训练样本集的出现次数,对所述初始文本翻译模型的模型参数进行优化。
[0012]本申请第一方面的一个可选实施例中,所述根据所述至少一对自然语言文本的第二自然语言文本中每个词在所述文本训练样本集的词频信息,对所述初始文本翻译模型的模型参数进行优化,包括:
[0013]获取所述至少一对自然语言文本的第二自然语言文本中目标词的正例样本词以及负例样本词,所述目标词为所述第二自然语言文本中的任意一个词;
[0014]根据所述目标词、所述目标词的正例样本词以及负例样本词在所述文本训练样本集的出现次数,对所述初始文本翻译模型的模型参数进行优化。
[0015]本申请第一方面的一个可选实施例中,所述根据所述目标词、所述目标词的正例样本词以及负例样本词在所述文本训练样本集的出现次数,对所述初始文本翻译模型的模型参数进行优化,包括:
[0016]根据所述目标词、所述目标词的正例样本词以及负例样本词在所述文本训练样本集的出现次数,调整所述目标词与所述正例样本词之间的隐层表示间隔以及所述目标词与所述负例样本词之间的隐层表示间隔,所述隐层表示间隔用于指示两个词在表示空间的距离;
[0017]获取优化后的文本翻译模型的模型参数。
[0018]本申请第一方面的一个可选实施例中,获取所述至少一对自然语言文本的第二自然语言文本中目标词的正例样本词,包括:
[0019]将所述至少一对自然语言文本的第二自然语言文本中与所述目标词相同的词作为所述目标词的正例样本词;和/或
[0020]通过随机丢弃所述文本翻译模型中的部分神经网络节点,获取所述目标词的正例样本词。
[0021]本申请第一方面的一个可选实施例中,获取所述至少一对自然语言文本的第二自然语言文本中目标词的负例样本词,包括:
[0022]将所述至少一对自然语言文本的第二自然语言文本中与所述目标词不同的词作为所述目标词的负例样本词。
[0023]本申请第一方面的一个可选实施例中,所述文本翻译模型的损失函数包括第一损失函数和第二损失函数;
[0024]其中,所述第一损失函数是根据所述文本翻译模型的预测概率分布以及所述至少一对自然语言文本的第二自然语言文本确定的;
[0025]所述第二损失函数是根据所述至少一对自然语言文本的第二自然语言文本中每个词、所述每个词的正例样本词以及负例样本词在所述文本翻译模型的隐层表示,以及任意两个词之间的词频权重确定的。
[0026]本申请第一方面的一个可选实施例中,所述任意两个词之间的词频权重是根据所述任意两个词的每个词在所述文本训练样本集的词频信息确定的。
[0027]本申请实施例的第二方面提供一种文本翻译模型的训练装置,包括:
[0028]接收模块,用于接收来自客户端的文本训练样本集,所述文本训练样本集包括多对自然语言文本,每对自然语言文本包括含义相同的第一自然语言文本以及第二自然语言文本;
[0029]处理模块,用于根据所述文本训练样本集中自然语言文本的词频信息,对初始文本翻译模型的模型参数进行优化,直至所述文本翻译模型的损失函数收敛时,获取最终的文本翻译模型;所述词频信息用于指示自然语言文本中每个词在所述文本训练样本集的出现次数,所述文本翻译模型用于将所述第一自然语言文本翻译成所述第二自然语言文本。
[0030]本申请第二方面的一个可选实施例中,所述处理模块,用于:
[0031]从所述文本训练样本集中随机选取至少一对自然语言文本;
[0032]将所述至少一对自然语言文本的第一自然语言文本作为所述初始文本翻译模型的输入,将所述至少一对自然语言文本的第二自然语言文本作为所述初始文本翻译模型的输出;
[0033]根据所述至少一对自然语言文本的第二自然语言文本中每个词在所述文本训练样本集的出现次数,对所述初始文本翻译模型的模型参数进行优化。
[0034]本申请第二方面的一个可选实施例中,获取模块,用于获取所述至少一对自然语言文本的第二自然语言文本中目标词的正例样本词以及负例样本词,所述目标词为所述第二自然语言文本中的任意一个词;
[0035]所述处理模块,用于根据所述目标词、所述目标词的正例样本词以及负例样本词在所述文本训练样本集的出现次数,对所述初始文本翻译模型的模型参数进行优化。
[0036]本申请第二方面的一个可选实施例中,所述处理模块,用于:
[0037]根据所述目标词、所述目标词的正例样本词以及负例样本词在所述文本训练样本集的出现次数,调整所述目标词与所述正例样本词之间的隐层表示间隔以及所述目标词与所述负例样本词之间的隐层表示间隔,所述隐层表示间隔用于指示两个词在表示空本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本翻译模型的训练方法,其特征在于,包括:接收来自客户端的文本训练样本集,所述文本训练样本集包括多对自然语言文本,每对自然语言文本包括含义相同的第一自然语言文本以及第二自然语言文本;根据所述文本训练样本集中自然语言文本的词频信息,对初始文本翻译模型的模型参数进行优化,直至所述文本翻译模型的损失函数收敛时,获取最终的文本翻译模型;所述词频信息用于指示自然语言文本中每个词在所述文本训练样本集的出现次数,所述文本翻译模型用于将所述第一自然语言文本翻译成所述第二自然语言文本。2.根据权利要求1所述的方法,其特征在于,所述根据所述文本训练样本集中自然语言文本的词频信息,对初始文本翻译模型的模型参数进行优化,包括:从所述文本训练样本集中随机选取至少一对自然语言文本;将所述至少一对自然语言文本的第一自然语言文本作为所述初始文本翻译模型的输入,将所述至少一对自然语言文本的第二自然语言文本作为所述初始文本翻译模型的输出;根据所述至少一对自然语言文本的第二自然语言文本中每个词在所述文本训练样本集的出现次数,对所述初始文本翻译模型的模型参数进行优化。3.根据权利要求2所述的方法,其特征在于,所述根据所述至少一对自然语言文本的第二自然语言文本中每个词在所述文本训练样本集的词频信息,对所述初始文本翻译模型的模型参数进行优化,包括:获取所述至少一对自然语言文本的第二自然语言文本中目标词的正例样本词以及负例样本词,所述目标词为所述第二自然语言文本中的任意一个词;根据所述目标词、所述目标词的正例样本词以及负例样本词在所述文本训练样本集的出现次数,对所述初始文本翻译模型的模型参数进行优化。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标词、所述目标词的正例样本词以及负例样本词在所述文本训练样本集的出现次数,对所述初始文本翻译模型的模型参数进行优化,包括:根据所述目标词、所述目标词的正例样本词以及负例样本词在所述文本训练样本集的出现次数,调整所述目标词与所述正例样本词之间的隐层表示间隔以及所述目标词...

【专利技术属性】
技术研发人员:张通杨宝嵩任星彰刘大一恒张海波谢军
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1