【技术实现步骤摘要】
翻译模型的训练方法、装置、电子设备及存储介质
[0001]本公开涉及人工智能
,具体涉及自然语言处理、深度学习
,尤其涉及翻译模型的训练方法、装置、电子设备及存储介质。
技术介绍
[0002]机器翻译,是将一种源语言翻译成目标语言的过程。目前,神经机器翻译是一个主流的翻译框架,神经机器翻译是端到端的模型结构,神经机器翻译可包含编码端、解码端。为了提高机器翻译模型的性能,可在编码端或者解码端引入预训练语言模型。
技术实现思路
[0003]本公开提供了一种用于翻译模型的训练方法、装置、电子设备及存储介质。
[0004]根据本公开的一方面,提供了一种翻译模型的训练方法,包括:获取训练语料,其中,所述训练语料包括:源文本样本以及对应的目标文本样本;对所述源文本样本中的待掩码字符进行掩码处理,得到掩码文本样本;将所述源文本样本和所述掩码文本样本作为深度神经网络模型的输入特征,并将所述目标文本样本和所述待掩码字符作为所述深度神经网络模型的输出特征,对所述深度神经网络模型进行训练。
[0005] ...
【技术保护点】
【技术特征摘要】
1.一种翻译模型的训练方法,其中,包括:获取训练语料,其中,所述训练语料包括:源文本样本以及对应的目标文本样本;对所述源文本样本中的待掩码字符进行掩码处理,得到掩码文本样本;将所述源文本样本和所述掩码文本样本作为深度神经网络模型的输入特征,并将所述目标文本样本和所述待掩码字符作为所述深度神经网络模型的输出特征,对所述深度神经网络模型进行训练。2.根据权利要求1所述的方法,其中,所述对所述源文本样本中的待掩码字符进行掩码处理,得到掩码文本样本的方式包括以下中的至少一种:对所述源文本样本中的所述待掩码字符采用随机字符进行替换;对所述源文本样本中的所述待掩码字符采用预设标识符进行替换。3.根据权利要求1或2所述的方法,其中,所述待掩码字符为所述源文本样本中的任意一个或者多个字符。4.根据权利要求1所述的方法,其中,所述对所述深度神经网络模型进行训练,包括:获取所述深度神经网络模型输出的预测目标文本以及预测掩码字符;根据所述预测目标文本、所述目标文本样本、所述待掩码字符以及所述预测掩码字符构建损失函数;根据所述损失函数的值,对所述深度神经网络模型的系数进行调整,以实现训练。5.根据权利要求4所述的方法,其中,所述根据所述预测目标文本、所述目标文本样本、所述待掩码字符以及所述预测掩码字符构建损失函数,包括:根据所述预测目标文本以及所述目标文本样本构建第一子损失函数;根据所述待掩码字符以及所述预测掩码字符构建第二子损失函数;确定所述第一子损失函数的权重以及所述第二子损失函数的权重;根据所述第一子损失函数的权重以及所述第二子损失函数的权重,对所述第一子损失函数和所述第二子损失函数进行加权处理,得到所述损失函数。6.根据权利要求4所述的方法,其中,所述获取所述深度神经网络模型输出的预测目标文本以及预测掩码字符,包括:获取所述深度神经网络模型的编码模块输出的编码结果;对所述编码结果进行预测,得到所述预测掩码字符;获取所述深度神经网络模型的解码模块输出的所述预测目标文本。7.根据权利要求1至6任一项所述的方法,其中,所述将所述源文本样本和所述掩码文本样本作为深度神经网络模型的输入特征,并将所述目标文本样本和所述待掩码字符作为所述深度神经网络模型的输出特征,对所述深度神经网络模型进行训练,包括:确定所述源文本样本中各个词的词向量以及位置向量;确定所述掩码文本样本中各个词的词向量以及位置向量;将所述源文本样本中各个词的词向量以及位置向量、所述掩码文本样本中各个词的词向量以及位置向量作为所述输入特征,并将所述目标文本样本和所述待掩码字符作为所述输出特征,对所述深度神经网络模型进行训练。8.一种翻译模型的训练装置,其中,包括:获取模块,用于获取训练语料,其中,所述训练语料包括:源文本样本以及对应的目标
文本样本;处理模块,用于对所述源文本样本中的待掩码字符进...
【专利技术属性】
技术研发人员:李国良,孙萌,何中军,李芝,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。