机器翻译模型训练方法和装置、及文本翻译方法和装置制造方法及图纸

技术编号:33638438 阅读:50 留言:0更新日期:2022-06-02 01:54
本申请涉及一种机器翻译模型训练方法和装置、文本翻译方法和装置、计算机设备、存储介质和计算机程序产品,涉及人工智能技术领域,可用于金融科技领域或其他相关领域。所述方法包括:获取训练样本集;分别采用第一预设算法和第二预设算法对源语言语料进行第一分词处理和第二分词处理,得到第一子词序列和多个第二子词序列;将源语言语料中目标单词在第一子词序列中的第一子序列,与在多个第二子词序列中的第二子序列进行差异度比较,将差异度最大的第二子序列确定为目标单词对应的目标子序列;将目标单词对应的第一子序列替换为目标子序列,用于训练机器翻译模型。采用本方法能够能提高机器翻译模型的翻译准确度,增强机器翻译模型的鲁棒性。译模型的鲁棒性。译模型的鲁棒性。

【技术实现步骤摘要】
机器翻译模型训练方法和装置、及文本翻译方法和装置


[0001]本申请涉及人工智能
,特别是涉及一种机器翻译模型训练方法和装置、文本翻译方法和装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着经济全球化和人工智能技术的发展,机器翻译技术在诸多领域得到广泛应用,包括金融科技领域。其中,神经机器翻译(NMT)是采用神经网络来最大化机器翻译性能的技术,即使用双语或多语言的训练语料库训练神经网络,得到机器翻译模型,以用于对输入的源语言文本进行翻译,输出目标语言文本。
[0003]在对机器翻译模型训练时,需要对原始的训练语料进行分词处理,目的是将原始的训练语料切分成由多个子词组合成的子词序列,其中子词为翻译的基本单元,然后将分词处理后的训练语料用于训练机器翻译模型。相关技术中,分词处理的方法采用的是字节对编码(Byte Pair Encoding,BPE)方法,然而,通过该方法训练得到的机器翻译模型对有噪声文本的翻译准确度不高,机器翻译模型的鲁棒性较差。亟待一种能提高翻译准确度、增强模型鲁棒性的机器翻译模型训练方法。...

【技术保护点】

【技术特征摘要】
1.一种机器翻译模型训练方法,其特征在于,所述方法包括:获取训练样本集;所述训练样本集包含源语言语料和所述源语言语料对应的目标语言语料;采用第一预设算法对所述训练样本集进行第一分词处理,得到所述源语言语料对应的第一子词序列、以及所述目标语言语料对应的样本子词序列;采用第二预设算法对所述源语言语料进行第二分词处理,得到所述源语言语料对应的多个第二子词序列;将所述源语言语料中目标单词在所述第一子词序列中对应的第一子序列,与所述目标单词在多个所述第二子词序列中对应的第二子序列进行差异度比较,将差异度最大的第二子序列确定为所述目标单词对应的目标子序列;在所述源语言语料对应的第一子词序列中,将所述目标单词对应的第一子序列替换为所述目标子序列,得到所述源语言语料对应的样本子词序列;基于所述源语言语料对应的样本子词序列和所述目标语言语料对应的样本子词序列对机器翻译模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于预设采样规则,从所述源语言语料包含的单词中确定目标单词。3.根据权利要求2所述的方法,其特征在于,所述基于预设采样规则,从所述源语言语料包含的单词中确定目标单词,包括:为所述源语言语料包含的每个单词分配随机数,各所述随机数符合均匀分布;将小于预设阈值的随机数对应的单词,确定为目标单词。4.根据权利要求1所述的方法,其特征在于,所述将所述源语言语料中目标单词在所述第一子词序列中对应的第一子序列,与所述目标单词在多个所述第二子词序列中对应的第二子序列进行差异度比较,将差异度最大的第二子序列确定为所述目标单词对应的目标子序列,包括:确定所述源语言语料中目标单词在所述第一子词序列中对应的第一子序列,获取所述第一子序列中每个子词对应的第一子词向量,并根据所述第一子词向量确定所述目标单词对应的第一单词向量;确定所述目标单词在多个所述第二子词序列中对应的第二子序列,针对每个所述第二子序列,获取所述第二子序列中每个子词对应的第二子词向量,并根据所述第二子词向量确定所述目标单词对应的第二单词向量;确定每个所述第二单词向量与所述第一单词向量的差异度,并将差异度最大的第二单词向量对应的第二子序列确定为所述目标单词对应的目标子序列。5.根据权利要求4所述的方法,其特征在于,所述确定每个所述第二单词向量与所述第一单词向量的差异度,包括:根据所述机器翻译模型的损失函数,计算所述第一子序列中每个子词对应的梯度向量,并根据所述每个子词对应的梯度向量确定所述目标单词对应的梯度向量;根据所述第一单词...

【专利技术属性】
技术研发人员:张磊
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1