机器翻译模型的训练方法、机器翻译方法及相关设备技术

技术编号:30409277 阅读:22 留言:0更新日期:2021-10-20 11:23
本公开提供一种机器翻译模型的训练方法、机器翻译方法及相关设备,该训练方法包括:获取原始训练语料和训练用术语词典;根据训练用术语词典,对原始训练语料进行匹配检索,得到若干训练用术语匹配项;所述训练用术语匹配项包括:训练用源端术语及其对应的训练用目标端术语;根据若干训练用术语匹配项,生成辅助训练语料,并将所述原始训练语料和所述辅助训练语料进行组合,得到组合训练语料;为每个训练用目标端术语添加训练用术语位置标签,得到若干训练用术语约束项,并根据若干所述训练用术语约束项,得到训练用术语约束;根据所述组合训练语料和所述训练用术语约束,对所述机器翻译模型进行训练。本公开还提供了一种机器翻译方法及相关设备。方法及相关设备。方法及相关设备。

【技术实现步骤摘要】
机器翻译模型的训练方法、机器翻译方法及相关设备


[0001]本公开涉及机器翻译
,尤其涉及一种机器翻译模型的训练方法、机器翻译方法及相关设备。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]近年来,随着机器学习技术的飞速发展,机器翻译技术也在几次模型结构的变革下取得了巨大的进展,机器翻译被更加广泛地用到了各种翻译场景中,但同时也暴露出越来越多亟待解决的问题,这其中一大问题便是专业术语的错译问题。

技术实现思路

[0004]有鉴于此,非常需要一种改进的方法,能够有效地改善机器翻译过程中术语的错译问题。
[0005]本公开示例性实施例提供了一种机器翻译模型的训练方法,包括:
[0006]获取原始训练语料和训练用术语词典;
[0007]根据所述训练用术语词典,对所述原始训练语料进行匹配检索,得到若干训练用术语匹配项;所述训练用术语匹配项包括:训练用源端术语及其对应的训练用目标端术语;
[0008]根据若干所述训练用术语匹配项,生成辅助训练语料,并将所述原始训练语料和所述辅助训练语料进行组合,得到组合训练语料;
[0009]为每个所述训练用目标端术语添加训练用术语位置标签,得到若干训练用术语约束项,并根据若干所述训练用术语约束项,得到训练用术语约束;
[0010]根据所述组合训练语料和所述训练用术语约束,对所述机器翻译模型进行训练。
[0011]在一些示例性实施例中,所述根据所述组合训练语料和所述训练用术语约束,对所述机器翻译模型进行训练,具体包括:根据所述组合训练语料和训练用术语约束,构建损失函数;以所述损失函数最小为训练目标,对所述机器翻译模型进行训练。
[0012]在一些示例性实施例中,所述根据所述组合训练语料和所述训练用术语约束,对所述机器翻译模型进行训练,具体包括:对于所述组合训练语料中的任一训练用目标端语句,将所述训练用目标端语句进行右侧填充和右偏移;将所述训练用目标端语句对应的所述训练用术语约束进行左侧填充和右偏移。
[0013]在一些示例性实施例中,所述根据所述组合训练语料和所述训练用术语约束,对所述机器翻译模型进行训练,具体包括:将所述训练用术语约束和所述训练用目标端语句进行拼接;将拼接后的所述训练用术语约束与所述训练用目标端语句进行改进的多头自注意力处理。
[0014]在一些示例性实施例中,所述改进的多头自注意力处理,具体包括:获取拼接后的所述训练用术语约束与所述训练用目标端语句的训练用自注意力权重矩阵,并提取所述训
练用自注意力权重矩阵的对角线上各位置的值,作为训练用待用值;将所述训练用自注意力权重矩阵中,所有填充处理对应的位置赋值为负无穷;根据所述训练用待用值,将所述训练用自注意力权重矩阵的对角线上各位置重新赋值,得到修正的训练用自注意力权重矩阵;根据所述修正的训练用自注意力权重矩阵,得到更新后的所述拼接后的所述训练用术语约束与所述训练用目标端语句的表示。
[0015]在一些示例性实施例中,所述根据若干所述训练用术语匹配项,生成辅助训练语料,并将所述原始训练语料和所述辅助训练语料进行组合,得到组合训练语料,具体包括:从所述原始训练语料中,提取所有包括有所述训练用术语匹配项的双语句对,以得到第一子辅助训练语料;对于第一子辅助训练语料中的每个所述训练用术语匹配项,为该训练用术语匹配项包括的所述训练用源端术语和所述训练用目标端术语中的至少一个添加所述训练用术语位置标签,以得到第二子辅助训练语料;将所述第一子辅助训练语料和第二子辅助训练语料作为所述辅助训练语料,与所述原始训练语料进行组合,以得到所述组合训练语料;或,将所述第二子辅助训练语料作为所述辅助训练语料,与所述原始训练语料进行组合,以得到所述组合训练语料。
[0016]在一些示例性实施例中,所述根据若干所述训练用术语约束项,得到训练用术语约束,具体包括:将若干所述训练用术语约束项依次拼接,并在末位的所述训练用术语约束项后添加断句符,以得到所述训练用术语约束。
[0017]在一些示例性实施例中,所述训练用术语位置标签包括:开始位置符和结束位置符;所述开始位置符和所述结束位置符还均包括有索引信息,所述索引信息用于表达所述训练用术语位置标签对应的所述训练用术语匹配项在其所属的训练用语句包括的所有所述训练用术语匹配项中首次出现的索引顺序。
[0018]基于同一专利技术构思,本公开示例性实施例还提供了一种机器翻译方法,包括:
[0019]获取待翻译语句和术语词典;
[0020]根据所述术语词典,对所述待翻译语句进行匹配检索,得到若干术语匹配项;所述术语匹配项包括:源端术语及其对应的目标端术语;
[0021]为每个所述目标端术语添加术语位置标签,得到若干术语约束项,并根据若干所述术语约束项,得到术语约束;
[0022]将所述待翻译语句和所述术语约束输入预先训练的机器翻译模型,得到所述待翻译语句对应的翻译结果;所述机器翻译模型是基于上述任一方法训练得到的。
[0023]在一些示例性实施例中,所述机器翻译模型包括编码器和解码器;所述解码器包括:拼接模块、改进的多头自注意力模块、多头注意力模块、前馈网络和分离模块。
[0024]在一些示例性实施例中,所述将所述待翻译语句和所述术语约束输入预先训练的机器翻译模型,得到所述待翻译语句对应的翻译结果,具体包括:将所述待翻译语句输入所述编码器,得到所述待翻译语句对应的中间表示;将所述中间表示与所述术语约束输入所述解码器,得到所述待翻译语句对应的翻译结果;所述翻译结果包括由所述机器翻译模型逐步输出的若干输出词。
[0025]在一些示例性实施例中,所述机器翻译模型每一步输出一所述输出词,具体包括:在所述拼接模块,将所述术语约束与已输出的输出词进行拼接;在所述改进的多头自注意力模块,将拼接后的所述术语约束与已输出的输出词进行改进的多头自注意力处理,得到
第一注意力特征;在所述多头注意力模块,基于所述中间表示与所述第一注意力特征,进行多头注意力处理,得到第二注意力特征;在所述前馈网络,对所述第二注意力特征进行特征提取,得到拼接特征;在所述分离模块,将所述拼接特征分离,得到术语约束特征表示和目标端特征表示;所述目标端特征表示用于确定当前步的所述输出词。
[0026]在一些示例性实施例中,所述在所述改进的多头自注意力模块,将拼接后的所述术语约束与已输出的输出词进行改进的多头自注意力处理,得到第一注意力特征,具体包括获取所述拼接后的所述术语约束与已输出的输出词的自注意力权重矩阵;提取所述自注意力权重矩阵的对角线上各位置的值,作为待用值;将所述自注意力权重矩阵中,所有填充处理对应的位置赋值为负无穷;根据所述待用值,将所述自注意力权重矩阵的对角线上各位置重新赋值,得到修正的自注意力权重矩阵;根据所述修正的自注意力权重矩阵,得到所述第一注意力特征。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器翻译模型的训练方法,包括:获取原始训练语料和训练用术语词典;根据所述训练用术语词典,对所述原始训练语料进行匹配检索,得到若干训练用术语匹配项;所述训练用术语匹配项包括:训练用源端术语及其对应的训练用目标端术语;根据若干所述训练用术语匹配项,生成辅助训练语料,并将所述原始训练语料和所述辅助训练语料进行组合,得到组合训练语料;为每个所述训练用目标端术语添加训练用术语位置标签,得到若干训练用术语约束项,并根据若干所述训练用术语约束项,得到训练用术语约束;根据所述组合训练语料和所述训练用术语约束,对所述机器翻译模型进行训练。2.根据权利要求1所述的方法,其中,所述根据所述组合训练语料和所述训练用术语约束,对所述机器翻译模型进行训练,具体包括:根据所述组合训练语料和训练用术语约束,构建损失函数;以所述损失函数最小为训练目标,对所述机器翻译模型进行训练。3.根据权利要求1所述的方法,其中,所述根据所述组合训练语料和所述训练用术语约束,对所述机器翻译模型进行训练,具体包括:对于所述组合训练语料中的任一训练用目标端语句,将所述训练用目标端语句进行右侧填充和右偏移;将所述训练用目标端语句对应的所述训练用术语约束进行左侧填充和右偏移。4.根据权利要求3所述的方法,其中,所述根据所述组合训练语料和所述训练用术语约束,对所述机器翻译模型进行训练,具体包括:将所述训练用术语约束和所述训练用目标端语句进行拼接;将拼接后的所述训练用术语约束与所述训练用目标端语句进行改进的多头自注意力处理。5.根据权利要求4所述的方法,其中,所述改进的多头自注意力处理,具体包括:获取拼接后的所述训练用术语约束与所述训练用目标端语句的训练用自注意力权重矩阵,并提取所述训练用自注意力权重矩阵的对角线上各位置的值,作为训练用待用值;将所述训练用自注意力权重矩阵中,所有填充处理对应的位置赋值为负无穷;根据所述训练用待用值,将所述训练用自注意力权重矩阵的对角线上各位置重新赋值,得到修正的训练用自注意力权重矩阵;根据所述修正的训练用自注意力权重矩阵,得到更新后的所述拼接后的所述训练用术语约束与所述训练用目标端语句的表示。6.根据权利要求1所述的方法,其中,所述根据若干所述训练用术语匹配项,生成辅助训练语料,并将所述原始训练语料和所述辅助训练语料进行组合,得到组合训练语料,具体包括:从所述原始训练语料中,提取所有包括有所述训练用术语匹配项的双语句对,以得到第一子辅助训练语料;对于第一子辅助训练语料中的每个所述训练用术语匹配项,为该训练用术语匹配项包括的所述训练用源端术语和所述训练用目标端术语中的至少一个添加所述训练用术语位置标签,以得到第二子辅助训练语料;将所述第一子辅助训练语料和第二子辅助训练语料作为所述辅助训练语料,与所述原始训练语料进行组合,以得到所述组合训练语料;或,将所述第二子辅助训练语料作为所述
辅助训练语料,与所述原始训练语料进行组合,以得到所述组合训练语料。7.根据权利要求1所述的方法,其中,所述根据若干所述训练用术语约束项,得到训练用术语约束,具体包括:将若干所述训练用术语约束项依次拼接,并在末位的所述训练用术语约束项后添加断句符,以得到所述训练用术语约束。8.根据权利要求1至7任意一项所述的方法,其中,所述训练用术语位置标签包括:开始位置符和结束位置符;所述开始位置符和所述结束位置符还均包括有索引信息,所述索引信息用于表达所述训练用术语位置标签对应的所述训练用术语匹配项在其所属的训练用语句包括的所有所述训练用术语匹配项中首次出现的索引顺序。9.一种机器翻译方法,包括:获取待翻译语句和术语词典;根据所述术语词典,对所述待翻译语句进行匹配检索,得到若干术语匹配项;所述术语匹配项包括:源端术语及其对应的目标端术语;为每个所述目标端术语添加术语位置标签,得到若干术语约束...

【专利技术属性】
技术研发人员:吴丽鑫黄瑾段亦涛
申请(专利权)人:网易有道信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1