一种翻译模型训练方法、信息翻译方法及相关设备技术

技术编号:35305999 阅读:31 留言:0更新日期:2022-10-22 12:56
本申请公开了一种翻译模型训练方法、信息翻译方法及相关设备,该翻译模型训练方法,包括:获取训练数据集合;对待翻译信息进行预处理,得到预处理后的待翻译信息;获取第二语种词表;构建预设机器学习模型;将预处理后的待翻译信息输入编码模块,得到待翻译特征信息;将待翻译特征信息和译文信息输入解码模块,得到第一目标词概率分布;基于每个目标词的第一概率值和译文信息,确定翻译损失值;基于第一目标词概率分布中目标关键词的第一概率值和目标关键词标签值,确定关键词损失值;基于翻译损失值和关键词损失值,对预设机器学习模型进行更新训练,得到翻译模型。如此,可以提高翻译模型对于待翻译信息中关键词的翻译能力。译模型对于待翻译信息中关键词的翻译能力。译模型对于待翻译信息中关键词的翻译能力。

【技术实现步骤摘要】
一种翻译模型训练方法、信息翻译方法及相关设备


[0001]本申请涉及机器学习
,特别涉及一种翻译模型训练方法、信息翻译方法及相关设备。

技术介绍

[0002]神经机器翻译近年来迅速崛起。相比统计机器翻译而言,神经机器翻译从模型上来说相对简单,它主要包含两个部分,一个是编码器,一个是解码器。编码器是把源语言经过一系列的神经网络的变换之后,表示成一个高维的向量。解码器负责把这个高维向量再重新解码(翻译)成目标语言。
[0003]然而,高质量的神经机器翻译模型很大程度上依赖于大规模高质量的双语平行训练集,而大规模双语数据集只存在于很少几对的双语语言中,如英语和几个欧洲国家的语言对,中英语言对等;这意味着,基于小规模双语数据集训练出来的模型效果不甚理想。

技术实现思路

[0004]本申请提供了一种翻译模型训练方法、信息翻译方法及相关设备,可以解决现有技术基于小规模双语数据集训练出来的模型效果不甚理想的问题。
[0005]根据本申请的第一方面,提供了一种翻译模型训练方法,包括:
[0006]获取训练数据集合;训练数据集合包括多个训练数据,多个训练数据中每个训练数据包括待翻译信息和待翻译信息的译文信息;待翻译信息对应第一语种;译文信息对应第二语种;
[0007]对待翻译信息进行预处理,得到预处理后的待翻译信息;预处理后的待翻译信息包括至少一个目标关键词;目标关键词对应第二语种;
[0008]获取第二语种词表;第二语种词表包括多个目标词,多个目标词包括目标关键词;/>[0009]构建预设机器学习模型;预设机器学习模型包括编码模块和解码模块;
[0010]将预处理后的待翻译信息输入编码模块,得到待翻译特征信息;
[0011]将待翻译特征信息和译文信息输入解码模块,得到第一目标词概率分布;第一目标词概率分布包括多个目标词中每个目标词的第一概率值,每个目标词的第一概率值表征每个目标词与待翻译信息之间的语义相关程度;
[0012]基于每个目标词的第一概率值和译文信息,确定翻译损失值;
[0013]基于第一目标词概率分布中目标关键词的第一概率值和目标关键词标签值,确定关键词损失值;
[0014]基于翻译损失值和关键词损失值,对预设机器学习模型进行更新训练,得到翻译模型。
[0015]根据本申请的第二方面,提供了一种信息翻译方法,包括:
[0016]获取当前待翻译信息;
[0017]将当前待翻译信息输入根据本申请第一方面的翻译模型训练方法训练得到的翻
译模型,对当前待翻译信息进行翻译,得到当前待翻译信息的译文信息。
[0018]根据本申请的第三方面,提供了一种翻译模型训练装置,包括:
[0019]第一获取模块,用于获取训练数据集合;训练数据集合包括多个训练数据,多个训练数据中每个训练数据包括待翻译信息和待翻译信息的译文信息;待翻译信息对应第一语种;译文信息对应第二语种;
[0020]预处理模块,用于对待翻译信息进行预处理,得到预处理后的待翻译信息;预处理后的待翻译信息包括至少一个目标关键词;目标关键词对应第二语种;
[0021]第二获取模块,用于获取第二语种词表;第二语种词表包括多个目标词,多个目标词包括目标关键词;
[0022]构建模块,用于构建预设机器学习模型;预设机器学习模型包括编码模块和解码模块;
[0023]训练模块,用于将预处理后的待翻译信息输入编码模块,得到待翻译特征信息;将待翻译特征信息和译文信息输入解码模块,得到第一目标词概率分布;第一目标词概率分布包括多个目标词中每个目标词的第一概率值,每个目标词的第一概率值表征每个目标词与待翻译信息之间的语义相关程度;基于每个目标词的第一概率值和译文信息,确定翻译损失值;基于第一目标词概率分布中目标关键词的第一概率值和目标关键词标签值,确定关键词损失值;基于翻译损失值和关键词损失值,对预设机器学习模型进行更新训练,得到翻译模型。
[0024]根据本申请的第四方面,提供了一种信息翻译装置,包括:
[0025]第一获取模块,用于获取前待翻译信息;
[0026]翻译模块,用于将当前待翻译信息输入根据本申请第一方面的翻译模型训练方法训练得到的翻译模型,对当前待翻译信息进行翻译,得到当前待翻译信息的译文信息。
[0027]根据本申请的第五方面,提供了一种电子设备,包括:
[0028]处理器;
[0029]用于存储处理器可执行指令的存储器;
[0030]其中,处理器被配置为执行指令,以实现本申请第一方面的翻译模型训练方法或本申请第二方面的信息翻译方法。
[0031]根据本申请的第六方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本申请第一方面的翻译模型训练方法或本申请第二方面的信息翻译方法。
[0032]根据本申请的第七方面,提供了一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从可读存储介质读取并执行计算机程序,使得计算机设备执行本申请第一方面的翻译模型训练方法或本申请第二方面的信息翻译方法。
[0033]本申请提供的一种翻译模型训练方法、信息翻译方法及相关设备,具有如下技术效果:
[0034]本申请实施例提供的翻译模型训练方法,通过对待翻译信息进行预处理,利用目标关键词替换待翻译信息中源语关键词,这样保证关键词在源语和目标语中同时出现,如此,可以保留源语的完整语义信息,有助于后续模型能够更好的学习上下文;通过引入关键
词损失,将关键词损失与翻译损失进行结合,基于关键词损失和翻译损失对模型进行训练,可以提高翻译模型对于待翻译信息中关键词的翻译能力。从而,由于模型对关键词的翻译能力提高,即使基于小规模双语数据集,也可以训练出效果较好的翻译模型。
附图说明
[0035]为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0036]图1是本申请实施例提供的一种应用环境的示意图;
[0037]图2是本申请实施例提供的一种翻译模型训练方法的流程示意图;
[0038]图3是本申请实施例提供的一种预处理后的待翻译信息的示意图;
[0039]图4是本申请实施例提供的对待翻译信息进行预处理的一种流程示意图;
[0040]图5是本申请实施例提供的对待翻译信息进行预处理的一种流程示意图;
[0041]图6是本申请实施例提供的对待翻译信息进行预处理的一种流程示意图;
[0042]图7是本申请实施例提供的一种预设机器学习模型的结构示意图;
[0043]图8是本申请实施例本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种翻译模型训练方法,其特征在于,包括:获取训练数据集合;所述训练数据集合包括多个训练数据,所述多个训练数据中每个训练数据包括待翻译信息和所述待翻译信息的译文信息;所述待翻译信息对应第一语种;所述译文信息对应第二语种;对所述待翻译信息进行预处理,得到预处理后的待翻译信息;所述预处理后的待翻译信息包括至少一个目标关键词;所述目标关键词对应所述第二语种;获取第二语种词表;所述第二语种词表包括多个目标词,所述多个目标词包括所述目标关键词;构建预设机器学习模型;所述预设机器学习模型包括编码模块和解码模块;将所述预处理后的待翻译信息输入所述编码模块,得到待翻译特征信息;将所述待翻译特征信息和所述译文信息输入所述解码模块,得到第一目标词概率分布;所述第一目标词概率分布包括所述多个目标词中每个目标词的第一概率值,所述每个目标词的第一概率值表征所述每个目标词与所述待翻译信息之间的语义相关程度;基于所述每个目标词的第一概率值和所述译文信息,确定翻译损失值;基于所述第一目标词概率分布中目标关键词的第一概率值和目标关键词标签值,确定关键词损失值;基于所述翻译损失值和所述关键词损失值,对所述预设机器学习模型进行更新训练,得到翻译模型。2.根据权利要求1所述的翻译模型训练方法,其特征在于,所述对所述待翻译信息进行预处理,得到预处理后的待翻译信息,包括:获取所述第一语种与所述第二语种之间的文本映射关系;基于所述文本映射关系,将所述待翻译信息中的第一文本信息替换为所述第一文本信息对应的第二文本信息,将所述第二文本信息作为所述目标关键词,并得到所述预处理后的待翻译信息。3.根据权利要求1所述的翻译模型训练方法,其特征在于,所述对所述待翻译信息进行预处理,得到预处理后的待翻译信息,包括:获取语种混合模型;将所述待翻译信息输入所述语种混合模型进行语种混合,得到包括至少一个目标关键词的预处理后的待翻译信息。4.根据权利要求2或3所述的翻译模型训练方法,其特征在于,所述待翻译信息包括多个第一分词,所述译文信息包括多个第二分词;所述多个目标词包括所述多个第二分词,所述多个第二分词包括所述目标关键词;所述将所述待翻译特征信息和所述译文信息输入所述解码模块,得到第一目标词概率分布,包括:将所述待翻译特征信息和所述译文信息输入所述解码模块,输出所述多个第二分词中每个第二分词对应的第二目标词概率分布;所述第二目标词概率分布包括所述每个目标词的第二概率值,所述每个目标词的第二概率值表征所述每个目标词与当前第二分词之间的语义相关程度;基于所述每个第二分词对应的第二目标词概率分布,得到所述第一目标词概率分布。
5.根据权利要求1所述的翻译模型训练方法,其特征在于,所述基于所述每个目标词的第一概率值和所述译文信息,确定翻译损失值,包括:获取翻译损失函数;根据所述翻译损失函数、所述每个目标词的第一概率值和所述译文信息,确定所述翻译损失值。6.根据权利要求1所述的翻译模型训练方法,其特征在于,所述基于所述第一目标词概率分布中目标关键词的第一概率值和目标关键词标签值,确定关键词损失值,包括:获取关键词损失函数;根据所述关键词损失函数、所述目标关键词的第一概率值和目标关键词标签值,确定所述关键词损失值。7...

【专利技术属性】
技术研发人员:阿敏巴雅尔胡博杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1