翻译模型的训练方法、语句翻译方法、装置、设备、程序制造方法及图纸

技术编号:34172139 阅读:73 留言:0更新日期:2022-07-17 11:02
本发明专利技术提供了一种翻译模型的训练方法包括:在翻译记忆库中获取与所述目标翻译记忆语句对应的源端语句;将源端语句和所述每一个目标翻译记忆语句组成训练样本,并且将不同的训练样本组成训练样本集合;通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定翻译模型的更新参数;根据翻译模型的更新参数,通过所述训练样本集合中的不同训练样本对所述翻译模型的编码器参数和解码器参数进行迭代更新。本发明专利技术还提供了装置、设备、软件程序及存储介质。本发明专利技术能够使得经过训练翻译模型的精确度更高,翻译效果更好,发明专利技术实施例还可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。等各种场景。等各种场景。

Training method, sentence translation method, device, equipment and program of translation model

【技术实现步骤摘要】
翻译模型的训练方法、语句翻译方法、装置、设备、程序


[0001]本专利技术涉及机器翻译(MT,Machine Translation)技术,尤其涉及翻译模型的训练方法、语句翻译方法、装置、设备、软件程序及存储介质。

技术介绍

[0002]目前,在人们的工作、生活中经常需要将文本或语音进行翻译,一般情况下可以利用专门的翻译应用或者通过翻译网页进行机器翻译(MT,MachineTranslation),但是机器翻译有时会出现翻译错误的情况,因此在行业内使用机器翻译技术时,结合机器辅助翻译(CAT,Computer

Aided Translation)是一种被广泛使用的做法。随着MT系统的进步和完善,出现了各种高效的CAT交互方式。
[0003]随着机器翻译的发展,神经网络机器翻译(NMT,Neural Machine Translation) 作为新一代的翻译技术得到普通应用。神经网络机器翻译系统基于编码器

解码器框架搭建,然而,在神经网络机器翻译系统的翻译过程中,解码器兼具多重任务,如记录当前翻译的内容、以及需要翻译的内容,记录翻译的流畅度的相关信息等。翻译记忆(TM Translation Memory)是一个存储成对的源语言和目标语言片段的数据库。翻译人员可以在进行翻译的时候查阅此数据库来提升翻译的效率和一致性。在机器翻译社区,早起的工作主要聚焦于将翻译记忆融入到统计机器翻译模型中。近年来,随着神经机器翻译模型在各项翻译任务上取得了卓越的效果,越来越多的研究旨在将翻译记忆融入到神经翻译模型(NMT Neural Machine Translation)中,但是复杂的模型结构和冗余的翻译记忆影响了翻译模型的训练精度与训练速度,不利于翻译模型的广泛推广使用。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种翻译模型的训练方法、装置、设备、软件程序及存储介质,能够减小翻译模型的模型复杂程度,通过对比检索选择与待翻译语句相似的翻译记忆语句,可以减少相关技术中额外的记忆网络带来的网络结构复杂,影响训练速度的问题以及使用时翻译时间过长的问题,同时针对翻译记忆语句的冗余,可以通过翻译记忆融合,利用注意力机制来捕捉不同翻译机制相似性,保证翻译记忆的多样性(也就是训练样本的多样性),使得经过训练翻译模型的精确度更高,翻译效果更好,提升用户的使用体验。
[0005]本专利技术实施例的技术方案是这样实现的:
[0006]本专利技术实施例提供了一种翻译模型的训练方法,所述训练方法包括:
[0007]获取目标翻译记忆语句;
[0008]在翻译记忆库中获取与所述目标翻译记忆语句对应的源端语句;
[0009]将所述源端语句和所述每一个目标翻译记忆语句组成训练样本,并且将不同的训练样本组成训练样本集合;
[0010]获取翻译模型的初始参数;
[0011]响应于所述翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不
同训练样本进行处理,确定所述翻译模型的更新参数;
[0012]根据所述翻译模型的更新参数,通过所述训练样本集合中的不同训练样本对所述翻译模型的编码器参数和解码器参数进行迭代更新。
[0013]本专利技术实施例提供了一种包括:
[0014]通过翻译模型的编码器,确定与待翻译语句所对应的至少一个词语级的隐变量;
[0015]通过所述翻译模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的翻译词语以及所述翻译词语的被选取概率;
[0016]根据所述翻译结果的被选取概率,选取至少一个翻译词语组成与所述待翻译语句相对应的翻译结果;
[0017]输出所述翻译结果。
[0018]本专利技术实施例还提供了一种翻译模型的训练装置,所述训练装置包括:
[0019]数据传输模块,用于获取目标翻译记忆语句;
[0020]翻译模型训练模块,用于在翻译记忆库中获取与所述目标翻译记忆语句对应的源端语句;
[0021]所述翻译模型训练模块,用于将所述源端语句和所述目标翻译记忆语句组成训练样本,并且将不同的训练样本组成训练样本集合;
[0022]所述翻译模型训练模块,用于获取翻译模型的初始参数;
[0023]所述翻译模型训练模块,用于响应于所述翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定所述翻译模型的更新参数;
[0024]所述翻译模型训练模块,用于根据所述翻译模型的更新参数,通过所述训练样本集合中的不同训练样本对所述翻译模型的编码器参数和解码器参数进行迭代更新。
[0025]上述方案中,
[0026]所述翻译模型训练模块,用于获取所述待翻译语句的最大长度与任一翻译记忆语句的最大长度;
[0027]所述翻译模型训练模块,用于获取所述待翻译语句与所述任一翻译记忆语句的词元距离,
[0028]所述翻译模型训练模块,用于基于所述词元距离、所述待翻译语句的最大长度和所述任一翻译记忆语句的最大长度,确定所述待翻译语句与所述任一翻译记忆语句的相似度;
[0029]所述翻译模型训练模块,用于当所述相似度大于等于相似度阈值时,确定所述任一翻译记忆语句为所述待翻译语句对应的原始翻译记忆语句。
[0030]上述方案中,
[0031]所述翻译模型训练模块,用于通过注意力函数计算每一个翻译记忆语句对应的注意力值;
[0032]所述翻译模型训练模块,用于将相同注意力值的翻译记忆语句融合为同一翻译记忆语句;或者
[0033]所述翻译模型训练模块,用于向相同注意力值的翻译记忆语句融合为训练样本子集中的不同训练样本。
[0034]上述方案中,
[0035]所述翻译模型训练模块,用于确定与所述翻译模型的使用环境相匹配的动态噪声阈值;
[0036]所述翻译模型训练模块,用于根据所述动态噪声阈值对所述训练样本集合进行去噪处理,以形成与所述动态噪声阈值相匹配的去噪训练样本集合;或者,
[0037]所述翻译模型训练模块,用于确定与所述翻译模型相对应的固定噪声阈值,并根据所述固定噪声阈值对所述训练样本集合进行去噪处理,以形成与所述固定噪声阈值相匹配的去噪训练样本集合。
[0038]上述方案中,
[0039]所述翻译模型训练模块,用于对所述训练样本集合进行负例处理,以形成与所述训练样本集合相对应的负例样本集合,其中,所述负例样本集合用于对所述翻译模型的编码器参数和解码器参数调整。
[0040]上述方案中,
[0041]所述翻译模型训练模块,用于确定所述训练样本集合中;
[0042]所述翻译模型训练模块,用于确定所述翻译模型对应的监督函数;
[0043]所述翻译模型训练模块,用于调整所述监督函数的温度系数;
[0044]所述翻译模型训练模块,用于基于所述训练集合中任意两个翻译记忆语句的向量相似度和不同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种翻译模型的训练方法,其特征在于,所述训练方法包括:获取目标翻译记忆语句;在翻译记忆库中获取与所述目标翻译记忆语句对应的源端语句;将所述源端语句和所述目标翻译记忆语句组成训练样本,并且将不同的训练样本组成训练样本集合;获取翻译模型的初始参数;响应于所述翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定所述翻译模型的更新参数;根据所述翻译模型的更新参数,通过所述训练样本集合中的不同训练样本对所述翻译模型的编码器参数和解码器参数进行迭代更新。2.根据权利要求1所述的方法,其特征在于,所述获取目标翻译记忆语句,包括:获取待翻译语句;基于所述待翻译语句与原始翻译记忆语句的语句相似度进行检索,得到与所述待翻译语句相匹配的至少两个原始翻译记忆语句;对所获取的至少两个原始翻译记忆语句进行翻译记忆融合处理,得到所述目标翻译记忆语句。3.根据权利要求2所述的方法,其特征在于,所述基于所述待翻译语句与原始翻译记忆语句的语句相似度进行检索,得到与所述待翻译语句相匹配的至少两个原始翻译记忆语句,包括:获取所述待翻译语句的最大长度与任一翻译记忆语句的最大长度;获取所述待翻译语句与所述任一翻译记忆语句的词元距离,基于所述词元距离、所述待翻译语句的最大长度和所述任一翻译记忆语句的最大长度,确定所述待翻译语句与所述任一翻译记忆语句的相似度;当所述相似度大于等于相似度阈值时,确定所述任一翻译记忆语句为所述待翻译语句对应的原始翻译记忆语句。4.根据权利要求1所述的方法,其特征在于,所述对所获取的至少两个原始翻译记忆语句进行翻译记忆融合处理,得到目标翻译记忆语句,包括:通过注意力函数计算每一个翻译记忆语句对应的注意力值;将相同注意力值的翻译记忆语句融合为同一翻译记忆语句;或者将相同注意力值的翻译记忆语句融合为训练样本子集中的不同训练样本。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定与所述翻译模型的使用环境相匹配的动态噪声阈值;根据所述动态噪声阈值对所述训练样本集合进行去噪处理,以形成与所述动态噪声阈值相匹配的去噪训练样本集合;或者,确定与所述翻译模型相对应的固定噪声阈值,并根据所述固定噪声阈值对所述训练样本集合进行去噪处理,以形成与所述固定噪声阈值相匹配的去噪训练样本集合。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述训练样本集合进行负例处理,以形成与所述训练样本集合相对应的负例样本集合,其中,所述负例样本集合用于对所述翻译模型的编码器参数和解码器参数调整。
7.根据权利要求6所述的方法,其特征在于,所述对所述训练样本集合进行负例处理,包括:确定所述翻译模型对应的监督函数;调整所述监督函数的温度系数;基于所述训练集合中任意两个翻译记忆语句的向量相似度和不同的温度系数,通过所述监督函数对对所述训练样本集合进行负例处理,以形成与所述训练样本集合相对应的负例样本集合。8.根据权利要求6所述的方法,其特征在于,所述对所述训练样本集合进行负例处理,包括:将所述翻译模型的解码器中待输出语句进行随机组合,以形成与所述训...

【专利技术属性】
技术研发人员:程信严睿刘乐茂
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1