翻译模型训练方法及装置制造方法及图纸

技术编号:38011730 阅读:8 留言:0更新日期:2023-06-30 10:33
本申请提供翻译模型训练方法及装置,其中所述翻译模型训练方法包括:确定初始语料集合中每个初始语料对的语料对分值,其中,初始语料对由对应源语种和对应目标语种的语句组成;根据所述语料对分值在所述初始语料集合中,筛选出关联所述源语种和所述目标语种的初始语料对组成中间语料集合;在所述中间语料集合中选择满足预设平行关系的中间语料对组成目标语料集合,并在所述目标语料集合中确定目标语料对;将所述目标语料对添加至语料样本集,并利用所述语料样本集对初始翻译模型进行训练;实现对训练翻译模型的语料进行筛选,以获得翻译关系更强的语料,以此为基础可以训练出翻译精度更高的翻译模型。精度更高的翻译模型。精度更高的翻译模型。

【技术实现步骤摘要】
翻译模型训练方法及装置


[0001]本申请涉及机器学习
,特别涉及翻译模型训练方法及装置。

技术介绍

[0002]人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能深度学习框架实现了对算法的封装。随着人工智能的发展,各种深度学习框架不断的涌现;TensorFlow、PyTorch等通用型深度学习框架,应用于自然语言处理、计算机视觉、语音处理等领域,以及机器翻译、智慧金融、智能医疗、自动驾驶等行业。是现今应用较为广泛的一种深度学习框架。而自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译(是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程)、机器阅读理解(是指给一段context描述,然后对应的给一个query,机器通过阅读context后,给出对应query的答案)、问答系统(Question AnsweringSystem,QA,是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题)、主题/关键词提取等。
[0003]在机器翻译场景下,为了能够提高翻译模型的翻译精度,需要在模型训练阶段采集大量的平行语料对翻译模型进行训练,而平行语料的质量和数量是确保翻译模型预测精度的基础。现有技术中,平行语料的筛选大多数基于边距的评分方法完成,虽然能够达到平行语料筛选的目的,但是其筛选出的平行语料质量较低,致使训练出的翻译模型预测精度不高,因此亟需一种有效的方案以解决上述问题。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种翻译模型训练方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种翻译模型训练装置,一种翻译方法,一种翻译装置,一种计算设备,以及一种计算机可读存储介质。
[0005]根据本申请实施例的第一方面,提供了一种翻译模型训练方法,包括:
[0006]确定初始语料集合中每个初始语料对的语料对分值,其中,初始语料对由对应源语种和对应目标语种的语句组成;
[0007]根据所述语料对分值在所述初始语料集合中,筛选出关联所述源语种和所述目标语种的初始语料对组成中间语料集合;
[0008]在所述中间语料集合中选择满足预设平行关系的中间语料对组成目标语料集合,并在所述目标语料集合中确定目标语料对;
[0009]将所述目标语料对添加至语料样本集,并利用所述语料样本集对初始翻译模型进行训练。
[0010]根据本申请实施例的第二方面,提供了一种翻译模型训练装置,包括:
[0011]确定模块,被配置为确定初始语料集合中每个初始语料对的语料对分值,其中,初始语料对由对应源语种和对应目标语种的语句组成;
[0012]筛选模块,被配置为根据所述语料对分值在所述初始语料集合中,筛选出关联所述源语种和所述目标语种的初始语料对组成中间语料集合;
[0013]选择模块,被配置为在所述中间语料集合中选择满足预设平行关系的中间语料对组成目标语料集合,并在所述目标语料集合中确定目标语料对;
[0014]训练模块,被配置为将所述目标语料对添加至语料样本集,并利用所述语料样本集对初始翻译模型进行训练。
[0015]根据本申请实施例的第三方面,提供了一种翻译方法,包括:
[0016]获取对应源语种的待翻译语句;
[0017]将所述待翻译语句输入至上述方法训练完成的翻译模型中,进行翻译处理,获得对应源语种的目标语句。
[0018]根据本申请实施例的第四方面,提供了一种翻译装置,包括:
[0019]获取模块,被配置为获取对应源语种的待翻译语句;
[0020]翻译模块,被配置为将所述待翻译语句输入至上述方法训练完成的翻译模型中,进行翻译处理,获得对应源语种的目标语句。
[0021]根据本申请实施例的第五方面,提供了一种计算设备,包括:
[0022]存储器和处理器;
[0023]所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述翻译模型训练方法或翻译方法的步骤。
[0024]根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述翻译模型训练方法或翻译方法的步骤。
[0025]根据本申请实施例的第七方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述翻译模型训练方法或翻译方法的步骤。
[0026]本申请提供的翻译模型训练方法,为了能够提高训练翻译模型的样本质量,可以先确定初始语料集合中每个初始语料对的语料对分值,之后根据语料对分值在初始语料集合中筛选出,关联源语种和目标语种较强的初始语料对组成中间语料集合,实现通过语料对分值完成初次样本质量筛选;其次,再从中间语料集合中选择满足预设平行关系的中间语料对组成目标语料集合,实现通过预设平行关系完成二次样本质量筛选;最后在目标语料集合中选择语料质量满足需求的目标语料对添加到语料样本集,并利用该集合进行翻译模型训练即可。实现在翻译模型训练阶段,通过过滤低质量数据的方式提升语料质量,从而可以保证训练出的翻译模型精度更高,有效的提升了翻译模型的翻译性能。
附图说明
[0027]图1是本申请一实施例提供的一种翻译模型训练方法的结构示意图;
[0028]图2是本申请一实施例提供的一种翻译模型训练方法的流程图;
[0029]图3是本申请一实施例提供的一种翻译模型训练方法的处理流程图;
[0030]图4是本申请一实施例提供的一种翻译模型训练装置的结构示意图;
[0031]图5是本申请一实施例提供的一种翻译方法的流程图;
[0032]图6是本申请一实施例提供的一种翻译装置的结构示意图;
[0033]图7是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
[0034]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0035]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0036]应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种翻译模型训练方法,其特征在于,包括:确定初始语料集合中每个初始语料对的语料对分值,其中,初始语料对由对应源语种和对应目标语种的语句组成;根据所述语料对分值在所述初始语料集合中,筛选出关联所述源语种和所述目标语种的初始语料对组成中间语料集合;在所述中间语料集合中选择满足预设平行关系的中间语料对组成目标语料集合,并在所述目标语料集合中确定目标语料对;将所述目标语料对添加至语料样本集,并利用所述语料样本集对初始翻译模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述确定初始语料集合中每个初始语料对的语料对分值步骤执行之前,还包括:获取对应所述源语种的第一语料;对所述第一语料进行翻译处理,获得对应所述目标语种的第二语料;基于所述第一语料和所述第二语料构建扩增语料对,并将所述扩增语料对添加至预设语料集合,获得所述初始语料集合。3.根据权利要求1所述的方法,其特征在于,所述初始语料集合中任意一个初始语料对的语料对分值的确定,包括:在所述初始语料对中确定对应所述源语种的源语种语句,以及对应所述目标语种的目标语种语句;选择对应所述源语种的语句识别算法对所述源语种语句进行识别处理,根据识别处理结果确定所述源语种语句对应的源语种分值;选择对应所述目标语种的语句识别算法对所述目标语种语句进行识别处理,根据识别处理结果确定所述目标语种语句对应的目标语种分值;根据所述源语种分值和所述目标语种分值,确定所述初始语料对的语料对分值。4.根据权利要求1所述的方法,其特征在于,所述在所述中间语料集合中选择满足预设平行关系的中间语料对组成目标语料集合,包括:将所述中间语料集合中包含的中间语料对,依次输入至预训练的语言模型进行处理,获得每个中间语料对的对齐分值;按照所述对齐分值对所述中间语料集合中包含的中间语料对进行排序,根据排序结果选择设定数量的中间语料对,作为满足预设平行关系的中间语料对;根据满足预设平行关系的中间语料对组成所述目标语料集合;其中,所述预训练的语言模型用于在词单元对齐维度,预测每个中间语料对的对齐分值。5.根据权利要求4所述的方法,其特征在于,所述预训练的语言模型,通过如下方式训练:获取关联目标领域的样本语料集合;在所述样本语料集合中确定第一样本语料对和第二样本语料对;通过对所述第二样本语料对添加噪音处理,获得负样本语料对,并将所述第一样本语料对作为正样本语料对;
基于所述负样本语料对和所述正样本语料对,对初始语言模型进行训练,直至获得满足训练停止条件的所述预训练的语言模型。6.根据权利要求5所述的方法,其特征在于,所述通过对所述第二样本语料对添加噪音处理,获得负样本语料对,包括:对所述第二样本语料对中包含的第一样本语句和第二样本语句,分别进行词单元删除处理,根据词单元删除处理结果生成所述负样本语料对;和/或,对所述第二样本语料对中包含的第一样本语句和第二样本语句,分别进行词单元顺序调整处理,根据词单元顺序调整处理结果生成所述负样本语料对;和/或,对所述第二样本语料对中包含的第一样本语句和第二样本语句,分别进行句单元替换处理,根据句单元替换处理结果生成所述负样本语料对。7.根据权利要求1所述的方法,其特征在于,所述在所述目标...

【专利技术属性】
技术研发人员:贾承勋
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1