用于生成训练数据的方法、训练方法、设备及存储介质技术

技术编号:34135687 阅读:14 留言:0更新日期:2022-07-14 16:33
本发明专利技术的实施方式提供了一种用于生成训练数据的方法、用于翻译模型的训练方法、用于纠错模型的训练方法、用于生成训练数据的设备及计算机可读存储介质。该方法包括:对源平行数据中的第一语种数据进行第一加噪处理,以生成与第一语种数据相关的加噪数据;基于源平行数据中的第二语种数据和加噪数据,生成用于翻译训练的加噪平行数据;和/或基于第一语种数据和加噪数据,生成用于纠错训练的纠错数据对。根据本发明专利技术实施方式的用于生成训练数据的方法,可以使得利用该加噪平行数据进行训练后的翻译模型能够提高对带噪音句子的翻译质量,和/或使得利用该纠错数据对进行训练的纠错模型能够提高纠错质量。型能够提高纠错质量。型能够提高纠错质量。

Method, training method, equipment and storage medium for generating training data

【技术实现步骤摘要】
用于生成训练数据的方法、训练方法、设备及存储介质


[0001]本专利技术的实施方式涉及数据处理
,更具体地,本专利技术的实施方式涉及一种用于生成训练数据的方法、用于翻译模型的训练方法、用于纠错模型的训练方法、用于生成训练数据的设备及计算机可读存储介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
[0003]机器翻译是由机器自动实施的将一种语言翻译为另一种语言的翻译方式。相比于人工翻译,机器翻译具有实时性高以及成本低等优势。目前机器翻译技术已经进入神经机器翻译时代,利用人工智能技术使得机器翻译的质量得到了大幅度的提升。然而,现有的翻译模型对待翻译句子中的噪音异常敏感,例如当待翻译句子中存在拼写、空格等错误时,翻译模型的翻译结果中会出现错译、漏译等问题,从而极大的影响了翻译模型的翻译质量。
[0004]目前的纠错模型通常是在翻译模型的基础上训练得到的,而训练纠错模型所需的训练数据的来源较少且较难获得,使得现有的纠错模型的训练效果具有局限性。

技术实现思路

[0005]鉴于上面所提到的技术问题,本专利技术的实施方式期望提供一种用于生成训练数据的方法、用于翻译模型的训练方法、用于纠错模型的训练方法、用于生成训练数据的设备及计算机可读存储介质。
[0006]在本专利技术实施方式的第一方面中,提供一种用于生成训练数据的方法,包括:对源平行数据中的第一语种数据进行第一加噪处理,以生成与所述第一语种数据相关的加噪数据;基于所述源平行数据中的第二语种数据和所述加噪数据,生成用于翻译训练的加噪平行数据;和/或基于所述第一语种数据和所述加噪数据,生成用于纠错训练的纠错数据对。
[0007]在本专利技术的一个实施例中,进行第一加噪处理以生成加噪数据包括:基于所述第一语种数据,生成以所述第一语种数据为内容的图片;以及对所述图片进行文本识别,以得到所述加噪数据。
[0008]在本专利技术的另一个实施例中,在生成所述图片中,所述方法还包括以下中的至少一项操作:设置第一语种数据的字体;设置第一语种数据的倾斜角度;设置第一语种数据的书写方式;设置图片的背景颜色;设置图片的背景图案;设置图片的亮度;设置图片的清晰度;以及设置图片的旋转角度。
[0009]在本专利技术的又一个实施例中,进行第一加噪处理以生成加噪数据包括:基于所述第一语种数据,合成所述第一语种数据的语音;以及对所述语音进行语音识别,以得到所述加噪数据。
[0010]在本专利技术的再一个实施例中,进行第一加噪处理以生成加噪数据包括:对所述第一语种数据进行子词化切分,以获得包括所述第一语种数据中全部子词的子词集合;以及对所述第一语种数据中的一个或多个子词进行第二加噪处理,以得到所述加噪数据。
[0011]在本专利技术的一个实施例中,所述第二加噪处理包括以下中的至少一项:删除所述第一语种数据中的一个或多个子词;将所述第一语种数据中的一个或多个子词替换为所述子词集合中的一个或多个其他子词;以及将所述子词集合中的一个或多个子词插入到所述第一语种数据中的任意位置。
[0012]在本专利技术实施方式的第二方面中,提供一种用于翻译模型的训练方法,包括:利用根据本专利技术实施方式的第一方面中任一所述的方法生成的加噪平行数据,对所述翻译模型进行训练。
[0013]在本专利技术的一个实施例中,还包括:还利用所述加噪平行数据进行第一加噪处理之前的源平行数据,对所述翻译模型进行训练。
[0014]在本专利技术实施方式的第三方面中,提供一种用于纠错模型的训练方法,包括:利用根据本专利技术实施方式的第一方面中任一所述的方法生成的纠错数据对,对所述纠错模型进行训练。
[0015]在本专利技术实施方式的第四方面中,提供一种用于生成训练数据的设备,包括,至少一个处理器;存储器,其存储有程序指令,当所述程序指令由所述至少一个处理器执行时,使得所述设备执行根据本专利技术实施方式的第一方面中的任一项所述的方法。
[0016]在本专利技术实施方式的第五方面中,提供一种计算机可读存储介质,其存储有用于生成训练数据的程序,当所述程序由处理器来运行时,执行根据本专利技术实施方式的第一方面中的任一项所述的方法。
[0017]根据本专利技术实施方式的用于生成训练数据的方法,可以通过对源平行数据中的第一语种数据进行第一加噪处理以生成加噪数据,以及可以基于源平行数据中的第二语种数据和加噪数据,生成能够用于翻译训练的加噪平行数据,从而使得利用该加噪平行数据进行训练后的翻译模型能够提高对带噪音句子的翻译质量。另外,根据本专利技术实施方式的方法生成加噪数据后,还可以基于第一语种数据和加噪数据生成纠错数据对,从而有利于实现对纠错模型的纠错训练。
附图说明
[0018]通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:
[0019]图1示意性地示出了适于实现本专利技术实施方式的示例性系统100的框图;
[0020]图2是示出噪音影响NMT模型翻译结果的示例图;
[0021]图3示意性地示出了根据本专利技术实施例的用于生成训练数据的方法流程图;
[0022]图4示意性地示出了根据本专利技术一个实施例的进行第一加噪处理以生成加噪数据的方法流程图;
[0023]图5示意性地示出了根据本专利技术另一个实施例的生成加噪数据的方法流程图;以及
[0024]图6示意性地示出了根据本专利技术又一个实施例的生成加噪数据的方法流程图。
[0025]在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0026]下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。相反,提供这些实施方式是为了使本专利技术更加透彻和完整,并且能够将本专利技术的范围完整地传达给本领域的技术人员。
[0027]图1示出了适于实现本专利技术实施方式的示例性系统100的框图。如图1所示,系统100可以包括:中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中,与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合,键盘111与键盘控制器106耦合,串行外部本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于生成训练数据的方法,包括:对源平行数据中的第一语种数据进行第一加噪处理,以生成与所述第一语种数据相关的加噪数据;基于所述源平行数据中的第二语种数据和所述加噪数据,生成用于翻译训练的加噪平行数据;和/或基于所述第一语种数据和所述加噪数据,生成用于纠错训练的纠错数据对。2.根据权利要求1所述的方法,其中进行第一加噪处理以生成加噪数据包括:基于所述第一语种数据,生成以所述第一语种数据为内容的图片;以及对所述图片进行文本识别,以得到所述加噪数据。3.根据权利要求2所述的方法,其中在生成所述图片中,所述方法还包括以下中的至少一项操作:设置第一语种数据的字体;设置第一语种数据的倾斜角度;设置第一语种数据的书写方式;设置图片的背景颜色;设置图片的背景图案;设置图片的亮度;设置图片的清晰度;以及设置图片的旋转角度。4.根据权利要求1所述的方法,其中进行第一加噪处理以生成加噪数据包括:基于所述第一语种数据,合成所述第一语种数据的语音;以及对所述语音进行语音识别,以得到所述加噪数据。5.根据权利要求1所述的方法,其中进行第一加噪处理以生成加噪数据包括:对所述第一语种数据进行子词化切分,以获得包括所述第一语种数据中全部子词的...

【专利技术属性】
技术研发人员:曹明宇程桥黄瑾段亦涛
申请(专利权)人:网易有道信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1