用于生成训练数据的方法、训练方法、设备及存储介质技术

技术编号：34135687 阅读：14 留言：0更新日期：2022-07-14 16:33

本发明专利技术的实施方式提供了一种用于生成训练数据的方法、用于翻译模型的训练方法、用于纠错模型的训练方法、用于生成训练数据的设备及计算机可读存储介质。该方法包括：对源平行数据中的第一语种数据进行第一加噪处理，以生成与第一语种数据相关的加噪数据；基于源平行数据中的第二语种数据和加噪数据，生成用于翻译训练的加噪平行数据；和/或基于第一语种数据和加噪数据，生成用于纠错训练的纠错数据对。根据本发明专利技术实施方式的用于生成训练数据的方法，可以使得利用该加噪平行数据进行训练后的翻译模型能够提高对带噪音句子的翻译质量，和/或使得利用该纠错数据对进行训练的纠错模型能够提高纠错质量。型能够提高纠错质量。型能够提高纠错质量。

Method, training method, equipment and storage medium for generating training data

全部详细技术资料下载

【技术实现步骤摘要】
用于生成训练数据的方法、训练方法、设备及存储介质

[0001]本专利技术的实施方式涉及数据处理
，更具体地，本专利技术的实施方式涉及一种用于生成训练数据的方法、用于翻译模型的训练方法、用于纠错模型的训练方法、用于生成训练数据的设备及计算机可读存储介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。
[0003]机器翻译是由机器自动实施的将一种语言翻译为另一种语言的翻译方式。相比于人工翻译，机器翻译具有实时性高以及成本低等优势。目前机器翻译技术已经进入神经机器翻译时代，利用人工智能技术使得机器翻译的质量得到了大幅度的提升。然而，现有的翻译模型对待翻译句子中的噪音异常敏感，例如当待翻译句子中存在拼写、空格等错误时，翻译模型的翻译结果中会出现错译、漏译等问题，从而极大的影响了翻译模型的翻译质量。
[0004]目前的纠错模型通常是在翻译模型的基础上训练得到的，而训练纠错模型所需的训练数据的来源较少且较难获得，使得现有的纠错模型的训练效果具有局限性。

技术实现思路

[0005]鉴于上面所提到的技术问题，本专利技术的实施方式期望提供一种用于生成训练数据的方法、用于翻译模型的训练方法、用于纠错模型的训练方法、用于生成训练数据的设备及计算机可读...

【技术保护点】

【技术特征摘要】
1.一种用于生成训练数据的方法，包括：对源平行数据中的第一语种数据进行第一加噪处理，以生成与所述第一语种数据相关的加噪数据；基于所述源平行数据中的第二语种数据和所述加噪数据，生成用于翻译训练的加噪平行数据；和/或基于所述第一语种数据和所述加噪数据，生成用于纠错训练的纠错数据对。2.根据权利要求1所述的方法，其中进行第一加噪处理以生成加噪数据包括：基于所述第一语种数据，生成以所述第一语种数据为内容的图片；以及对所述图片进行文本识别，以得到所述加噪数据。3.根据权利要求2所述的方法，其中在生成所述图片中，所述方法还包括以下中的至少一项操作：设置第一语种数据的字体；设置第一语种数据的倾斜角度；设置第一语种数据的书写方式；设置图片的背景颜色；设置图片的背景图案；设置图片的亮度；设置图片的清晰度；以及设置图片的旋转角度。4.根据权利要求1所述的方法，其中进行第一加噪处理以生成加噪数据包括：基于所述第一语种数据，合成所述第一语种数据的语音；以及对所述语音进行语音识别，以得到所述加噪数据。5.根据权利要求1所述的方法，其中进行第一加噪处理以生成加噪数据包括：对所述第一语种数据进行子词化切分，以获得包括所述第一语种数据中全部子词的...

【专利技术属性】
技术研发人员：曹明宇，程桥，黄瑾，段亦涛，
申请(专利权)人：网易有道信息技术北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人