纠错语料的生成方法、装置及电子设备制造方法及图纸

技术编号：27811194 阅读：17 留言：0更新日期：2021-03-30 09:46

本申请公开了一种纠错语料的生成方法、装置及电子设备，涉及自然语言处理、深度学习等人工智能技术领域。实现方案为：获取包含第一语言的第一文本语料；将第一文本语料转化为文本图片；对文本图片进行加噪处理，以获取加噪后的图片；对加噪后的图片进行文字识别，以获取与第一文本语料对应的第一纠错语料。由此，将文本语料转化为加噪后的图片，进而将加噪后的图片进行文字识别以获取文本语料的纠错语料，无需人工收集大量的纠错语料，即可实现大量纠错语料的生成，不仅降低了人工成本，而且有利于提高纠错语料的多样性。有利于提高纠错语料的多样性。有利于提高纠错语料的多样性。

全部详细技术资料下载

【技术实现步骤摘要】
纠错语料的生成方法、装置及电子设备

[0001]本申请涉及计算机
，具体涉及自然语言处理、深度学习等人工智能
，尤其涉及一种纠错语料的生成方法、装置、电子设备、存储介质和计算机程序产品。

技术介绍

[0002]文本纠错是自然语言处理中的一个重要应用，其在搜索引擎、机器翻译、问答系统等许多自然语言处理系统中拥有广泛的应用，这些系统往往会将用户的输入文本进行纠错处理，得到不改变原始文本语义的正确表示。随着深度学习的发展，基于深度神经网络的纠错模型得到了进一步的发展，但其效果依赖于大量的纠错语料。因此，构建纠错语料的技术极其重要重要。

技术实现思路

[0003]本申请提供一种用于纠错语料的生成方法、装置及电子设备。
[0004]根据本申请的第一方面，提供了一种纠错语料的生成方法，包括：
[0005]获取包含第一语言的第一文本语料；
[0006]将所述第一文本语料转化为文本图片；
[0007]对所述文本图片进行加噪处理，以获取加噪后的图片；
[0008]对所述加噪后的图片进行文字识别，以获取与所述第一文本语料对应的第一纠错语料。
[0009]根据本申请的第二方面，提供了一种纠错语料的生成装置，包括：
[0010]第一获取模块，用于获取包含第一语言的第一文本语料；
[0011]第一转化模块，用于将所述第一文本语料转化为文本图片；
[0012]第二获取模块，用于对所述文本图片进行加噪处理，以获取加噪后的图片；
[0013]...

【技术保护点】

【技术特征摘要】
1.一种纠错语料的生成方法，包括：获取包含第一语言的第一文本语料；将所述第一文本语料转化为文本图片；对所述文本图片进行加噪处理，以获取加噪后的图片；对所述加噪后的图片进行文字识别，以获取与所述第一文本语料对应的第一纠错语料。2.如权利要求1所述的方法，其中，所述对所述文本图片进行加噪处理，以获取加噪后的图片，包括：根据待生成的错误语料的类型，确定目标噪声强度；基于所述目标噪声强度，对所述文本图片进行加噪处理，以获取加噪后的图片。3.如权利要求1所述的方法，其中，还包括：在所述文本图片的尺寸大于阈值的情况下，对所述文本图片的不同区域分别进行加噪处理，以获取多个加噪后的图片；对所述多个加噪后的图片分别进行文字识别，以获取与所述第一文本语料对应的多个纠错语料。4.如权利要求1所述的方法，其中，在所述获取包含第一语言的第一文本语料之后，还包括：将所述第一文本语料进行第一语言转换，以获取包含第二语言的第二文本语料；将所述第二文本语料进行第二语言转换，以获取包含所述第一语言的第二纠错语料。5.如权利要求4所述的方法，其中，在所述将所述第一文本语料进行第一语言转换之前，还包括：将所述第一文本语料进行预处理，以获取包含所述第一语言的第三文本语料，其中，所述第三文本语料与所述第一文本语料之间具有至少一个不同的字符。6.如权利要求1
‑
5任一所述的方法，其中，在所述获取与所述第一文本语料对应的第一纠错语料之后，还包括：将所述第一纠错语料进行第三语言转换，以获取包含第三语言的第四文本语料；将所述第四文本语料进行第四语言转换，以获取包含所述第一语言的第三纠错语料。7.一种纠错语料的生成装置，包括：第一获取模块，用于获取包含第一语言的第一文本语料；第一转化模块，用于将所述第一文本语料转化为文本图片；第二获取模块，用于对所述文本图片进行加噪处理，以获取加噪后的图片；第三获取模块，用于对所述加噪后的图片进行文字识别，以获取与所述第一文本语料对应的第一纠错语料。8.如权利要求7所述的装置，其中，所述第一转化模块，包括：第一确定单元，用于根据待生成的错误语料的类型，确定目标噪声强度；第...

【专利技术属性】
技术研发人员：庞超，王硕寰，孙宇，李芝，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人