纠错语料的生成方法、装置及电子设备制造方法及图纸

技术编号:27811194 阅读:17 留言:0更新日期:2021-03-30 09:46
本申请公开了一种纠错语料的生成方法、装置及电子设备,涉及自然语言处理、深度学习等人工智能技术领域。实现方案为:获取包含第一语言的第一文本语料;将第一文本语料转化为文本图片;对文本图片进行加噪处理,以获取加噪后的图片;对加噪后的图片进行文字识别,以获取与第一文本语料对应的第一纠错语料。由此,将文本语料转化为加噪后的图片,进而将加噪后的图片进行文字识别以获取文本语料的纠错语料,无需人工收集大量的纠错语料,即可实现大量纠错语料的生成,不仅降低了人工成本,而且有利于提高纠错语料的多样性。有利于提高纠错语料的多样性。有利于提高纠错语料的多样性。

【技术实现步骤摘要】
纠错语料的生成方法、装置及电子设备


[0001]本申请涉及计算机
,具体涉及自然语言处理、深度学习等人工智能
,尤其涉及一种纠错语料的生成方法、装置、电子设备、存储介质和计算机程序产品。

技术介绍

[0002]文本纠错是自然语言处理中的一个重要应用,其在搜索引擎、机器翻译、问答系统等许多自然语言处理系统中拥有广泛的应用,这些系统往往会将用户的输入文本进行纠错处理,得到不改变原始文本语义的正确表示。随着深度学习的发展,基于深度神经网络的纠错模型得到了进一步的发展,但其效果依赖于大量的纠错语料。因此,构建纠错语料的技术极其重要重要。

技术实现思路

[0003]本申请提供一种用于纠错语料的生成方法、装置及电子设备。
[0004]根据本申请的第一方面,提供了一种纠错语料的生成方法,包括:
[0005]获取包含第一语言的第一文本语料;
[0006]将所述第一文本语料转化为文本图片;
[0007]对所述文本图片进行加噪处理,以获取加噪后的图片;
[0008]对所述加噪后的图片进行文字识别,以获取与所述第一文本语料对应的第一纠错语料。
[0009]根据本申请的第二方面,提供了一种纠错语料的生成装置,包括:
[0010]第一获取模块,用于获取包含第一语言的第一文本语料;
[0011]第一转化模块,用于将所述第一文本语料转化为文本图片;
[0012]第二获取模块,用于对所述文本图片进行加噪处理,以获取加噪后的图片;
[0013]第三获取模块,用于对所述加噪后的图片进行文字识别,以获取与所述第一文本语料对应的第一纠错语料。
[0014]根据本申请的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的纠错语料的生成方法。
[0015]根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的纠错语料的生成方法。
[0016]根据本申请的第五方面,提供了一种计算机程序产品,所述计算机程序被处理器执行时,实现上述一方面实施例所述的纠错语料的生成方法。
[0017]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0018]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0019]图1为本申请实施例提供的一种纠错语料的生成方法的流程示意图;
[0020]图2为本申请实施例提供的一种生成拼写纠错语料的原理图;
[0021]图3为本申请实施例提供的一种对文本图片进行加噪处理的流程示意图;
[0022]图4为本申请实施例提供的另一种纠错语料的生成方法的流程示意图;
[0023]图5为本申请实施例提供的又一种纠错语料的生成方法的流程示意图;
[0024]图6为本申请实施例提供的一种生成与语法纠错语料的原理图;
[0025]图7为本申请实施例提供的一种纠错语料的生成装置的结构示意图;
[0026]图8为用来实现本申请实施例的纠错语料的生成方法的电子设备的框图。
具体实施方式
[0027]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0028]AI(Artificial Intelligence,人工智能)人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0029]深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能,随着人工智能技术的发展,利用NLP(Natural Language Processing,自然语言处理)技术、深度学习技术进行文本纠错的方式越来越广泛,NLP是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助,它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
[0030]文本纠错是自然语言处理中的一个重要应用,其在像搜索引擎,机器翻译,问答系统等许多自然语言处理系统中拥有广泛的应用,这些系统往往会将用户的输入进行纠错处理,得到不改变原始文本语义的正确表示。中文文本纠错主要可以分为两大类:中文拼写纠错和中文语法纠错。随着深度学习的发展,基于深度神经网络的纠错模型得到了进一步的发展,但其效果依赖于大量高质量的纠错语料。因此,构建纠错语料的技术极其重要重要。
[0031]相关技术中,往往是人工收集大量的纠错语料(例如,在非中文母语语言学习者的学习网站上进行纠错语料收集)。然而,人工收集的方式不仅增加了劳动成本,而且使得纠错语料的来源非常有限,从而极大限制了纠错语料的多样性,进一步影响了纠错模型的效果。
[0032]为此,本申请实施例提出了一种纠错语料的生成方法、装置及电子设备。本申请实施例,将文本语料转化为加噪后的图片,进而将加噪后的图片进行文字识别以获取文本语
料的纠错语料,无需人工收集大量的纠错语料,即可实大量纠错语料的生成,不仅降低了人工成本,而且有利于提高纠错语料的多样性。
[0033]需要说明的是,中文文本纠错主要可以分为两大类:中文拼写纠错和中文语法纠错。其中,中文拼写纠错是指将文本中的错误汉字进行纠错(比如“买”写成了“卖”),中文语法纠错是指将文本中的语法错误进行纠错(比如主谓宾顺序颠倒)。本申请提出的纠错语料的生成方法、装置及电子设备均能实现这两类纠错。
[0034]下面参考附图描述本申请实施例的纠错语料的生成方法、装置及电子设备。
[0035]图1为本申请实施例提供的一种纠错语料的生成方法的流程示意图。
[0036]需要说明的是,本申请实施例的纠错语料的生成方法执行主体可以为电子设备,具体的,电子设备可以是但不限于服务器、终端,终端可以是但不限于个人电脑、智能手机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种纠错语料的生成方法,包括:获取包含第一语言的第一文本语料;将所述第一文本语料转化为文本图片;对所述文本图片进行加噪处理,以获取加噪后的图片;对所述加噪后的图片进行文字识别,以获取与所述第一文本语料对应的第一纠错语料。2.如权利要求1所述的方法,其中,所述对所述文本图片进行加噪处理,以获取加噪后的图片,包括:根据待生成的错误语料的类型,确定目标噪声强度;基于所述目标噪声强度,对所述文本图片进行加噪处理,以获取加噪后的图片。3.如权利要求1所述的方法,其中,还包括:在所述文本图片的尺寸大于阈值的情况下,对所述文本图片的不同区域分别进行加噪处理,以获取多个加噪后的图片;对所述多个加噪后的图片分别进行文字识别,以获取与所述第一文本语料对应的多个纠错语料。4.如权利要求1所述的方法,其中,在所述获取包含第一语言的第一文本语料之后,还包括:将所述第一文本语料进行第一语言转换,以获取包含第二语言的第二文本语料;将所述第二文本语料进行第二语言转换,以获取包含所述第一语言的第二纠错语料。5.如权利要求4所述的方法,其中,在所述将所述第一文本语料进行第一语言转换之前,还包括:将所述第一文本语料进行预处理,以获取包含所述第一语言的第三文本语料,其中,所述第三文本语料与所述第一文本语料之间具有至少一个不同的字符。6.如权利要求1

5任一所述的方法,其中,在所述获取与所述第一文本语料对应的第一纠错语料之后,还包括:将所述第一纠错语料进行第三语言转换,以获取包含第三语言的第四文本语料;将所述第四文本语料进行第四语言转换,以获取包含所述第一语言的第三纠错语料。7.一种纠错语料的生成装置,包括:第一获取模块,用于获取包含第一语言的第一文本语料;第一转化模块,用于将所述第一文本语料转化为文本图片;第二获取模块,用于对所述文本图片进行加噪处理,以获取加噪后的图片;第三获取模块,用于对所述加噪后的图片进行文字识别,以获取与所述第一文本语料对应的第一纠错语料。8.如权利要求7所述的装置,其中,所述第一转化模块,包括:第一确定单元,用于根据待生成的错误语料的类型,确定目标噪声强度;第...

【专利技术属性】
技术研发人员:庞超王硕寰孙宇李芝
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1