一种文本纠错方法和装置制造方法及图纸

技术编号:27606364 阅读:23 留言:0更新日期:2021-03-10 10:30
本发明专利技术的目的是提供一种文本纠错方法和装置。所述方法包括以下步骤:基于输入文本,生成输入至待训练模型的错误文本;基于所述错误文本进行预训练和微调,从而对所述待训练模型进行文本错误位置检测的训练;基于所述错误文本进行遮罩训练,从而对所述待训练模型进行文本错误纠正的训练。本申请实施例具有以下优点:通过进行检测错误位置和纠正错误位置的训练,能够定位错误位置并准确地进行纠错;通过在进行文本错误位置检测的训练中进行预训练和微调,提升了模型的泛化能力,降低了漏检率,使得最终训练出来的模型具有较好的鲁棒性。使得最终训练出来的模型具有较好的鲁棒性。使得最终训练出来的模型具有较好的鲁棒性。

【技术实现步骤摘要】
一种文本纠错方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种文本纠错方法和装置。

技术介绍

[0002]基于现有技术的文本纠错方案大致可以分为以下四类:第一类是基于规则的方法;第二类是基于统计学习的方法;第三类是基于机器翻译的方法;第四类是基于预训练模型的方法。
[0003]然而,这些方案均存在各自的缺陷,基于规则的方法需要大量的人力去构建,基于统计的方法和基于机器翻译的方法没办法捕获文本的更深层次的语义信息。
[0004]基于预训练模型的方法在许多任务上都取得了领先的效果,在文本纠错上,预训练的方法包含了遮罩(MASK)的训练。但是预训练的方法中的BERT(Bidirectional Encoder Representations from Transformers)模型并不是为了文本纠错而设计,纠错能力有限,有待改进。其中,BERT是一种基于Transformer单元的双向编码表征方法,Transformer单元是一种基于自注意力机制的编码单元。

技术实现思路

[0005]本专利技术的目的是提供一种文本纠错方法和装置。
[0006]根据本申请的实施例,提供了一种文本纠错方法,其中,所述方法包括以下步骤:
[0007]基于输入文本,生成输入至待训练模型的错误文本;
[0008]基于所述错误文本进行预训练和微调,从而对所述待训练模型进行文本错误位置检测的训练;
[0009]基于所述错误文本和混淆集合进行遮罩训练,从而对所述待训练模型进行文本错误纠正的训练。
[0010]根据本申请的实施例,提供了一种文本纠错装置,其中,所述文本纠错装置包括:
[0011]文本生成模块,用于基于输入文本,生成输入至待训练模型的错误文本;
[0012]错误检测模块,用于基于所述错误文本进行预训练和微调,从而对所述待训练模型进行文本错误位置检测的训练;
[0013]纠错训练模块,用于基于所述错误文本和混淆集合进行遮罩训练,从而对所述待训练模型进行文本错误纠正的训练。
[0014]根据本申请的实施例,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本申请实施例的方法。
[0015]根据本申请的实施例,提供了一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本申请实施例的方法。
[0016]与现有技术相比,本申请实施例具有以下优点:通过进行检测错误位置和纠正错误位置的训练,来提升待训练模型的纠错能力,从而能够定位错误位置并准确地进行纠错,
并且这种两阶段的纠错方式能够容易地和其他一阶段的纠错方法相结合,以降低一阶段方法的过纠率;通过在进行文本错误位置检测的训练中进行预训练和微调,提升了模型的泛化能力,降低了漏检率,使得最终训练出来的模型具有较好的鲁棒性;并且,对于输入的错误文本中出现的未登录词,如果通过所述预定模型的生成器和判别器判断出该未登录词是正确的,则不需要对该未登录词进行纠正了,从而能够减少对未登录词的纠错,降低了未登录词引起的错误率。
附图说明
[0017]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:
[0018]图1示出了根据本申请实施例的一种文本纠错方法的流程图;
[0019]图2示出了根据本申请实施例的一种文本纠错装置的结构示意图。
[0020]附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
[0021]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0022]在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
[0023]所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
[0024]需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本申请,也应包含在本申请保护范围以内,并以引用方式包含于此。
[0025]后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
[0026]这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本申请的示例性实施例的目的。但是本申请可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
[0027]应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
[0028]应当理解的是,当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。与此相对,当一个单元被称为“直接连接”或“直接耦合”到另一单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。
[0029]这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,其中,所述方法包括以下步骤:基于输入文本,生成输入至待训练模型的错误文本;基于所述错误文本进行预训练和微调,从而对所述待训练模型进行文本错误位置检测的训练;基于所述错误文本进行遮罩训练,从而对所述待训练模型进行文本错误纠正的训练。2.根据权利要求1所述的方法,其中,所述待训练模型为BERT模型。3.根据权利要求1所述的方法,其中,基于输入文本,生成输入至待训练模型的错误文本包括:基于输入文本,通过语音识别或OCR模型生成错误文本。4.根据权利要求1至3中任一项所述的方法,其中,基于输入文本,生成输入至待训练模型的错误文本包括:对输入文本进行处理,以基于处理后的输入文本生成错误文本。5.根据权利要求1所述的方法,其中,所述基于所述错误文本进行预训练,从而对所述待训练模型进行文本错误位置检测的训练包括:通过预定模型的生成器和判别器来进行对抗预训练;预训练完成后,将判别器加入全连接层,并通过标签平滑的正则化方法来进行数据微调。6.根据权利要求1所述的方法,其中,所述基于所述错误文本进行遮罩训练,从而对所述待训练模型进行文本错误纠正的训练包括:通过将错误文字的位置用遮罩代替,将遮罩后的文本和对应的原始错误文本作为模型的输入,来对所述待训练模型进行遮罩训练。7.根根据权利要求1所述的方法,其中,所述方法包括:基于所述错误文本和混淆集合来构建新的混淆集合;基于所述新的混淆集合,按照预定的纠正规则来确定被遮罩的错误文字对应的正确文字,从而得到纠正后的文本。8...

【专利技术属性】
技术研发人员:吴高升李晶尹大胐王咏刚
申请(专利权)人:创新工场北京企业管理股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1