一种文本纠错方法和装置制造方法及图纸

技术编号：27606364 阅读：23 留言：0更新日期：2021-03-10 10:30

本发明专利技术的目的是提供一种文本纠错方法和装置。所述方法包括以下步骤：基于输入文本，生成输入至待训练模型的错误文本；基于所述错误文本进行预训练和微调，从而对所述待训练模型进行文本错误位置检测的训练；基于所述错误文本进行遮罩训练，从而对所述待训练模型进行文本错误纠正的训练。本申请实施例具有以下优点：通过进行检测错误位置和纠正错误位置的训练，能够定位错误位置并准确地进行纠错；通过在进行文本错误位置检测的训练中进行预训练和微调，提升了模型的泛化能力，降低了漏检率，使得最终训练出来的模型具有较好的鲁棒性。使得最终训练出来的模型具有较好的鲁棒性。使得最终训练出来的模型具有较好的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本纠错方法和装置

[0001]本专利技术涉及计算机
，尤其涉及一种文本纠错方法和装置。

技术介绍

[0002]基于现有技术的文本纠错方案大致可以分为以下四类：第一类是基于规则的方法；第二类是基于统计学习的方法；第三类是基于机器翻译的方法；第四类是基于预训练模型的方法。
[0003]然而，这些方案均存在各自的缺陷，基于规则的方法需要大量的人力去构建，基于统计的方法和基于机器翻译的方法没办法捕获文本的更深层次的语义信息。
[0004]基于预训练模型的方法在许多任务上都取得了领先的效果，在文本纠错上，预训练的方法包含了遮罩(MASK)的训练。但是预训练的方法中的BERT(Bidirectional Encoder Representations from Transformers)模型并不是为了文本纠错而设计，纠错能力有限，有待改进。其中，BERT是一种基于Transformer单元的双向编码表征方法,Transformer单元是一种基于自注意力机制的编码单元。

技术实现思路

[0005]本专利技术的目的是提供一种文本纠错方法和装置。
[0006]根据本申请的实施例，提供了一种文本纠错方法，其中，所述方法包括以下步骤：
[0007]基于输入文本，生成输入至待训练模型的错误文本；
[0008]基于所述错误文本进行预训练和微调，从而对所述待训练模型进行文本错误位置检测的训练；
[0009]基于所述错误文本和混淆集合进行遮罩训练，从而对所述待训练模型进行...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法，其中，所述方法包括以下步骤：基于输入文本，生成输入至待训练模型的错误文本；基于所述错误文本进行预训练和微调，从而对所述待训练模型进行文本错误位置检测的训练；基于所述错误文本进行遮罩训练，从而对所述待训练模型进行文本错误纠正的训练。2.根据权利要求1所述的方法，其中，所述待训练模型为BERT模型。3.根据权利要求1所述的方法，其中，基于输入文本，生成输入至待训练模型的错误文本包括：基于输入文本，通过语音识别或OCR模型生成错误文本。4.根据权利要求1至3中任一项所述的方法，其中，基于输入文本，生成输入至待训练模型的错误文本包括：对输入文本进行处理，以基于处理后的输入文本生成错误文本。5.根据权利要求1所述的方法，其中，所述基于所述错误文本进行预训练，从而对所述待训练模型进行文本错误位置检测的训练包括：通过预定模型的生成器和判别器来进行对抗预训练；预训练完成后，将判别器加入全连接层，并通过标签平滑的正则化方法来进行数据微调。6.根据权利要求1所述的方法，其中，所述基于所述错误文本进行遮罩训练，从而对所述待训练模型进行文本错误纠正的训练包括：通过将错误文字的位置用遮罩代替，将遮罩后的文本和对应的原始错误文本作为模型的输入，来对所述待训练模型进行遮罩训练。7.根根据权利要求1所述的方法，其中，所述方法包括：基于所述错误文本和混淆集合来构建新的混淆集合；基于所述新的混淆集合，按照预定的纠正规则来确定被遮罩的错误文字对应的正确文字，从而得到纠正后的文本。8...

【专利技术属性】
技术研发人员：吴高升，李晶，尹大胐，王咏刚，
申请(专利权)人：创新工场北京企业管理股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人