文本纠错方法、装置、设备及可读存储介质制造方法及图纸

技术编号：28037122 阅读：10 留言：0更新日期：2021-04-09 23:19

本发明专利技术涉及人工智能技术领域，本发明专利技术公开了一种文本纠错方法、装置、设备及可读存储介质，该方法包括步骤：获取待纠错文本；将所述待纠错文本输入预设文本纠错模型，生成纠错编辑操作序列；所述预设文本纠错模型由预设标注编辑操作序列训练得到；所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本；基于所述纠错编辑操作序列对所述待纠错文本进行纠错，得到纠错后文本。本发明专利技术避免了由于编码器编码和解码器解码的交叉进行而产生的时间序列依赖的问题，即将文本纠错的问题转换为序列生成问题，使得生成纠错编辑操作序列和将错误文本转换为正确文本的过程可以并行，进而提高了文本纠错过程的纠错速度。

全部详细技术资料下载

【技术实现步骤摘要】
文本纠错方法、装置、设备及可读存储介质
本专利技术涉及人工智能
，尤其涉及一种文本纠错方法、装置、设备及可读存储介质。
技术介绍
在公文撰写或文章编辑的过程中，多字、错字和漏字情况时常发生，提交一份没有错别字的公文往往需要人工耗时校对，从而在一定程度上降低了办公效率，为了解决这个问题，文本纠错的自动化与智能化是十分必要的。目前，文本纠错的建模方法主要依靠的是基于注意力机制的序列到序列的编码器-解码器框架，该框架在文本纠错的过程中将原本有错误的句子作为输入，通过编码器进行编码之后，使用解码器逐个解码出纠错后的正确句子。然而，序列到序列的模型每一步的解码都依赖于其上一步解码器的输出，该解码过程为逐个解码的过程，会产生时间序列依赖的问题，造成运行速度上的损失，并且上述编码器编码和解码器解码的过程难以并行，导致线上的运行速度缓慢。由此可知，目前在进行文本纠错任务时，存在文本纠错过程纠错速度慢的问题。
技术实现思路
本专利技术的主要目的在于提供一种文本纠错方法、装置、设备及可读存储介质，旨在解决现有的在进行文本纠错任务时，存在的文本纠错过程纠错速度慢的技术问题。为实现上述目的，本专利技术提供一种文本纠错方法，所述文本纠错方法包括步骤：获取待纠错文本；将所述待纠错文本输入预设文本纠错模型，生成纠错编辑操作序列；所述预设文本纠错模型由预设标注编辑操作序列训练得到；所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本；基于所述纠错编...

【技术保护点】
1.一种文本纠错方法，其特征在于，所述文本纠错方法包括以下步骤：/n获取待纠错文本；/n将所述待纠错文本输入预设文本纠错模型，生成纠错编辑操作序列；所述预设文本纠错模型由预设标注编辑操作序列训练得到；所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本；/n基于所述纠错编辑操作序列对所述待纠错文本进行纠错，得到目标纠错后文本。/n

【技术特征摘要】
1.一种文本纠错方法，其特征在于，所述文本纠错方法包括以下步骤：
获取待纠错文本；
将所述待纠错文本输入预设文本纠错模型，生成纠错编辑操作序列；所述预设文本纠错模型由预设标注编辑操作序列训练得到；所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本；
基于所述纠错编辑操作序列对所述待纠错文本进行纠错，得到目标纠错后文本。

2.如权利要求1所述的方法，其特征在于，获取所述预设文本纠错模型，包括：
获取训练数据集和待训练模型；
基于所述训练数据集对所述待训练模型进行迭代训练，得到更新后的待训练模型，并确定所述更新后的待训练模型是否满足预设迭代结束条件；
若所述更新后的待训练模型满足所述预设迭代结束条件，则将所述更新后的待训练模型作为所述预设文本纠错模型；
若所述更新后的待训练模型未满足所述迭代结束条件，则继续对所述更新后的待训练模型进行迭代训练更新，直至所述更新后的待训练模型满足所述迭代结束条件。

3.如权利要求2所述的方法，其特征在于，所述获取待训练模型，包括：
获取双向预训练语言模型；
对所述双向预训练语言模型进行适应性调整，得到待训练模型。

4.如权利要求3所述的方法，其特征在于，所述获取双向预训练语言模型之后，包括：
为所述双向预训练语言模型添加自注意力机制。

5.如权利要求4所述的方法，其特征在于，所述为所述双向预训练语言模型添加自注意力机制，包括：
为所述双向预训练语言模型添加多头自注意力机制。

6.如权利要求2所述的方法，其特征在于，所述训练数据集包括一个或多个训练样本和各所述训练样本对应的标准检测结果，所述获取训练数据集，包括：<...

【专利技术属性】
技术研发人员：邓悦，郑立颖，徐亮，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人