文本纠错方法、装置、设备及可读存储介质制造方法及图纸

技术编号:28037122 阅读:10 留言:0更新日期:2021-04-09 23:19
本发明专利技术涉及人工智能技术领域,本发明专利技术公开了一种文本纠错方法、装置、设备及可读存储介质,该方法包括步骤:获取待纠错文本;将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本;基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到纠错后文本。本发明专利技术避免了由于编码器编码和解码器解码的交叉进行而产生的时间序列依赖的问题,即将文本纠错的问题转换为序列生成问题,使得生成纠错编辑操作序列和将错误文本转换为正确文本的过程可以并行,进而提高了文本纠错过程的纠错速度。

【技术实现步骤摘要】
文本纠错方法、装置、设备及可读存储介质
本专利技术涉及人工智能
,尤其涉及一种文本纠错方法、装置、设备及可读存储介质。
技术介绍
在公文撰写或文章编辑的过程中,多字、错字和漏字情况时常发生,提交一份没有错别字的公文往往需要人工耗时校对,从而在一定程度上降低了办公效率,为了解决这个问题,文本纠错的自动化与智能化是十分必要的。目前,文本纠错的建模方法主要依靠的是基于注意力机制的序列到序列的编码器-解码器框架,该框架在文本纠错的过程中将原本有错误的句子作为输入,通过编码器进行编码之后,使用解码器逐个解码出纠错后的正确句子。然而,序列到序列的模型每一步的解码都依赖于其上一步解码器的输出,该解码过程为逐个解码的过程,会产生时间序列依赖的问题,造成运行速度上的损失,并且上述编码器编码和解码器解码的过程难以并行,导致线上的运行速度缓慢。由此可知,目前在进行文本纠错任务时,存在文本纠错过程纠错速度慢的问题。
技术实现思路
本专利技术的主要目的在于提供一种文本纠错方法、装置、设备及可读存储介质,旨在解决现有的在进行文本纠错任务时,存在的文本纠错过程纠错速度慢的技术问题。为实现上述目的,本专利技术提供一种文本纠错方法,所述文本纠错方法包括步骤:获取待纠错文本;将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本;基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到目标纠错后文本。可选地,获取所述预设文本纠错模型,包括:获取训练数据集和待训练模型;基于所述训练数据集对所述待训练模型进行迭代训练,得到更新后的待训练模型,并确定所述更新后的待训练模型是否满足预设迭代结束条件;若所述更新后的待训练模型满足所述预设迭代结束条件,则将所述更新后的待训练模型作为所述预设文本纠错模型;若所述更新后的待训练模型未满足所述迭代结束条件,则继续对所述更新后的待训练模型进行迭代训练更新,直至所述更新后的待训练模型满足所述迭代结束条件。可选地,所述获取待训练模型,包括:获取双向预训练语言模型;对所述双向预训练语言模型进行适应性调整,得到待训练模型。可选地,所述获取双向预训练语言模型之后,包括:为所述双向预训练语言模型添加自注意力机制。可选地,所述为所述双向预训练语言模型添加自注意力机制,包括:为所述双向预训练语言模型添加多头自注意力机制。可选地,所述训练数据集包括一个或多个训练样本和各所述训练样本对应的标准检测结果,所述获取训练数据集,包括:获取训练样本;对所述训练样本进行标注,获得标准检测结果。可选地,所述基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到目标纠错后文本,包括:基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到初始纠错后文本;将所述初始纠错后文本输入所述预设文本纠错模型进行迭代纠错,得到更新后的纠错后文本,并确定所述更新后的纠错后文本是否满足预设迭代结束要求;若所述更新后的纠错后文本满足所述预设迭代结束要求,则将所述更新后的纠错后文本作为目标纠错后文本;若所述更新后的纠错后文本未满足所述预设迭代结束要求,则继续对所述更新后的纠错后文本进行迭代纠错更新,直至所述更新后的纠错后文本满足所述预设迭代结束要求。此外,为实现上述目的,本专利技术还提供一种文本纠错装置,所述文本纠错装置包括:获取模块,用于获取待纠错文本;生成模块,用于将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本;纠错模块,用于基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到目标纠错后文本。此外,为实现上述目的,本专利技术还提供一种文本纠错设备,所述文本纠错设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的文本纠错程序,所述文本纠错程序被所述处理器执行时实现如上所述的文本纠错方法的步骤。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本纠错程序,所述文本纠错程序被处理器执行时实现如上所述的文本纠错方法的步骤。本专利技术通过获取待纠错文本;将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本;基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到纠错后文本。实现了对文本纠错过程的改进,使得文本转换过程为先生成纠错编辑操作序列,后根据纠错编辑操作序列将错误文本直接转换成正确文本,而非一边生成部分纠错编辑操作序列一边根据该部分纠错编辑操作序列将部分错误文本转换为部分正确文本,避免了由于编码器编码和解码器解码的交叉进行而产生的时间序列依赖的问题,即将文本纠错的问题转换为序列生成问题,并最终通过生成的序列对待纠错文本进行纠错,从而使得生成纠错编辑操作序列和将错误文本转换为正确文本的过程可以并行,进而提高了文本纠错过程的纠错速度。附图说明图1是本专利技术文本纠错方法第一实施例的流程示意图;图2是本专利技术实施例中多头注意力机制在双向预训练语言模型中的实现过程示意图;图3是本专利技术文本纠错方法第二实施例的流程示意图;图4是本专利技术文本纠错装置较佳实施例的功能模块示意图;图5是本专利技术实施例方案涉及的硬件运行环境的结构示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种文本纠错方法,参照图1,图1为本专利技术文本纠错方法第一实施例的流程示意图。本专利技术实施例提供了文本纠错方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。文本纠错方法可应用于移动终端中,该移动终端包括但不限于手机、个人计算机等,为了便于描述,以下省略执行主体描述文本纠错方法的各个步骤。文本纠错方法包括:步骤S110,获取待纠错文本。具体地,获取需要纠错的待纠错文本。需要说明的是,对待纠错文本进行纠错的任务为文本纠错任务,对于文本纠错任务,其需要对待纠错文本中的部分文字(即绝大多数情况下,错误句子与正确句子只在特定位置存在差异)进行纠错,例如,新闻从业者在编辑新闻稿时,出于时效方面考虑,其编辑速度一般较快,因此而导致的编辑错误包括错别字、多字、漏字较为常见。因此,文本纠错任务只需要对文本的特定位置进行修改,而非重新生成文本。可本文档来自技高网...

【技术保护点】
1.一种文本纠错方法,其特征在于,所述文本纠错方法包括以下步骤:/n获取待纠错文本;/n将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本;/n基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到目标纠错后文本。/n

【技术特征摘要】
1.一种文本纠错方法,其特征在于,所述文本纠错方法包括以下步骤:
获取待纠错文本;
将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本;
基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到目标纠错后文本。


2.如权利要求1所述的方法,其特征在于,获取所述预设文本纠错模型,包括:
获取训练数据集和待训练模型;
基于所述训练数据集对所述待训练模型进行迭代训练,得到更新后的待训练模型,并确定所述更新后的待训练模型是否满足预设迭代结束条件;
若所述更新后的待训练模型满足所述预设迭代结束条件,则将所述更新后的待训练模型作为所述预设文本纠错模型;
若所述更新后的待训练模型未满足所述迭代结束条件,则继续对所述更新后的待训练模型进行迭代训练更新,直至所述更新后的待训练模型满足所述迭代结束条件。


3.如权利要求2所述的方法,其特征在于,所述获取待训练模型,包括:
获取双向预训练语言模型;
对所述双向预训练语言模型进行适应性调整,得到待训练模型。


4.如权利要求3所述的方法,其特征在于,所述获取双向预训练语言模型之后,包括:
为所述双向预训练语言模型添加自注意力机制。


5.如权利要求4所述的方法,其特征在于,所述为所述双向预训练语言模型添加自注意力机制,包括:
为所述双向预训练语言模型添加多头自注意力机制。


6.如权利要求2所述的方法,其特征在于,所述训练数据集包括一个或多个训练样本和各所述训练样本对应的标准检测结果,所述获取训练数据集,包括:<...

【专利技术属性】
技术研发人员:邓悦郑立颖徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1