文本纠错方法、装置、介质及电子设备制造方法及图纸

技术编号:28421414 阅读:22 留言:0更新日期:2021-05-11 18:29
本公开的实施例提供了一种文本纠错方法、装置、介质及电子设备,涉及文本纠错技术领域。该方法包括:获取待纠错文本,并对所述待纠错文本进行预处理得到待纠错数据集;对所述待纠错数据集进行多层次纠错处理,得到不同的纠错记录;基于预先设置的纠错优先级,对所述不同的纠错记录进行融合得到所述待纠错数据集对应的纠错结果记录;根据所述纠错结果记录对所述待纠错文本进行修改以得到所述待纠错文本对应的正确文本。本公开实施例的技术方案能够提升纠错的效率,提高纠错结果的准确性。

【技术实现步骤摘要】
文本纠错方法、装置、介质及电子设备
本公开的实施例涉及文本纠错
,更具体地,本公开的实施例涉及文本纠错方法、文本纠错装置、计算机可读存储介质以及电子设备。
技术介绍
本部分旨在为权利要求书中陈述的本公开的实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。随着科学技术的飞速发展,文本纠错越来越得到人们的专注。文本纠错是一种将文本中的错别字自动检测出来并进行纠正的技术,在各类的文字编辑、文本校对以及智能客服问题校正等场景中起着重要的作用。目前的技术方案中,在对输入的文本进行文本纠错时,要么基于纯规则的纠错系统,通过错误检测、纠正候选召回、候选评分排序的步骤进行纠错,要么基于端到端的深度神经网络模型直接输出纠错结果。
技术实现思路
但是,目前的文本纠错技术方案中,一方面,基于纯规则的纠错系统进行文本纠错,不仅文本纠错效率较低,比较依赖构建的纠错词典,文本纠错能力较局限,而且纠错词典的构建也耗时耗力;另一方面,基于端到端的深度神经网络模型生成纠错序列进行文本纠错,不仅需要一个个文字依次生成,无法并行化处理,文本纠错效率较差,而且由于真实语料中错误出现密度不会特别大,人工标注效率低,构建大量且高质量的平行语料非常耗费时间和人力,并且得到的文本纠错结果的准确性较依赖构建的样本数据,导致文本纠错结果的准确性较差,甚至可能会出现文本语序错乱的问题。因此在现有技术中,难以达到令人满意的文本纠错的方案。为此,非常需要一种改进的文本纠错方法,以使得能够在提高文本纠错效率的同时,降低消耗的时间以及人力资源,提高文本纠错结果的全面性以及准确性。在本上下文中,本公开的实施例期望提供一种文本纠错方法、文本纠错装置、计算机可读存储介质以及电子设备。在本公开实施例的第一方面中,提供了一种文本纠错方法,包括:获取待纠错文本,并对所述待纠错文本进行预处理得到待纠错数据集;对所述待纠错数据集进行多层次纠错处理,得到不同的纠错记录;基于预先设置的纠错优先级,对所述不同的纠错记录进行融合得到所述待纠错数据集对应的纠错结果记录;根据所述纠错结果记录对所述待纠错文本进行修改以得到所述待纠错文本对应的正确文本。在本公开的一些实施例中,基于前述方案,所述多层次纠错处理包括搭配纠错处理、词典纠错处理和模型纠错处理;所述对所述待纠错数据集进行多层次纠错处理,得到不同的纠错记录,包括:对所述待纠错数据集进行搭配纠错处理,得到搭配纠错记录;以及对所述待纠错数据集进行词典纠错处理,得到词典纠错记录;以及对所述待纠错数据集进行模型纠错处理,得到模型纠错记录。在本公开的一些实施例中,基于前述方案,所述基于预先设置的纠错优先级,对所述不同的纠错记录进行融合得到所述待纠错数据集对应的纠错结果记录,包括:将所述搭配纠错记录作为第一纠错记录;依据所述字典纠错记录补充所述第一纠错记录得到第二纠错记录;以及依据所述模型纠错记录补充所述第二纠错记录得到所述待纠错数据集对应的纠错结果记录。在本公开的一些实施例中,基于前述方案,获取待纠错文本,并对所述待纠错文本进行预处理得到待纠错数据集,包括:获取待纠错文本,基于语义停顿标识将大于长度阈值的所述待纠错文本进行语句切分处理,得到短句文本串;将大于所述长度阈值的所述短句文本串进行字符切分处理,得到字符文本串;将小于所述长度阈值的所述待纠错文本、所述短句文本串和所述字符文本串进行分桶处理得到所述待纠错数据集。在本公开的一些实施例中,基于前述方案,将小于所述长度阈值的所述待纠错文本、所述语句文本串和所述字符文本串进行分桶处理得到所述待纠错数据集,包括:根据预设的分桶数量,确定每个桶接收的文本长度区间;将与所述文本长度区间相匹配的所述待纠错文本、所述短句文本串和所述字符文本串分别填充到对应的桶中,以通过填充后的所述桶构成所述待纠错数据集。在本公开的一些实施例中,基于前述方案,获取待纠错文本,并对所述待纠错文本进行预处理得到待纠错数据集,还包括:确定所述桶中长度最长的文本串,并通过预设填充字符填充所述桶中的其他文本串,以使所述桶中的其他文本串与所述长度最长的文本串的长度一致。在本公开的一些实施例中,基于前述方案,对所述待纠错数据集进行模型纠错处理,得到模型纠错记录,包括:根据所述待纠错数据集确定待纠错文本序列;将所述待纠错文本序列输入到预训练的文本纠错模型中,得到所述待纠错文本序列对应的预测序列;通过所述预测序列确定所述待纠错文本序列中每个位置的文本串对应的正确置信概率序列、候选文本串序列和所述候选文本串序列对应的候选置信概率序列;基于所述正确置信概率序列、所述候选文本串序列和所述候选置信概率序列对所述待纠错文本序列进行纠错处理,得到所述模型纠错记录。在本公开的一些实施例中,基于前述方案,所述将所述待纠错文本序列输入到预训练的文本纠错模型中,包括:根据预设的纠错词表将所述待纠错文本序列转化为词表编码序列;将所述词表编码序列进行词嵌入处理生成词嵌入向量序列;将所述词嵌入向量序列输入到预训练的文本纠错模型中。在本公开的一些实施例中,基于前述方案,所述预测序列中的每个元素项是以所述纠错词表大小为维数的概率取值向量;所述通过所述预测序列确定所述待纠错文本序列中每个位置的文本串对应的正确置信概率序列、候选文本串序列和所述候选文本串序列对应的候选置信概率序列,包括:将所述预测序列中的所述概率取值向量进行归一化;确定所述待纠错文本序列中的文本串在所述词表编码序列对应的词表编码;将归一化后的所述概率取值向量中所述词表编码对应位置的概率取值作为所述待纠错文本序列中的文本串对应的正确置信概率以根据所述正确置信概率得到正确置信概率序列;以及将除所述正确置信概率之外的所述概率取值向量中最大的概率取值作为所述待纠错文本序列中的文本串对应的候选置信概率以根据所述候选置信概率得到候选置信概率序列;通过所述候选置信概率对应的词表编码在所述纠错词表中的文本串作为候选文本串以生成候选文本串序列。在本公开的一些实施例中,基于前述方案,基于所述正确置信概率序列、所述候选文本串序列和所述候选置信概率序列对所述待纠错文本序列进行纠错处理,得到所述模型纠错记录,包括:将所述待纠错文本序列中所述正确置信概率序列小于第一概率阈值的文本串替换为该位置对应在所述候选文本串序列中的候选文本串;和/或将所述待纠错文本序列中所述候选置信概率序列大于第二概率阈值的文本串替换为该位置对应在所述候选文本串序列中的候选文本串。在本公开的一些实施例中,基于前述方案,在基于所述正确置信概率序列、所述候选文本串序列和所述候选置信概率序列对所述待纠错文本序列进行纠错处理,得到所述模型纠错记录之前,所述方法还包括:通过白名单词典方式、命名体识别方式和正则引擎方式中的一种或者多种组合,对所述待纠错文本序列中的文本串进行纠错过滤处理。在本公开的一些实施例中,基于前述方案,在基于所述正确置信概率序列、所述候选文本串序列和所述候选置信概率序列对所述待纠错文本序列进行纠错处理,得到所述模型纠错记录本文档来自技高网...

【技术保护点】
1.一种文本纠错方法,其特征在于,包括:/n获取待纠错文本,并对所述待纠错文本进行预处理得到待纠错数据集;/n对所述待纠错数据集进行多层次纠错处理,得到不同的纠错记录;/n基于预先设置的纠错优先级,对所述不同的纠错记录进行融合得到所述待纠错数据集对应的纠错结果记录;/n根据所述纠错结果记录对所述待纠错文本进行修改以得到所述待纠错文本对应的正确文本。/n

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:
获取待纠错文本,并对所述待纠错文本进行预处理得到待纠错数据集;
对所述待纠错数据集进行多层次纠错处理,得到不同的纠错记录;
基于预先设置的纠错优先级,对所述不同的纠错记录进行融合得到所述待纠错数据集对应的纠错结果记录;
根据所述纠错结果记录对所述待纠错文本进行修改以得到所述待纠错文本对应的正确文本。


2.根据权利要求1所述的方法,其特征在于,所述多层次纠错处理包括搭配纠错处理、词典纠错处理和模型纠错处理;
所述对所述待纠错数据集进行多层次纠错处理,得到不同的纠错记录,包括:
对所述待纠错数据集进行搭配纠错处理,得到搭配纠错记录;以及
对所述待纠错数据集进行词典纠错处理,得到词典纠错记录;以及
对所述待纠错数据集进行模型纠错处理,得到模型纠错记录。


3.根据权利要求1所述的方法,其特征在于,获取待纠错文本,并对所述待纠错文本进行预处理得到待纠错数据集,包括:
获取待纠错文本,基于语义停顿标识将大于长度阈值的所述待纠错文本进行语句切分处理,得到短句文本串;
将大于所述长度阈值的所述短句文本串进行字符切分处理,得到字符文本串;
将小于所述长度阈值的所述待纠错文本、所述短句文本串和所述字符文本串进行分桶处理得到所述待纠错数据集。


4.根据权利要求2所述的方法,其特征在于,对所述待纠错数据集进行模型纠错处理,得到模型纠错记录,包括:
根据所述待纠错数据集确定待纠错文本序列;
将所述待纠错文本序列输入到预训练的文本纠错模型中,得到所述待纠错文本序列对应的预测序列;
通过所述预测序列确定所述待纠错文本序列中每个位置的文本串对应的正确置信概率序列、候选文本串序列和所述候选文本串序列对应的候选置信概率序列;
基于所述正确置信概率序列、所述候选文本串序列和所述候选置信概率序列对所述待纠错文本序列进行纠错处理,得到所述模型纠错记录。


5.根据权利要求4所述的方法,其特征在于,在基于所述正确置信概率序列、所述候选文本串序列和所述候选置信概率序列对所述待纠错文本序列进行纠错处理,得到所述模型纠错记录之后,所述方法还包括:
对所述模型纠错记录进行纠错校验处理;
所述对所述模型纠错记录进行纠错校验处理,包括:
确定所述模型纠错记录中原文本串与候选文本串之间的特征数据;
将所述特征数据输入到预训练的校验打分模型中,得到校验分数;
在所述校验分数大于分数阈值时,确定所述原文本串需要替换为所述候选文本串;
在所...

【专利技术属性】
技术研发人员:袁威强李家诚俞霖霖
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1