一种中文文本纠错方法、系统、终端设备及存储介质技术方案

技术编号:33451318 阅读:27 留言:0更新日期:2022-05-19 00:35
本申请涉及一种中文文本纠错方法、系统、终端设备及存储介质,属于自然语言处理技术领域,其方法包括以下步骤:接收初始文档,对所述初始文档进行预处理,得到待处理文本;基于预设的第一模型对所述待处理文本进行错误标记处理,得到第一文本;基于预设的第二模型对所述第一文本进行初步纠错处理,纠正第一文本中的错误字符,得到第二文本;基于预设的第三模型对所述第二文本进行精调纠错处理,调整所述第二文本的文本长度,得到最终文本。本申请具有通过三阶段的模型对待处理文本分别进行错误字符标注、错误字符纠正以及多字和少字纠正,提升文本纠正精度的效果。提升文本纠正精度的效果。提升文本纠正精度的效果。

【技术实现步骤摘要】
一种中文文本纠错方法、系统、终端设备及存储介质


[0001]本申请涉及自然语言处理的
,尤其是涉及一种中文文本纠错方法、系统、终端设备及存储介质。

技术介绍

[0002]互联网的文本多种多样,由于现有的OCR、语音识别和人工校验等技术没法达到100%的准确率,需要对识别出来的文本进行后处理,优化识别后的句子,纠正其中产生的错误得到最终的句子。
[0003]现有的文本纠错方式分为两种,第一种是基于Seq2Seq(序列到序列模型)的文本纠错,利用的是机器翻译的技术,把源文本翻译成目标文本,源文本和目标文本的长度可以不一致;另一种是基于序列标注的模型,对每个字先进行判断是否是错误,然后再对每个位置进行纠正。
[0004]针对上述中的相关技术,基于Seq2Seq的文本纠错方式,在语料不充分的情况下,很容易生成很多错误的文本;基于序列标注的模型对每个位置的字符进行纠正的方式,是在假设源文本和目标文本的长度是一样的前提下进行的,但实际上,错误文本和纠正后的文本的长度并不是等长的。因此,以上两种方式都会导致纠错的精度偏低,需要改进。...

【技术保护点】

【技术特征摘要】
1.一种中文文本纠错方法,其特征在于,包括以下步骤:接收初始文档,对所述初始文档进行预处理,得到待处理文本;基于预设的第一模型对所述待处理文本进行错误筛选处理,得到第一文本;基于预设的第二模型对所述第一文本进行初步纠错处理,纠正第一文本中的错误字符,得到第二文本;基于预设的第三模型对所述第二文本进行精调纠错处理,调整所述第二文本的文本长度,得到最终文本。2.根据权利要求1所述的一种中文文本纠错方法,其特征在于,所述对所述初始文档进行预处理,得到待处理文本包括以下步骤:对所述初始文档进行分句,得到第一文档;基于预设的字数阈值对所述第一文档中的句子进行处理,得到第二文档;将所述第二文档中的英文字母进行调整,得到待处理文本。3.根据权利要求1所述的一种中文文本纠错方法,其特征在于,所述基于预设的第一模型对所述待处理文本进行错误筛选处理,得到第一文本包括以下步骤:根据预设的第一模型构建召回模型;基于所述召回模型对待处理文本中的错误字符进行标记处理,得到第一文本。4.根据权利要求3所述的一种中文文本纠错方法,其特征在于,所述基于预设的第二模型对所述第一文本进行初步纠错处理,纠正第一文本中的错误字符,得到第二文本包括以下步骤:基于所述第一文本对预设的第二模型进行领域预训练,得到初步纠错模型;对所述初步纠错模型进行训练,基于所述初步纠错模型对所述错误字符进行纠错处理,得到第二文本。5.根据权利要求4所述的一种中文文本纠错方法,其特征在于,所述基于预设的第三模型对所述第二文本进行精调纠错处理,调整所述第二文本的文本长度,得到最终文本包括以下步骤:预设第三模型,所述第三模型包括编码层和解码层;在所述解码层后接入输出层,构建精调纠错模型;基于所述精调纠错模型对所述第二文本进行精调纠错处理,调整所述第二文本的文本长度,得到最终文本。6.一种中文文本纠错系统,其特征在于,包括预处理模块(1)、召回模块(2)、初步纠错模块(3)和精调纠错模块(4),所述召回模块(2)...

【专利技术属性】
技术研发人员:聂海姣吴高丽邱银贵
申请(专利权)人:森纵艾数北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1