基于字符存在性指标的文本纠错方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:42542003 阅读:22 留言:0更新日期:2024-08-27 19:45
本公开提供了一种基于字符存在性指标的文本纠错方法、装置、计算机设备及存储介质,应用于文本检测技术领域,包括:利用文本纠错模型,检测获取的文本数据中是否存在待纠正字符,若存在,确定待纠正字符对应的目标字符以及目标字符的纠错概率;在纠错概率小于或等于概率阈值时,基于待纠正字符在文本数据的位置和预设片段长度,从文本数据中确定包括待纠正字符的至少一个第一文本片段;以及将每个第一文本片段中待纠正字符替换为目标字符,生成第二文本片段;确定第一文本片段在片段库中存在的第一频次、第二文本片段在片段库中存在的第二频次;在基于第一频次与第二频次,确定本次检测满足字符替换条件时,将文本数据中的待纠正字符替换为目标字符。本申请可以缓解文本纠错模型的误纠情况,保障文本纠错的准确度。

【技术实现步骤摘要】

本公开涉及文本检测,具体而言,涉及一种基于字符存在性指标的文本纠错方法、装置、计算机设备及存储介质


技术介绍

1、中文文本拼写纠错是指对中文文本中的音近错误字符、形近错误字符等进行检测和修正的过程,以提高文本的准确性、流畅性和可读性。一般的,可以使用基于深度学习的文本纠错模型,对文本进行检测,实现文本纠错。其中文本纠错模型的输入是待纠错的句子,输出是句子中每个字符的纠错结果,如果没有错误,则输出一个特殊字符。但是由于文本纠错模型的训练样本的局限性,对低频词语片段的学习不充分,容易造成误纠即将正确的文本内容纠正为错误的文本内容,使得文本纠错的精度无法保障。


技术实现思路

1、本公开实施例至少提供一种基于字符存在性指标的文本纠错方法、装置、计算机设备及存储介质。

2、第一方面,本公开实施例提供了一种基于字符存在性指标的文本纠错方法,包括:

3、获取待检测的文本数据;

4、利用文本纠错模型,检测所述文本数据中是否存在待纠正字符,若存在,则确定所述待纠正字符对应的目标字符以及所述本文档来自技高网...

【技术保护点】

1.一种基于字符存在性指标的文本纠错方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述第一频次与所述第二频次,确定本次检测是否满足字符替换条件,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述第一频次与所述第二频次,确定本次检测是否满足字符替换条件,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述第一存在性指数与所述第二存在性指数,确定本次检测是否满足字符替换条件,包括:

5.根据权利要求3所述的方法,其特征在于,所述基于所述第一文本片段的所述第一频次以及所述待纠正字符在所述第一文本...

【技术特征摘要】

1.一种基于字符存在性指标的文本纠错方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述第一频次与所述第二频次,确定本次检测是否满足字符替换条件,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述第一频次与所述第二频次,确定本次检测是否满足字符替换条件,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述第一存在性指数与所述第二存在性指数,确定本次检测是否满足字符替换条件,包括:

5.根据权利要求3所述的方法,其特征在于,所述基于所述第一文本片段的所述第一频次以及所述待纠正字符在所述第一文本片段的位置信息,确定所述第一文本片段的第一存在性指数,包括:

6.根据权利要求3所述的方法,其特征在于,在所述第一文本片段为多个,所述第二文本片段为多个时,还包括:

7.根据权利要求1-6任一所述的方法,其特...

【专利技术属性】
技术研发人员:李昱张乐平张红杰李海峰
申请(专利权)人:北京匠数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1