文本纠错方法及装置制造方法及图纸

技术编号:31576460 阅读:30 留言:0更新日期:2021-12-25 11:18
本公开涉及文本识别技术领域,具体涉及一种文本纠错方法及装置。一种文本纠错方法,包括:从文本序列中识别得到待纠错实体;根据所述待纠错实体,从目标知识库中确定预设数量的候选实体;根据所述待纠错实体与每个候选实体的相似度,对所述待纠错实体执行预设处理。本公开实施方式,提高文本纠错效率和准确性。提高文本纠错效率和准确性。提高文本纠错效率和准确性。

【技术实现步骤摘要】
文本纠错方法及装置


[0001]本公开涉及文本识别
,具体涉及一种文本纠错方法及装置。

技术介绍

[0002]文本纠错主要用于识别文本中的错误片段并给出纠错后的正确文本,文本纠错在搜索任务、输入任务和OCR(Optical Character Recognition,光学字符识别)任务中具有广泛的应用。文本纠错的性能直接影响下游任务的效果,相关技术中,文本纠错系统的性能不佳,难以落地应用。

技术实现思路

[0003]为提高文本纠错准确性,本公开实施方式提供了一种文本纠错方法、装置、电子设备以及存储介质。
[0004]第一方面,本公开实施方式提供了一种文本纠错方法,包括:
[0005]从文本序列中识别得到待纠错实体;
[0006]根据所述待纠错实体,从目标知识库中确定预设数量的候选实体;
[0007]根据所述待纠错实体与每个所述候选实体的相似度,对所述待纠错实体执行预设处理。
[0008]在一些实施方式中,所述根据所述待纠错实体,从目标知识库中确定预设数量的候选实体,包括:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:从文本序列中识别得到待纠错实体;根据所述待纠错实体,从目标知识库中确定预设数量的候选实体;根据所述待纠错实体与每个所述候选实体的相似度,对所述待纠错实体执行预设处理。2.根据权利要求1所述的方法,其特征在于,所述根据所述待纠错实体,从目标知识库中确定预设数量的候选实体,包括:确定所述待纠错实体与所述目标知识库中的各个实体的第一相似度;基于所述待纠错实体与所述各个实体的第一相似度由高到低排序,得到相似度序列;确定所述相似度序列中前预设数量的第一相似度对应的实体为所述候选实体。3.根据权利要求1所述的方法,其特征在于,所述根据所述待纠错实体与每个所述候选实体的相似度,对所述待纠错实体执行预设处理,包括:确定所述待纠错实体与每个候选实体的第二相似度;在至少一个候选实体对应的所述第二相似度不小于预设阈值的情况下,确定最大第二相似度对应的候选实体为目标实体;根据所述目标实体对所述待纠错实体进行改写。4.根据权利要求3所述的方法,其特征在于,所述确定所述待纠错实体与每个候选实体的第二相似度,包括:对于任意一个候选实体,对所述待纠错实体进行特征提取得到第一语义特征,对所述候选实体进行特征提取得到第二语义特征;根据所述第一语义特征和所述第二语义特征,得到所述待纠错实体与所述候选实体的所述第二相似度。5.根据权利要求3所述的方法,其特征在于,所述根据所述待纠错实体与每个所述候选实体的相似度,对所述待纠错实体执行预设处理,还包括:在每个候选实体的第二相似度均小于预设阈值的情况下,确定所述待纠错实体为正确实体。6.根据权利要求3所述的方法,其特征在于,所述在至少一个候选实体对应的所述第二相似度不小于预设阈值的情况下,确定最大第二相似度对应的候选实体为目标实体,包括:在至少一个候选实体的第二相似度不小于预设阈值的情况下,根据...

【专利技术属性】
技术研发人员:侯冉冉王文涛秦斌
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1