一种用于证照识别的文本纠错方法、装置、设备及介质制造方法及图纸

技术编号:38876563 阅读:9 留言:0更新日期:2023-09-22 14:09
本申请公开了一种用于证照识别的文本纠错方法、装置、设备及介质,涉及证照识别领域,包括:利用预设模型以及目标证照确定目标证照的字符文本和字符置信度;对字符文本进行文本切分,获取若干个子文本,基于子文本中的字符长度确定待纠错子文本;基于预先构建的与证照相关的关键词库判断是否需要对待纠错子文本进行纠错操作,若需要,利用基于字符置信度确定的待纠错子文本中的错字与关键词库中的关键词之间的编辑距离,从关键词库中确定候选关键词;利用候选关键词对待纠错子文本中的错字进行纠错操作,以得到纠错后子文本,对纠错后子文本进行合并操作,以得到纠错后字符文本。由此,本申请能够实现文本识别纠错的精准可控,降低误纠错的概率。降低误纠错的概率。降低误纠错的概率。

【技术实现步骤摘要】
一种用于证照识别的文本纠错方法、装置、设备及介质


[0001]本专利技术涉及证照识别领域,特别涉及一种用于证照识别的文本纠错方法、装置、设备及介质。

技术介绍

[0002]随着深度学习相关技术不断发展,神经网络模型在很多行业和场景得到广泛应用,尤其是在类似证照文字识别的通用领域,神经网络模型由于可以训练的数据量大,模型更加复杂,往往取得更好的结果,深度学习模型已经在证照识别领域成为主流,识别准确率较高。但是,在实际应用场景中,由于数据质量参差不齐,很难保证识别结果完全准确。因此,需要进行文本纠错,作为一种后处理方法,可以有效缓解证照识别准确率无法保证的问题。目前,主流的文本纠错有基于混淆集的文本纠错和基于语言模型的文本纠错。在证照识别领域由于容易出现误纠,较少使用基于语言模型的文本纠错。而基于混淆集的文本纠错能力有限,定制化程度偏低。因此,如何对文本识别进行精准的纠错是亟待解决的问题。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种用于证照识别的文本纠错方法、装置、设备及介质,能够实现文本识别纠错的精准可控,降低误纠错的概率。其具体方案如下:
[0004]第一方面,本申请公开了一种用于证照识别的文本纠错方法,包括:
[0005]利用预设模型以及目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度;
[0006]对所述字符文本进行文本切分,获取若干个子文本,并基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本;
[0007]基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,若需要进行所述纠错操作,则利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词;
[0008]利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错操作,以得到纠错后子文本,并对所述纠错后子文本进行合并操作,以得到纠错后字符文本。
[0009]可选的,所述利用预设模型以及所述目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度,包括:
[0010]利用基于光学字符识别模型对所述目标证照对应的图片数据进行识别与检测,以确定所述目标证照的字符文本和各个字符的所述字符置信度。
[0011]可选的,所述对所述字符文本进行文本切分,获取若干个子文本,包括:
[0012]利用特殊字符对所述字符文本进行文本切分,获取所述若干个子文本;所述特殊字符包括标点符号和数字字符。
[0013]可选的,所述基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子
文本,包括:
[0014]将所述若干个子文本中所述字符长度大于或等于预设长度阈值的子文本,确定为所述待纠错子文本。
[0015]可选的,所述基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,包括:
[0016]判断所述待纠错子文本是否存在于基于预先构建的与证照相关的所述关键词库中;
[0017]若是,则判定不需要对所述待纠错子文本进行所述纠错操作,直接对所述待纠错子文本进行所述合并操作,得到目标文本;
[0018]若否,则判定需要对所述待纠错子文本进行所述纠错操作。
[0019]可选的,所述利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词,包括:
[0020]将所述字符置信度小于预设置信度阈值的字符确定为所述待纠错子文本中的错字,并统计所述待纠错子文本中的错字数量;
[0021]确定所述错字与所述关键词库中的关键词之间的编辑距离,将所述关键词库中的所述编辑距离小于或等于所述错字数量的所述关键词确定为所述候选关键词。
[0022]可选的,所述利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错操作,以得到纠错后子文本,包括:
[0023]判断所述候选关键词的数量与所述错字数量是否均为1;
[0024]若所述候选关键词的数量与所述错字数量均为1,则将所述待纠错子文本中的所述错字替换为所述候选关键词,以得到所述纠错后子文本;否则,判断所述候选关键词的数量是否为1;
[0025]若所述候选关键词的数量不为1,则不进行所述纠错操作;
[0026]若所述候选关键词的数量为1,则判断所述错字与所述候选关键词中对应字的笔画相似程度是否大于预设笔画相似度阈值;
[0027]若所述笔画相似程度大于所述预设笔画相似度阈值,则将所述待纠错子文本中的所述错字替换为所述候选关键词,以得到所述纠错后子文本;
[0028]若所述笔画相似程度小于或等于所述预设笔画相似度阈值,则不进行所述纠错操作。
[0029]第二方面,本申请公开了一种用于证照识别的文本纠错装置,包括:
[0030]文本和置信度确定模块,用于利用预设模型以及目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度;
[0031]待纠错子文本确定模块,用于对所述字符文本进行文本切分,获取若干个子文本,并基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本;
[0032]候选关键词确定模块,用于基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,若需要进行所述纠错操作,则利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词;
[0033]纠错模块,用于利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错
操作,以得到纠错后子文本;
[0034]子文本合并模块,用于对所述纠错后子文本进行合并操作,以得到纠错后字符文本。
[0035]第三方面,本申请公开了一种电子设备,包括:
[0036]存储器,用于保存计算机程序;
[0037]处理器,用于执行所述计算机程序,以实现前述公开的所述的用于证照识别的文本纠错方法的步骤。
[0038]第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的所述的用于证照识别的文本纠错方法的步骤。
[0039]由上可知,本申请在进行文本纠错时,利用预设模型以及目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度;对所述字符文本进行文本切分,获取若干个子文本,并基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本;基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,若需要进行所述纠错操作,则利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词;利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于证照识别的文本纠错方法,其特征在于,包括:利用预设模型以及目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度;对所述字符文本进行文本切分,获取若干个子文本,并基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本;基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,若需要进行所述纠错操作,则利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词;利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错操作,以得到纠错后子文本,并对所述纠错后子文本进行合并操作,以得到纠错后字符文本。2.根据权利要求1所述的用于证照识别的文本纠错方法,其特征在于,所述利用预设模型以及所述目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度,包括:利用基于光学字符识别模型对所述目标证照对应的图片数据进行识别与检测,以确定所述目标证照的字符文本和各个字符的所述字符置信度。3.根据权利要求1所述的用于证照识别的文本纠错方法,其特征在于,所述对所述字符文本进行文本切分,获取若干个子文本,包括:利用特殊字符对所述字符文本进行文本切分,获取所述若干个子文本;所述特殊字符包括标点符号和数字字符。4.根据权利要求1所述的用于证照识别的文本纠错方法,其特征在于,所述基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本,包括:将所述若干个子文本中所述字符长度大于或等于预设长度阈值的子文本,确定为所述待纠错子文本。5.根据权利要求1所述的用于证照识别的文本纠错方法,其特征在于,所述基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,包括:判断所述待纠错子文本是否存在于基于预先构建的与证照相关的所述关键词库中;若是,则判定不需要对所述待纠错子文本进行所述纠错操作,直接对所述待纠错子文本进行所述合并操作,得到目标文本;若否,则判定需要对所述待纠错子文本进行所述纠错操作。6.根据权利要求1至5任一项所述的用于证照识别的文本纠错方法,其特征在于,所述利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词,包括:将所述字符置信度小于预设置信度阈值的字符确定为所述...

【专利技术属性】
技术研发人员:陈其宾段强姜凯李锐
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1