一种适用于文本识别纠错的方法及装置制造方法及图纸

技术编号:38465095 阅读:20 留言:0更新日期:2023-08-11 14:41
本发明专利技术涉及一种适用于文本识别纠错的方法及装置,该方法通过获取第一文本清单;将待识别的目标文本输入至文本检测模型,获取所述目标文本识别结果;将所述目标文本识别结果中置信度高于预设阈值的第一文本内容补充至所述第一文本清单,获得第二文本清单;将所述目标文本识别结果输入至训练字形相似度模型,获得字形相似度函数;将所述目标文本识别结果中置信度低于预设阈值的第二文本内容进行纠错处理,能够将置信度高于阈值的识别结果加入现有的非全量文本清单进而获得全量文本清单,能够实现对文本识别产生的错误进行精准的纠正。够实现对文本识别产生的错误进行精准的纠正。够实现对文本识别产生的错误进行精准的纠正。

【技术实现步骤摘要】
一种适用于文本识别纠错的方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种适用于文本识别纠错的方法及装置。

技术介绍

[0002]现有技术中,对于OCR文本识别图片时产生的错误纯粹用语义和语言模型进行纠错,该方法直接通过传统的编辑距离模型进行纠错会导致对已经正确识别的文字进行错误的纠正,或者对错误识别的文字纠正的准确性不高。尤其涉及商品名单类目、民族、地址区县、海关报关单等,在无法获取全量标准输出或者难以及时获取最新全量标准的情况下,现有技术无法实现对OCR文本识别时产生的错误进行准确的纠错。

技术实现思路

[0003]为了解决上述
技术介绍
中提到的至少一个问题,本专利技术提出一种适用于文本识别纠错的方法及装置,拟实现对文本识别时产生的错误进行精准的纠正。
[0004]为实现以上目的,本专利技术所采用的技术方案包括:
[0005]一种适用于文本识别纠错的方法,包括:
[0006]获取第一文本清单,其中,所述第一文本清单为非全量文本清单;
[0007]将待识别的目标文本输入至文本检测模本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种适用于文本识别纠错的方法,其特征在于,包括:获取第一文本清单,其中,所述第一文本清单为非全量文本清单;将待识别的目标文本输入至文本检测模型,获取所述目标文本识别结果;将所述目标文本识别结果中置信度高于预设阈值的第一文本内容补充至所述第一文本清单,获得第二文本清单,其中,所述第二文本清单为全量文本清单;将所述目标文本识别结果输入至训练字形相似度模型,获得字形相似度函数;将所述目标文本识别结果中置信度低于预设阈值的第二文本内容进行纠错处理。2.如权利要求1所述的方法,其特征在于,所述将所述目标文本识别结果输入至训练字形相似度模型,获得字形相似度函数包括:将所述目标文本识别结果的全部文字分别转化为图像输入至所述训练字形相似度模型获得距离矩阵,通过所述距离矩阵计算得到每个文字图像与其它文字图像之间的字形相似度函数。3.如权利要求1或2任一项所述的方法,其特征在于,所述将所述目标文本识别结果中置信度低于预设阈值的第二文本内容进行纠错处理包括:当所述目标文本识别结果包含每个文字的置信度时,对置信度低于预设阈值的文字进行纠错处理;当所述目标文本识别结果包含每个词语的置信度时,对置信度低于预设阈值的词语进行纠错处理。4.如权利要求3所述的方法,其特征在于,所述对置信度低于预设阈值的文字进行纠错处理包括:设置编辑距离模型的参数获得第一编辑距离模型;确定目标词语中置信度低于预设阈值的文字及其位置和置信度高于预设阈值的文字及其位置;确定所述第二文本清单中满足所述目标词语语序顺序的潜在词语集合;计算所述潜在词语集合中每个潜在词语相较所述目标词语的编辑距离之和的大小并进行排序;确定所述潜在词语集合中相较所述目标词语的编辑距离之和最小的潜在词语为第一词语,将所述目标词语替换为所述第一词语。5.如权利要求3所述的方法,其特征在于,所述对置信度低于预设阈值的词语进行纠错处理包括...

【专利技术属性】
技术研发人员:戴菀庭罗奕康聂砂王伊妍丁苏苏郑江
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1