OCR识别结果的修正方法及装置制造方法及图纸

技术编号:39175044 阅读:18 留言:0更新日期:2023-10-27 08:23
本发明专利技术公开了一种OCR识别结果的修正方法及装置,涉及文本识别技术领域、金融科技领域,主要目的在于解决OCR识别结果修正准确率低的问题。主要包括获取待修正处理的初始识别结果、输出所述初始识别结果的目标识别模型信息;从修正策略中识别出与所述目标识别模型信息匹配的目标修正策略,所述目标修正策略为基于所述目标目标识别模型的历史识别结果构建的,所述修正策略包括正则匹配规则、与所述正则匹配规则对应的替换规则;基于所述目标修正策略对所述初始识别结果进行修正,得到所述初始识别结果的修正结果。主要用于修正OCR识别结果。结果。结果。

【技术实现步骤摘要】
OCR识别结果的修正方法及装置


[0001]本专利技术涉及一种文本识别
、及金融科技领域,特别是涉及一种OCR识别结果的修正方法及装置。

技术介绍

[0002]随着汽车融资租赁业务的不断发展,光学字符识别(Optical Character Recognition,OCR)技术也被广泛的引入到汽车融资租赁领域,例如,用于驾驶证、行驶证校验、车辆合格证检验、存档等。OCR是指对文本资料图像,特别是平面纸质图像进行分析识别处理,获取文字及版面信息的过程,是目前主流的字符识别方法。由于OCR识别的概率特性,不存在100%准确的模型,无法保证识别结果的完全准确,因此,需要基于图像前处理或识别结果,来对识别结果的准确性进行调优,以提高识别的准确性。
[0003]现有的识别结果后处理主要基于人为设置字符类型条件对字符进行修正,例如,将纯数字字符段中识别出的英文字母替换为形状相似的数字。但当识别字符段是多种类型交杂的情况,尤其是面临汽车融资租赁业务中的驾驶证、行驶证、车辆合格证、车辆保险单等字符类型复杂的字符段时,基于单一类型的替换规则无法进行准确的修正,导致对OCR识别结果的修正准确率较低。

技术实现思路

[0004]有鉴于此,本专利技术提供一种OCR识别结果的修正方法及装置、介质、计算机设备,主要目的在于现有OCR识别结果,尤其是面临汽车融资租赁业务中的驾驶证、行驶证、车辆合格证、车辆保险单等字符类型复杂的识别结果,修正准确率较低的问题。
[0005]依据本专利技术一个方面,提供了一种OCR识别结果的修正方法,包括:
[0006]获取待修正处理的初始识别结果、输出所述初始识别结果的目标识别模型信息;
[0007]从修正策略中识别出与所述目标识别模型信息匹配的目标修正策略,所述目标修正策略为基于所述目标目标识别模型的历史识别结果构建的,所述修正策略包括正则匹配规则、与所述正则匹配规则对应的替换规则;
[0008]基于所述目标修正策略对所述初始识别结果进行修正,得到所述初始识别结果的修正结果。
[0009]进一步地,所述从修正策略中识别出与所述目标识别模型信息匹配的目标修正策略之前,所述方法还包括:
[0010]针对各个识别模型,获取所述识别模型的历史识别结果,并基于所述历史识别结果分别构建正样本集、负样本集;
[0011]针对所述负样本集中的各个重复负样本,从所述重复负样本中提取初始匹配内容,并基于所述初始匹配内容的正样本匹配结果进行匹配内容更新,得到所述负样本集中各个重复负样本的正则匹配规则;
[0012]基于所述正则匹配规则所对应的负样本、及所述负样本对应的正样本,确定所述
正则匹配规则对应的替换规则,并基于所述正则匹配规则、所述替换规则构建得到各个目标识别模型的修正策略。
[0013]进一步地,所述基于所述初始匹配内容的正样本匹配结果进行匹配内容更新,得到所述负样本集中各个重复负样本的正则匹配规则包括:
[0014]针对各个所述重复负样本,将所述初始匹配内容与所述正样本集进行匹配,得到正样本匹配结果;
[0015]若所述正样本匹配结果为非空,则向所述初始匹配内容增加上下文内容,得到更新后的初始匹配内容;
[0016]若所述更新后的初始匹配内容的正样本匹配结果为非空,则继续向所述更新后的初始匹配内容增加上下文内容,直至更新后的匹配内容的正样本匹配结果为空,则基于所述更新后的匹配内容生成正则匹配规则。
[0017]进一步地,所述基于所述更新后的匹配内容生成正则匹配规则包括:
[0018]对所述更新后的匹配内容中的待修正对象进行掩码,得到掩码结果;
[0019]基于所述掩码结果进行正则规则提取,得到正则匹配规则。
[0020]进一步地,所述修正策略为正则匹配列表形式,所述从修正策略中识别出与所述目标识别模型信息匹配的目标修正策略之前,所述方法还包括:
[0021]1)针对各个识别模型,获取所述识别模型的历史识别结果,并基于所述历史识别结果分别构建正样本集、负样本集;
[0022]2)从所述负样本集中抽取第一重复负样本,并构建所述第一重复负样本的第一正则匹配规则、第一替换规则;
[0023]3)将所述第一正则匹配规则、所述第一替换规则添加至初始正则匹配列表的末位,得到更新后的初始正则匹配列表;
[0024]4)基于所述更新后的初始正则匹配列表对所述负样本集进行修正,得到修正后的负样本集;
[0025]5)若所述修正后的负样本集中的重复负样本数量大于零,则从所述修正后的负样本集中抽取第二重复负样本,并构建所述第二重复负样本的第二正则匹配规则、第二替换规则;
[0026]6)将所述第二正则匹配规则、所述第二替换规则添加至所述初次更新后的初始正则匹配列表的末位,得到再次更新后的初始正则匹配列表;
[0027]7)基于所述再次更新后的初始正则匹配列表对所述修正后的负样本集进行修正;
[0028]8)重复步骤5)~7),直至所述修正后的负样本集中的重复负样本数量等于零,则将所述初始正则匹配列表的末次更新结果确定为修正策略。
[0029]进一步地,所述目标修正策略包括目标正则匹配规则、目标替换规则,所述基于所述目标修正策略对所述初始识别结果进行修正,得到所述初始识别结果的修正结果包括:
[0030]基于所述目标正则匹配规则从所述初始识别结果中识别出待修正字符;
[0031]基于所述目标替换规则对所述待修正字符进行进行修正,得到所述初始识别结果的修正结果。
[0032]进一步地,所述获取待修正处理的初始识别结果、输出所述初始识别结果的目标识别模型信息之前,所述方法还包括:
[0033]获取待识别文本图像、所述待识别文本图像的业务类别;
[0034]从识别模型映射关系集中识别出与所述业务类别匹配的目标识别模型,所述识别模型映射关系集中包括不同业务类别与不同识别模型识别标识之间的映射关系;
[0035]基于所述目标识别模型对所述待识别文本图像进行识别,得到初始识别结果。
[0036]依据本专利技术另一个方面,提供了一种OCR识别结果的修正装置,包括:
[0037]获取模块,用于获取待修正处理的初始识别结果、输出所述初始识别结果的目标识别模型信息;
[0038]匹配模块,用于从修正策略中识别出与所述目标识别模型信息匹配的目标修正策略,所述目标修正策略为基于所述目标目标识别模型的历史识别结果构建的,所述修正策略包括正则匹配规则、与所述正则匹配规则对应的替换规则;
[0039]修正模块,用于基于所述目标修正策略对所述初始识别结果进行修正,得到所述初始识别结果的修正结果。
[0040]进一步地,所述装置还包括:
[0041]所述获取模块,还用于针对各个识别模型,获取所述识别模型的历史识别结果,并基于所述历史识别结果分别构建正样本集、负样本集;
[0042]更新模块,用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种OCR识别结果的修正方法,其特征在于,包括:获取待修正处理的初始识别结果、输出所述初始识别结果的目标识别模型信息;从修正策略中识别出与所述目标识别模型信息匹配的目标修正策略,所述目标修正策略为基于所述目标目标识别模型的历史识别结果构建的,所述修正策略包括正则匹配规则、与所述正则匹配规则对应的替换规则;基于所述目标修正策略对所述初始识别结果进行修正,得到所述初始识别结果的修正结果。2.根据权利要求1所述的方法,其特征在于,所述从修正策略中识别出与所述目标识别模型信息匹配的目标修正策略之前,所述方法还包括:针对各个识别模型,获取所述识别模型的历史识别结果,并基于所述历史识别结果分别构建正样本集、负样本集;针对所述负样本集中的各个重复负样本,从所述重复负样本中提取初始匹配内容,并基于所述初始匹配内容的正样本匹配结果进行匹配内容更新,得到所述负样本集中各个重复负样本的正则匹配规则;基于所述正则匹配规则所对应的负样本、及所述负样本对应的正样本,确定所述正则匹配规则对应的替换规则,并基于所述正则匹配规则、所述替换规则构建得到各个目标识别模型的修正策略。3.根据权利要求2所述的方法,其特征在于,所述基于所述初始匹配内容的正样本匹配结果进行匹配内容更新,得到所述负样本集中各个重复负样本的正则匹配规则包括:针对各个所述重复负样本,将所述初始匹配内容与所述正样本集进行匹配,得到正样本匹配结果;若所述正样本匹配结果为非空,则向所述初始匹配内容增加上下文内容,得到更新后的初始匹配内容;若所述更新后的初始匹配内容的正样本匹配结果为非空,则继续向所述更新后的初始匹配内容增加上下文内容,直至更新后的匹配内容的正样本匹配结果为空,则基于所述更新后的匹配内容生成正则匹配规则。4.根据权利要求3所述的方法,其特征在于,所述基于所述更新后的匹配内容生成正则匹配规则包括:对所述更新后的匹配内容中的待修正对象进行掩码,得到掩码结果;基于所述掩码结果进行正则规则提取,得到正则匹配规则。5.根据权利要求1所述的方法,其特征在于,所述修正策略为正则匹配列表形式,所述从修正策略中识别出与所述目标识别模型信息匹配的目标修正策略之前,所述方法还包括:1)针对各个识别模型,获取所述识别模型的历史识别结果,并基于所述历史识别结果分别构建正样本集、负样本集;2)从所述负样本集中抽取第一重复负样本,并构建所述第一重复负样本的第一正则匹配规则、第一替换规则;3)将所述第一正则匹配规则、所述第一替换规则添加至初始正则匹配列表的末位,得到更新后的初始正则匹配列表;
4)基于所述更新后的初始正...

【专利技术属性】
技术研发人员:张焱凯
申请(专利权)人:平安国际融资租赁有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1