一种文本识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38714628 阅读:10 留言:0更新日期:2023-09-08 14:57
本发明专利技术涉及文字识别技术领域,本发明专利技术还涉及金融领域,尤其涉及一种文本识别方法、装置、电子设备及存储介质,获取切片中的字段以及字段对应的文本识别置信度;对切片进行分类,并获取切片的分类置信度;若切片为第一特殊切片且切片的分类置信度大于第一特殊切片的分类置信度预设阈值,则将切片中的字段对应的文本识别置信度设置为第一预设值;从字段中获取符合筛选规则且文本识别置信度小于文本识别置信度预设阈值的抽样字段,文本识别置信度预设阈值大于第一预设值;对抽样字段对应的切片进行字段识别,获取识别结果,判断抽样字段与识别结果是否相同;通过上述方式,解决了现有技术中文本识别假阳率较高的技术问题。术中文本识别假阳率较高的技术问题。术中文本识别假阳率较高的技术问题。

【技术实现步骤摘要】
一种文本识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及文字识别
,尤其涉及一种文本识别方法、装置、电子设备及存储介质。

技术介绍

[0002]在图像处理领域,人们已开发了各种算法自动提取图像中的信息进行识别、验证、决策等,并广泛应用到金融、门禁、监控、无人驾驶等领域,增加了社会的安全指数,解放了大量劳动力,提高了人们生活的便利性。在文本识别领域,文本识别是通过文本定位算法先定位到文本区域,再针对文本区域的文字进行识别,并给出文本识别置信度。然而在实际应用中,由于图像质量千差万别,有时给出错误的预测结果是很正常的。
[0003]在某些领域如金融行业中,具体例如在识别发票时,发票上有些文本被印章等遮挡,而由于对发票文本识别精度要求较高,故往往需要人工对文本识别置信度较低的结果进行人工校验,确保文本识别结果的准确性。置信度是指文本识别模型预测的文字的确信程度,以从0到1的小数表示,数值越大表示文本识别模型越确信预测的结果是正确的。故业务人员会根据这个数值,人工再次检查文本识别置信度较低的预测结果。
[0004]然而,假阳率较高一直是业务头痛的问题之一,假阳率是指假阳性的预测结果在总预测结果的占比。假阳性是指文本识别模型预测结果是错误的,即文本预测模型预测的文本是错误的,但该错误的文本对应的文本识别置信度却较高。较高的假阳率会导致预测错误的结果绕过人工的校验,从而导致最后生产环境中结果的错误,这在金融保险等对识别精度要求较高的应用场景中会导致较大问题,所以降低假阳率是一个急需解决的技术问题。
[0005]最直接降低假阳率的方法是对文本识别模型进行重新训练,但由于训练文本识别模型的周期较长,难度较大,在解决该问题的同时很可能又会引入其他问题,如识别精度的下降等,且由于训练集有限的限制,无非彻底避免假阳性的出现,故重新训练文本识别模型是一个难度较大、耗时较久、收效不确定的解决方案。

技术实现思路

[0006]本专利技术的目的在于提供一种文本识别方法、装置、电子设备及存储介质,以解决现有技术中文本识别假阳率较高的技术问题。
[0007]本专利技术的技术方案如下:提供一种文本识别方法,包括:
[0008]获取文字图像,并将所述文字图像划分成多个具有字段的切片;
[0009]根据预设的第一识别方法获取所述切片中的字段以及所述字段对应的文本识别置信度;
[0010]按照预设的切片类型对所述切片进行分类,并获取所述切片的分类置信度,其中,所述切片类型至少包括第一特殊切片和正常切片;
[0011]若所述切片为第一特殊切片且所述切片的分类置信度大于第一特殊切片的分类
置信度预设阈值,则将所述切片中的字段对应的文本识别置信度设置为第一预设值;
[0012]从所述字段中获取符合筛选规则且所述文本识别置信度小于文本识别置信度预设阈值的抽样字段,所述文本识别置信度预设阈值大于所述第一预设值;
[0013]根据预设的第二识别方法对所述抽样字段对应的所述切片进行字段识别,获取识别结果,判断所述抽样字段与所述识别结果是否相同。
[0014]作为一个可选的实施方式,所述按照预设的切片类型对所述切片进行分类,并获取所述切片的分类置信度,包括:
[0015]将所述切片输入切片分类模型,输出所述切片的切片类型以及所述切片的分类置信度。
[0016]作为一个可选的实施方式,所述切片分类模型为ResNet50网络结构模型,所述ResNet50网络结构模型的最后一层为全连接层,所述切片分类模型的训练方法包括:
[0017]获取具有字段的样本切片;
[0018]对所述样本切片进行分类标注,以获得训练集;
[0019]基于所述训练集对所述切片分类模型进行训练;
[0020]从所述训练集中获取部分的所述样本切片作为分类训练集,利用所述分类训练集对所述全连接层进行训练,其中,所述分类训练集中每个切片类型的所述样本切片的数量相同。
[0021]作为一个可选的实施方式,所述利用所述分类训练集对所述全连接层进行训练之后,还包括:
[0022]获取具有字段的测试切片;
[0023]对所述测试切片进行分类标注,以获得测试集,所述测试集中每个切片类型的所述测试切片的数量相同;
[0024]将所述测试切片输入所述切片分类模型,输出所述测试切片的切片类型以及所述测试切片的分类置信度;
[0025]设置多个分类置信度测试阈值,获取各所述分类置信度测试阈值所对应的召回率以及精确率,根据所述召回率和精确率选择其中一个所述分类置信度测试阈值,作为分类置信度预设阈值。
[0026]作为一个可选的实施方式,根据权利要求4所述的文本识别方法,其特征在于,所述从所述字段中获取符合筛选规则且所述文本识别置信度小于文本识别置信度预设阈值的抽样字段之后,还包括:
[0027]识别所述抽样字段对应的所述切片的切片分类是否正确,若不正确,则对所述切片进行分类标注,并将标注后的所述切片添加至所述训练集中,形成更新后的训练集;
[0028]基于所述更新后的训练集对所述切片分类模型进行训练;
[0029]从所述更新后的训练集中获取部分的所述样本切片作为分类训练集,利用所述分类训练集对所述全连接层进行训练。
[0030]作为一个可选的实施方式,所述第一特殊切片为文字被印章遮挡或文字重合的切片。
[0031]作为一个可选的实施方式,所述切片类型还包括第二特殊切片和第三特殊切片,所述第二特殊切片为文字被表格线遮挡的切片,所述第三特殊切片为标题被印章遮挡的切
片。
[0032]本专利技术的另一技术方案如下:提供一种文本识别装置,包括:
[0033]切片获取模块,用于获取文字图像,并将所述文字图像划分成多个具有字段的切片;
[0034]字段及文本识别置信度获取模块,用于根据预设的第一识别方法获取所述切片中的字段以及所述字段对应的文本识别置信度;
[0035]切片类型及分类置信度获取模块,用于按照预设的切片类型对所述切片进行分类,并获取所述切片的分类置信度,其中,所述切片类型至少包括第一特殊切片和正常切片;
[0036]文本识别置信度重置模块,用于若所述切片为第一特殊切片且所述切片的分类置信度大于第一特殊切片的分类置信度预设阈值,则将所述切片中的字段对应的文本识别置信度设置为第一预设值;
[0037]抽样字段获取模块,用于从所述字段中获取符合筛选规则且所述文本识别置信度小于文本识别置信度预设阈值的抽样字段,所述文本识别置信度预设阈值大于所述第一预设值;
[0038]抽样字段判断模块,用于根据预设的第二识别方法对所述抽样字段对应的所述切片进行字段识别,获取识别结果,判断所述抽样字段与所述识别结果是否相同。
[0039]本专利技术的另一技术方案如下:提供一种电子设备,包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:获取文字图像,并将所述文字图像划分成多个具有字段的切片;根据预设的第一识别方法获取所述切片中的字段以及所述字段对应的文本识别置信度;按照预设的切片类型对所述切片进行分类,并获取所述切片的分类置信度,其中,所述切片类型至少包括第一特殊切片和正常切片;若所述切片为第一特殊切片且所述切片的分类置信度大于第一特殊切片的分类置信度预设阈值,则将所述切片中的字段对应的文本识别置信度设置为第一预设值;从所述字段中获取符合筛选规则且所述文本识别置信度小于文本识别置信度预设阈值的抽样字段,所述文本识别置信度预设阈值大于所述第一预设值;根据预设的第二识别方法对所述抽样字段对应的所述切片进行字段识别,获取识别结果,判断所述抽样字段与所述识别结果是否相同。2.根据权利要求1所述的文本识别方法,其特征在于,所述按照预设的切片类型对所述切片进行分类,并获取所述切片的分类置信度,包括:将所述切片输入切片分类模型,输出所述切片的切片类型以及所述切片的分类置信度。3.根据权利要求2所述的文本识别方法,其特征在于,所述切片分类模型为ResNet50网络结构模型,所述ResNet50网络结构模型的最后一层为全连接层,所述切片分类模型的训练方法包括:获取具有字段的样本切片;对所述样本切片进行分类标注,以获得训练集;基于所述训练集对所述切片分类模型进行训练;从所述训练集中获取部分的所述样本切片作为分类训练集,利用所述分类训练集对所述全连接层进行训练,其中,所述分类训练集中每个切片类型的所述样本切片的数量相同。4.根据权利要求3所述的文本识别方法,其特征在于,所述利用所述分类训练集对所述全连接层进行训练之后,还包括:获取具有字段的测试切片;对所述测试切片进行分类标注,以获得测试集,所述测试集中每个切片类型的所述测试切片的数量相同;将所述测试切片输入所述切片分类模型,输出所述测试切片的切片类型以及所述测试切片的分类置信度;设置多个分类置信度测试阈值,获取各所述分类置信度测试阈值所对应的召回率以及精确率,根据所述召回率和精确率选择其中一个所述分类置信度测试阈值,作为分类置信度预设阈值。5.根据权利要求4所述的文本识别方法,其特征在于,所述从所述字段中...

【专利技术属性】
技术研发人员:游锦成
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1