一种银行电子回单的识别方法和装置制造方法及图纸

技术编号:37135612 阅读:15 留言:0更新日期:2023-04-06 21:34
本发明专利技术提供了一种银行电子回单的识别方法和装置,涉及数据处理的技术领域,包括:获取样本电子回单,对样本电子回单进行预处理,得到目标样本电子回单;基于目标样本电子回单对应的银行,对样本电子回单进行分类,得到多个电子回单集;利用多个电子回单集对多个初始识别模型进行训练,得到多个目标识别模型,其中,一个初始识别模型对应一个电子回单集,初始识别模型用于识别电子回单中的文字;在获取到待识别电子回单之后,利用待识别电子回单对应的目标识别模型识别出待识别电子回单的识别结果,并将识别结果发送给用户,解决了现有的银行电子回单的识别方法的识别准确率较低的技术问题。术问题。术问题。

【技术实现步骤摘要】
一种银行电子回单的识别方法和装置


[0001]本专利技术涉及数据处理的
,尤其是涉及一种银行电子回单的识别方法和装置。

技术介绍

[0002]为了获取电子银行回单对应的结构化数据,一般采用OCR识别方式,对电子银行回单进行文字识别。目前市面上的OCR技术,一般是获取海量的电子银行回单文件,然后组成数据集,然后使用数据集使用人工智能算法训练出一个通用的电子银行回单识别模型出来,进行电子银行回单识别。
[0003]由于银行种类繁多,银行回单文件样式多变,增加了OCR识别率提升的难度,通用识别模型识别率的提升会因种类太多受到阻碍,而且新增一个银行,旧有的模型难以匹配,额外训练需要考虑新银行类型和旧有数据的兼容性。
[0004]针对上述问题,还未提出有效的解决方案。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种银行电子回单的识别方法和装置,以缓解了现有的银行电子回单的识别方法的识别准确率较低的技术问题。
[0006]第一方面,本专利技术实施例提供了一种银行电子回单的识别方法,包括:获取样本电子回单,对所述样本电子回单进行预处理,得到目标样本电子回单;基于所述目标样本电子回单对应的银行,对所述样本电子回单进行分类,得到多个电子回单集;利用多个电子回单集对多个初始识别模型进行训练,得到多个目标识别模型,其中,一个初始识别模型对应一个电子回单集,所述初始识别模型用于识别电子回单中的文字;在获取到待识别电子回单之后,利用所述待识别电子回单对应的目标识别模型识别出所述待识别电子回单的识别结果,并将所述识别结果发送给用户。
[0007]进一步地,对所述样本电子回单进行预处理,得到目标样本电子回单,包括:确定出所述样本电子回单中的第一电子回单,其中,所述第一电子回单为格式不是图像格式的电子回单;将所述第一电子回单转换为图像格式,得到第二电子回单;将所述第二电子回单和所述样本电子回单中出所述第一电子回单以外的电子回单转化为尺寸统一的第三电子回单;对所述第三电子回单中文字所处区域和所述文字所处区域中的文字进行标注,得到所述目标电子回单。
[0008]进一步地,所述初始识别模型包括:基于yolo

v4算法构建的图像抓取模块和基于OCR文字识别算法构建的文字识别模块;
[0009]利用多个电子回单集对多个初始识别模型进行训练,得到多个目标识别模型,包括:利用所述多个电子回单集,对多个初始识别模型的图像抓取模块进行训练,得到多个目标识别模型的图像抓取模块;利用所述多个电子回单集,对多个初始识别模型的文字识别模块进行训练,得到多个目标识别模型的文字识别模块。
[0010]进一步地,利用所述多个电子回单集,对多个初始识别模型的图像抓取模块进行训练,得到多个目标识别模型的图像抓取模块,包括:
[0011]第一输入步骤,将电子回单集中的第一目标电子回单输入所述初始识别模型的图像抓取模块,得到所述第一目标回单中的文字区域的初始坐标信息,其中,所述第一目标电子回单为所述电子回单集中的任意一个电子回单;第一优化步骤,利用所述初始坐标信息和所述第一目标回单中的文字区域的标注,对所述初始识别模型的图像抓取模块进行优化,得到优化后的图像抓取模块;将第二目标电子回单确定为所述第一目标电子回单,将所述优化后的图像抓取模块确定为所述初始识别模型的图像抓取模块,重复执行所述第一输入步骤和所述第一优化步骤,直至所述初始坐标信息与所述第一目标回单中的文字区域的标注之间的误差小于第一预设阈值,并将误差小于第一预设阈值对应的优化后的图像抓取模块确定为目标识别模型的图像抓取模块。
[0012]进一步地,利用所述多个电子回单集,对多个初始识别模型的文字识别模块进行训练,得到多个目标识别模型的文字识别模块,包括:分割步骤,对电子回单集中的第三目标电子回单中文字所处区域进行分割,得到多个图像块,其中,一个图像块中包含一个文字;第二输入步骤,将所述多个图像块输入所述初始识别模型的文字识别模块,得到所述第三目标回单的文字识别结果,其中,所述第三目标电子回单为所述电子回单集中的任意一个电子回单;第二优化步骤,利用所述第三目标回单的文字识别结果和所述第三目标回单中的文字区域中文字的标注,对所述初始识别模型的文字识别模块进行优化,得到优化后的文字识别模块;将第四目标电子回单确定为所述第三目标电子回单,将所述优化后的文字识别模块确定为所述初始识别模型的文字识别模块,重复执行所述分割步骤、所述第二输入步骤和所述第二优化步骤,直至所述第三目标回单的文字识别结果与所述第三目标回单中的文字区域种文字的标注之间的错误率小于第二预设阈值,并将错误略小于第二预设阈值对应的优化后的文字模块确定为目标识别模型的文字识别模块。
[0013]第二方面,本专利技术实施例还提供了一种银行电子回单的识别装置,包括:获取单元,用于获取样本电子回单,对所述样本电子回单进行预处理,得到目标样本电子回单;分类单元,用于基于所述目标样本电子回单对应的银行,对所述样本电子回单进行分类,得到多个电子回单集;训练单元,用于利用多个电子回单集对多个初始识别模型进行训练,得到多个目标识别模型,其中,一个初始识别模型对应一个电子回单集,所述初始识别模型用于识别电子回单中的文字;识别单元,用于在获取到待识别电子回单之后,利用所述待识别电子回单对应的目标识别模型识别出所述待识别电子回单的识别结果,并将所述识别结果发送给用户。
[0014]进一步地,所述获取单元,用于:确定出所述样本电子回单中的第一电子回单,其中,所述第一电子回单为格式不是图像格式的电子回单;将所述第一电子回单转换为图像格式,得到第二电子回单;将所述第二电子回单和所述样本电子回单中出所述第一电子回单以外的电子回单转化为尺寸统一的第三电子回单;对所述第三电子回单中文字所处区域和所述文字所处区域中的文字进行标注,得到所述目标电子回单。
[0015]进一步地,所述初始识别模型包括:基于yolo

v4算法构建的图像抓取模块和基于OCR文字识别算法构建的文字识别模块,则所述训练单元,用于:利用所述多个电子回单集,对多个初始识别模型的图像抓取模块进行训练,得到多个目标识别模型的图像抓取模块;
[0016]利用所述多个电子回单集,对多个初始识别模型的文字识别模块进行训练,得到多个目标识别模型的文字识别模块。
[0017]第三方面,本专利技术实施例还提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储支持处理器执行上述第一方面中所述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
[0018]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序。
[0019]在本专利技术实施例中,通过获取样本电子回单,对所述样本电子回单进行预处理,得到目标样本电子回单;基于所述目标样本电子回单对应的银行,对所述样本电子回单进行分类,得到多个电子回单集;利用多个电子回单集对多个初始识别模型进行训练,得到多个目标识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种银行电子回单的识别方法,其特征在于,包括:获取样本电子回单,对所述样本电子回单进行预处理,得到目标样本电子回单;基于所述目标样本电子回单对应的银行,对所述样本电子回单进行分类,得到多个电子回单集;利用多个电子回单集对多个初始识别模型进行训练,得到多个目标识别模型,其中,一个初始识别模型对应一个电子回单集,所述初始识别模型用于识别电子回单中的文字;在获取到待识别电子回单之后,利用所述待识别电子回单对应的目标识别模型识别出所述待识别电子回单的识别结果,并将所述识别结果发送给用户。2.根据权利要求1所述的方法,其特征在于,对所述样本电子回单进行预处理,得到目标样本电子回单,包括:确定出所述样本电子回单中的第一电子回单,其中,所述第一电子回单为格式不是图像格式的电子回单;将所述第一电子回单转换为图像格式,得到第二电子回单;将所述第二电子回单和所述样本电子回单中出所述第一电子回单以外的电子回单转化为尺寸统一的第三电子回单;对所述第三电子回单中文字所处区域和所述文字所处区域中的文字进行标注,得到所述目标电子回单。3.根据权利要求2所述的方法,其特征在于,所述初始识别模型包括:基于yolo

v4算法构建的图像抓取模块和基于OCR文字识别算法构建的文字识别模块;利用多个电子回单集对多个初始识别模型进行训练,得到多个目标识别模型,包括:利用所述多个电子回单集,对多个初始识别模型的图像抓取模块进行训练,得到多个目标识别模型的图像抓取模块;利用所述多个电子回单集,对多个初始识别模型的文字识别模块进行训练,得到多个目标识别模型的文字识别模块。4.根据权利要求1所述的方法,其特征在于,利用所述多个电子回单集,对多个初始识别模型的图像抓取模块进行训练,得到多个目标识别模型的图像抓取模块,包括:第一输入步骤,将电子回单集中的第一目标电子回单输入所述初始识别模型的图像抓取模块,得到所述第一目标回单中的文字区域的初始坐标信息,其中,所述第一目标电子回单为所述电子回单集中的任意一个电子回单;第一优化步骤,利用所述初始坐标信息和所述第一目标回单中的文字区域的标注,对所述初始识别模型的图像抓取模块进行优化,得到优化后的图像抓取模块;将第二目标电子回单确定为所述第一目标电子回单,将所述优化后的图像抓取模块确定为所述初始识别模型的图像抓取模块,重复执行所述第一输入步骤和所述第一优化步骤,直至所述初始坐标信息与所述第一目标回单中的文字区域的标注之间的误差小于第一预设阈值,并将误差小于第一预设阈值对应的优化后的图像抓取模块确定为目标识别模型的图像抓取模块。5.根据权利要求3所述的方法,其特征在于,利用所述多个电子回单集,对多个初始识别模型的文字识别模块进行训练,得到多个目标识别模型的文字识别模块,包括:分割步骤,对电子回单集中的第三目标电子回单中文字所处区域进行分割,得到多个

【专利技术属性】
技术研发人员:肖建伟柴晓男
申请(专利权)人:北京合思信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1