【技术实现步骤摘要】
一种银行电子回单的识别方法和装置
[0001]本专利技术涉及数据处理的
,尤其是涉及一种银行电子回单的识别方法和装置。
技术介绍
[0002]为了获取电子银行回单对应的结构化数据,一般采用OCR识别方式,对电子银行回单进行文字识别。目前市面上的OCR技术,一般是获取海量的电子银行回单文件,然后组成数据集,然后使用数据集使用人工智能算法训练出一个通用的电子银行回单识别模型出来,进行电子银行回单识别。
[0003]由于银行种类繁多,银行回单文件样式多变,增加了OCR识别率提升的难度,通用识别模型识别率的提升会因种类太多受到阻碍,而且新增一个银行,旧有的模型难以匹配,额外训练需要考虑新银行类型和旧有数据的兼容性。
[0004]针对上述问题,还未提出有效的解决方案。
技术实现思路
[0005]有鉴于此,本专利技术的目的在于提供一种银行电子回单的识别方法和装置,以缓解了现有的银行电子回单的识别方法的识别准确率较低的技术问题。
[0006]第一方面,本专利技术实施例提供了一种银行电子回单的识 ...
【技术保护点】
【技术特征摘要】
1.一种银行电子回单的识别方法,其特征在于,包括:获取样本电子回单,对所述样本电子回单进行预处理,得到目标样本电子回单;基于所述目标样本电子回单对应的银行,对所述样本电子回单进行分类,得到多个电子回单集;利用多个电子回单集对多个初始识别模型进行训练,得到多个目标识别模型,其中,一个初始识别模型对应一个电子回单集,所述初始识别模型用于识别电子回单中的文字;在获取到待识别电子回单之后,利用所述待识别电子回单对应的目标识别模型识别出所述待识别电子回单的识别结果,并将所述识别结果发送给用户。2.根据权利要求1所述的方法,其特征在于,对所述样本电子回单进行预处理,得到目标样本电子回单,包括:确定出所述样本电子回单中的第一电子回单,其中,所述第一电子回单为格式不是图像格式的电子回单;将所述第一电子回单转换为图像格式,得到第二电子回单;将所述第二电子回单和所述样本电子回单中出所述第一电子回单以外的电子回单转化为尺寸统一的第三电子回单;对所述第三电子回单中文字所处区域和所述文字所处区域中的文字进行标注,得到所述目标电子回单。3.根据权利要求2所述的方法,其特征在于,所述初始识别模型包括:基于yolo
‑
v4算法构建的图像抓取模块和基于OCR文字识别算法构建的文字识别模块;利用多个电子回单集对多个初始识别模型进行训练,得到多个目标识别模型,包括:利用所述多个电子回单集,对多个初始识别模型的图像抓取模块进行训练,得到多个目标识别模型的图像抓取模块;利用所述多个电子回单集,对多个初始识别模型的文字识别模块进行训练,得到多个目标识别模型的文字识别模块。4.根据权利要求1所述的方法,其特征在于,利用所述多个电子回单集,对多个初始识别模型的图像抓取模块进行训练,得到多个目标识别模型的图像抓取模块,包括:第一输入步骤,将电子回单集中的第一目标电子回单输入所述初始识别模型的图像抓取模块,得到所述第一目标回单中的文字区域的初始坐标信息,其中,所述第一目标电子回单为所述电子回单集中的任意一个电子回单;第一优化步骤,利用所述初始坐标信息和所述第一目标回单中的文字区域的标注,对所述初始识别模型的图像抓取模块进行优化,得到优化后的图像抓取模块;将第二目标电子回单确定为所述第一目标电子回单,将所述优化后的图像抓取模块确定为所述初始识别模型的图像抓取模块,重复执行所述第一输入步骤和所述第一优化步骤,直至所述初始坐标信息与所述第一目标回单中的文字区域的标注之间的误差小于第一预设阈值,并将误差小于第一预设阈值对应的优化后的图像抓取模块确定为目标识别模型的图像抓取模块。5.根据权利要求3所述的方法,其特征在于,利用所述多个电子回单集,对多个初始识别模型的文字识别模块进行训练,得到多个目标识别模型的文字识别模块,包括:分割步骤,对电子回单集中的第三目标电子回单中文字所处区域进行分割,得到多个
【专利技术属性】
技术研发人员:肖建伟,柴晓男,
申请(专利权)人:北京合思信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。