基于机器学习的移动端开户资料银行信息自动提取方法技术

技术编号:27605711 阅读:15 留言:0更新日期:2021-03-10 10:29
本发明专利技术公开一种基于机器学习的移动端开户资料银行信息自动提取方法,使用训练的图像分类模型,识别开户资料图片的类型;识别开户资料图片的方向;依据识别结果进行图像操作,将非正向的开户资料图片旋转正向处理;识别开户资料图片中的文字区域;对于类型为开户许可证的开户资料图片,使用训练的表格回归器模型预测文字区域的位置信息;对预测的位置信息进行验证,截取目标文字区域的图片;对截取的图片进行OCR文字提取,获得目标文字区域的文本信息。本发明专利技术在移动端实现开户资料中银行信息的自动识别并提取,能够大大减少后端服务压力,节约成本,并且大大减小模型体积,更适合于移动端应用。移动端应用。移动端应用。

【技术实现步骤摘要】
基于机器学习的移动端开户资料银行信息自动提取方法


[0001]本专利技术涉及利用机器学习的工具方法解决目标图像提取问题,尤其是对特定文字区域的提取,特别是基于有监督类机器学习训练的图像分类器模型与表格回归器模型对开户资料进行分类识别、对其中开户许可证类型的开户行账户和开户行名称进行自动识别的方法,具体为一种基于机器学习的移动端开户资料银行信息自动提取方法。

技术介绍

[0002]在进行在B2B平台的注册中(例如线上招投标平台),一般都需要注册企业提供一些资质信息,通常会要求提供开户行信息。手机移动端注册时,需要用户拍照或从手机图库中选取包含企业开户行名称和开户账号的银行开户资料上传。平台不仅要把注册企业的开户资料图片作为资料留存,还需把其中的银行信息进行提取,此时,平台可能让用户手动输入或让平台后台工作人员录入;或以开户许可证为模板在后端进行模板特征提取后再进行OCR文字识别提取,例如,通过购买百度或阿里的服务,买他们开户许可证OCR的模板,把开户资料的图片通过API接口传给他们,他们处理完再返回识别结果。
[0003]开户资料2020年前基本即指开户许可证,如图1,后端直接对上传资料使用模板提取没有问题,但国家于2019年7月取消纸质开户许可证,现在的开户资料不仅有开户许可证,还包括有银行提供的基本存款账户信息样式,如图2,以及少量其他银行开具的证明文件样式,如图3。因此,现在要从开户资料中自动化提取银行信息,不能直接使用模板提取,而必须先对资料类型进行分类。另外,从技术角度看,移动使用已成主流,如果识别提取功能能在用户的移动端上完成,能大大减少后端服务压力,节约成本。
[0004]传统方法不适于直接在移动端实现,传统图像学方法需要引入图形库(如openCV),有增大应用体量和提高应用耗电的问题,并且并非专为移动系统设计的图形库,在移动系统上运行由于运行效率问题,还会引起诸如耗电量增加,电池发热等问题,进一步降低了应用体验,所以传统方法更适于后端实现。而利用神经网络机器学习方法直接制作图像目标检测模型,生模型成体积也不小(使用苹果优化过的预训练模型训练,量化优化体积后,还是不下于16Mb)。这对于图像识别部分不是主要功能的移动端应用而言,也十分不友好。因此,需要提供一种方案,既能够在移动端达成目标,又能够满足移动端对应用体积的约束。
[0005]现在的iOS和Android系统都有对机器学习的支持(iOS中的Core ML,安卓中的Neural Networks API)。这允许开发者将他们已训练好的模型部署到移动设备上进行应用,而在设备上应用有许多优势:
[0006]延迟时间:不需要通过网络连接发送请求并等待响应。
[0007]可用性:应用甚至可以在没有网络覆盖的条件下运行。
[0008]速度:与单纯的通用CPU相比,特定于神经网络处理的新硬件可以提供显著加快的计算速度。
[0009]隐私:数据不会离开设备。
[0010]费用:所有计算都在设备上执行,不需要服务器支出。
[0011]应用大小:只要考虑控制模型大小,不需要考虑其他依赖包,因为系统已经支持。
[0012]综上如果能利用机器学习方法训练模型在移动端实现图像分类识别和信息提取,则可以解决在移动端完成对开户资料图片的银行信息提取。
[0013]现有技术也公开了一些将已训练好的模型部署到移动设备上进行应用的文献,如,公开号CN109460769A的中国专利于2019年3月12日公开了一种基于表格字符检测与识别的移动端系统及方法,通过图像分割、字符检测与识别的集成,实现了基于卷积神经网络的表格字符识别扫描应用。公开号CN110705398A的中国专利于2020年1月17日公开了一种面向移动端的试卷版面图文实时检测方法,通过从移动端设备(摄像头或拍照等)获取试卷图像数据,并通过移动端内置的tflite格式目标检测模型实时对图像数据中的文字和图片区域进行检测,从数据获取到模型输出结果等一系列过程均在移动端完成。前述专利申请虽然都是面向移动端,但本质上都是借由神经网络算法进行图像特征识别以达到目标检测的目的,属于图像目标检测类模型的应用,该类模型需要存储训练中得到的图像特征及权重,导致模型体积大,无法在移动端的应用包里集成多个模型,用户体验感较差。

技术实现思路

[0014]为克服上述现有技术的不足,本专利技术提供一种基于机器学习的移动端开户资料银行信息自动提取方法,该方法基于有监督类机器学习训练的图像分类器模型与表格回归器模型,将图像特征识别问题转换为数据表的数据回归问题,在移动端实现开户资料图像的分类识别,以及对分类识别出的开户许可证类型的资料银行信息的自动提取。
[0015]本专利技术是通过以下技术方案予以实现的:
[0016]基于机器学习的移动端开户资料银行信息自动提取方法,包括:
[0017]识别开户资料图片的类型;
[0018]识别开户资料图片的方向;
[0019]依据识别结果进行图像操作,将非正向的开户资料图片旋转正向处理;
[0020]识别开户资料图片中的文字区域;
[0021]对于类型为开户许可证的开户资料图片,使用训练的表格回归器模型预测文字区域的位置信息;该表格回归器模型是根据锚点文字区域与目标文字区域之间相对固定的位置关系,经训练而建立的回归模型;该表格回归器模型以锚点文字区域位置信息的归一化数据作为输入,利用图像中文字区域位置间的数据规律预测目标文字区域的位置信息,输出目标文字区域位置信息的归一化数据;
[0022]对预测的位置信息进行验证,截取目标文字区域的图片;
[0023]对截取的图片进行OCR文字提取,获得目标文字区域的文本信息。
[0024]上述技术方案中,提供一种基于有监督类机器学习训练的图像分类器模型和表格回归器模型,对开户资料图片先进行分类识别,对其中开户许可证类型资料银行信息进行自动提取的方法。该技术方案利用目标图像的文字区域布局在空间上的位置规律,将文字区域位置信息数字化,表格化,进而对目标位置的数据进行回归预测,相对于现有的对图像上的目标区域直接进行图像特征提取、识别和目标检测的方式而言,本技术方案无需专用的图形库,所用模型体积小,更适用于移动端使用。
[0025]上述技术方案中,对于类型识别为银行基本存款账户信息样式的图片,由于该类图片排版简单清晰,格式固定,有效内容部分无背景干扰,对识别到的文字区域信息进行基于位置关系的逻辑推理,即可得到目标文字区域,故只需用到分类识别。
[0026]上述技术方案在PC端训练优化模型,在移动端使用模型进行资料分类,纠正方向,有效目标文字区域提取,实现开户资料中银行信息的自动识别并提取,能够大大减少后端服务压力,节约成本;并且利用表格回归器模型进行目标文字区域坐标信息的预测,相对于现有的图像目标检测模型而言,其模型体积大大减小,更适合于移动端应用。
[0027]作为进一步的技术方案,利用第一图像分类器模型来区分输入的开户资本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于机器学习的移动端开户资料银行信息自动提取方法,其特征在于,包括:识别开户资料图片的类型;识别开户资料图片的方向;依据识别结果进行图像操作,将非正向的开户资料图片旋转正向处理;识别开户资料图片中的文字区域;对于类型为开户许可证的开户资料图片,使用训练的表格回归器模型预测文字区域的位置信息;该表格回归器模型是根据锚点文字区域与目标文字区域之间相对固定的位置关系,经训练而建立的回归模型;该表格回归器模型以锚点文字区域位置信息的归一化数据作为输入,利用图像中文字区域位置间的数据规律预测目标文字区域的位置信息,输出目标文字区域位置信息的归一化数据;对预测的位置信息进行验证,截取目标文字区域的图片;对截取的图片进行OCR文字提取,获得目标文字区域的文本信息。2.根据权利要求1所述的基于机器学习的移动端开户资料银行信息自动提取方法,其特征在于,利用第一图像分类器模型来区分输入的开户资料图片的类型;利用第二图像分类器模型来区分输入的开户资料图片的方向。3.根据权利要求2所述的基于机器学习的移动端开户资料银行信息自动提取方法,其特征在于,开户资料图片的类型包括:开户许可证、银行基本存款账户信息样式和其他证明样式。4.根据权利要求1所述的基于机器学习的移动端开户资料银行信息自动提取方法,其特征在于,利用第三方文字区域识别模型来识别开户资料图片中的文字区域,得到描述文字区域的矩形位置数组。5.根据权利要求4所述的基于机器学习的移动端开户资料银行信息自动提取方法,其特征在于,若开户资料图片的类型为银行基本存款账户信息样式,则对识别的文字区域信息进行基于位置关系的逻辑推理,得到目标文字区域信息,再对该目标文字区域进行范围加强形成新的目标矩形,从原图截取该目标矩形,对截取的目标矩形的图片进行OCR文字识别提取,对提取文字进行基于语义的过滤,得到提取的银行信息。6.根据权利要求4所述的基于机器学习的移动端开户资料银行信息自动提取方法,其特征在于,若开户...

【专利技术属性】
技术研发人员:郑翊郭鹏覃仕顶张爱平高盈
申请(专利权)人:湖北省楚建易网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1