【技术实现步骤摘要】
基于OCR的发票金额高精准分析系统及方法
[0001]本专利技术涉及数据采集及处理
,具体涉及基于OCR的发票金额高精准分析系统及方法。
技术介绍
[0002]深度学习的自适应学习驱动方式,能够很好的应对这些问题,因为要做的参数预处理的流程基本上少了很多,而且基本上做到了端到端的处理。基于深度学习的OCR方法将一些繁杂的流程分为两个主要步骤,一个是文本检测(主要用于定位文本的位置),另一个是文本识别(主要用于识别文本的具体内容)。虽然基于深度学习的OCR方法已经成为计算机视觉领域一个非常重要的研究方向,涉及的应用领域也多种多样,但是基于中文的场景文本识别问题仍然需要不断完善。
[0003]传统的OCR处理方法使用了大量图像处理的相关知识:首先是数据的预处理,然后是数据的特征提取、特征降维等,之后送入一些典型的分类器(例如SVM、Softmax)进行分类,最后通过后处理进行数据结构化。虽然这基本上合乎人类视觉处理逻辑,但是整个处理流程的工序太多,而且是串行的,导致错误不断被传递放大。其次,整个过程涉及太多的人工设 ...
【技术保护点】
【技术特征摘要】
1.基于OCR的发票金额高精准分析系统,其特征在于,该系统包括系统终端和服务器;所述系统终端为用户提供了自动读取所需分析发票的图像扫描仪;所述服务器存储了预先训练好的网络模型和整套系统源码;所述系统终端和服务器通过公共通信网络可进行通信连接;所述网络模型包括图像分类、OCR文字识别CRNN单元和图像特征匹配单元;所述图像分类采用MobileNet V3分类网络,对不同发票的图像进行对应模板分类;所述图像特征匹配单元采用SIFT算法,进行特征匹配定位提取;所述OCR文字识别CRNN单元对所需信息进行识别;所述整套系统源码实现对图像分类、图像特征匹配单元、OCR文字识别CRNN单元和生成excel表格和分析可视化界面的整合,使其成为一个连贯的整体。2.根据权利要求1所述的基于OCR的发票金额高精准分析系统,其特征在于,所述OCR文字识别CRNN单元包括数据集生成模块、发票识别模块和数据分析可视化模块。3.根据权利要求2所述的基于OCR的发票金额高精准分析系统,其特征在于,所述数据集生成模块采用文字识别图像生成技术TRDG,实现在有限数据集的情况下生成较多的仿真数据,对截取不同部位的信息生成对应、不同的训练集,并将生成图片进行图像处理。4.根据权利要求2所述的基于OCR的发票金额高精准分析系统,其特征在于,所述发票识别模块包括深度学习的字符训练框架,使用数据集生成模块得到的数据集进行框架的训练,构建CRNN模型,训练网络达到收敛,用于字符识别。5.根据权利要求2所述的基于OCR的发票金额高精准分析系统,其特征在于,所述数据分析可视化模块采用pyecharts工具,将读取到的发票信息以可视化的方式展...
【专利技术属性】
技术研发人员:汪琳茜,潘继涛,徐开发,郁钱,
申请(专利权)人:江苏理工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。