一种基于OCR的财务报表信息快速提取方法及系统技术方案

技术编号:23605326 阅读:76 留言:0更新日期:2020-03-28 06:15
本发明专利技术公开了一种基于OCR的财务报表信息快速提取方法及系统,包括步骤:获得财务报表图像数据;对图像进行预处理;版式结构分析,判断是否有表格;单元格分析及识别类型判断;根据相应识别类型对每个单元格进行识别;对识别结果进行校验汇总;将识别结果结构化输出到Excel/xml文件中。本发明专利技术适应性强,常见的标准表格型、有横线无纵线型、有纵线无横线型、完全无表格线型、表格跨页型等多种样式的财务报表,常规的OCR识别方法并不能实现结构化输出,本发明专利技术的财务报表OCR识别方法可以适应各种报表的复杂场景,统一完成结构化输出,无需用户做方法配置和调整。

A method and system for quick extraction of financial statement information based on OCR

【技术实现步骤摘要】
一种基于OCR的财务报表信息快速提取方法及系统
本专利技术涉及光学字符识别领域,具体来说,涉及一种基于OCR的财务报表信息快速提取方法及系统。
技术介绍
财务报表又叫会计报表,包含:资产负债表、损益表、现金流量表三表。财务报表对企业经营状况有重要的参考意义。当前,财务报表的录入传统的OCR识别方法需要用户设定识别模板,操作繁琐。待识别的财务报表的表格格式多样,排版复杂,很多应用场景都无法适用。通过OCR识别得到的输出结果也是一行行输出,直观性不强。公司印章对传统OCR识别有一定干扰性,报表中的金额数字类型也不统一。针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术中的上述技术问题,本专利技术提出一种基于OCR的财务报表信息快速提取方法及系统,能够解决上述问题。为实现上述技术目的,本专利技术的技术方案是这样实现的:一种基于OCR的财务报表信息快速提取方法,其特征在于,包括步骤:S1获得财务报表图像数据;S2对图像进行预处理;S3版式结构分析,判本文档来自技高网...

【技术保护点】
1.一种基于OCR的财务报表信息快速提取方法,其特征在于,包括步骤:/nS1获得财务报表图像数据;/nS2对图像进行预处理;/nS3版式结构分析,判断是否有表格;/nS4单元格分析及识别类型判断;/nS5根据相应识别类型对每个单元格进行识别;/nS6对识别结果进行校验汇总;/nS7将识别结果结构化输出到Excel/xml文件中。/n

【技术特征摘要】
1.一种基于OCR的财务报表信息快速提取方法,其特征在于,包括步骤:
S1获得财务报表图像数据;
S2对图像进行预处理;
S3版式结构分析,判断是否有表格;
S4单元格分析及识别类型判断;
S5根据相应识别类型对每个单元格进行识别;
S6对识别结果进行校验汇总;
S7将识别结果结构化输出到Excel/xml文件中。


2.根据权利要求1所述的基于OCR的财务报表信息快速提取方法,其特征在于,所述S1获得财务报表图像数据包括:
S11:打开待识别文件,支持bmp、jpg、tif、pdf、doc、docx等文件格式;
S12:图像数据读取,通过设置每页图像ID将pdf、doc、docx等多页文件拆分为单页、再将单页转成图像数据。


3.根据权利要求1所述的基于OCR的财务报表信息快速提取方法,其特征在于,所述S2对图像进行预处理包括:
S21:方向判断,通过版面分析判断图像是横向还是纵向,通过OCR判断图像是0度正向还是180度倒向,然后通过图像旋转使方向一致;
S22:倾斜校正,利用框线信息或者文本信息通过LeadTools核心计算出倾斜角度,然后进行图像旋转,消除一定的倾斜角度;
S23:印章检测与过滤,利用印章的形状信息和颜色信息,通过霍夫变换进行印章检测,然后得到图像的背景色,通过滤红将印章区域过滤掉;
S24:去噪,通过中值或者均值方式进行去噪;
S25:二值化,对图像进行二值化处理。


4.根据权利要求1所述的基于OCR的财务报表信息快速提取方法,其特征在于,所述S3版式结构分析,判断是否有表格包括:
S31:通过是否还有待识别的行列信息判断有无续页;
S32:获取文本以及框线信息判断报表类型是文本还是表格。


5.根据权利要求1所述的基于OCR的财务报表信息快速提取方法,其特征在于,所述S4单元格分析及识别类型判断包括:<...

【专利技术属性】
技术研发人员:饶顶锋刘伟陶坚坚
申请(专利权)人:北京译图智讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1