【技术实现步骤摘要】
一种基于OCR的财务报表信息快速提取方法及系统
本专利技术涉及光学字符识别领域,具体来说,涉及一种基于OCR的财务报表信息快速提取方法及系统。
技术介绍
财务报表又叫会计报表,包含:资产负债表、损益表、现金流量表三表。财务报表对企业经营状况有重要的参考意义。当前,财务报表的录入传统的OCR识别方法需要用户设定识别模板,操作繁琐。待识别的财务报表的表格格式多样,排版复杂,很多应用场景都无法适用。通过OCR识别得到的输出结果也是一行行输出,直观性不强。公司印章对传统OCR识别有一定干扰性,报表中的金额数字类型也不统一。针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术中的上述技术问题,本专利技术提出一种基于OCR的财务报表信息快速提取方法及系统,能够解决上述问题。为实现上述技术目的,本专利技术的技术方案是这样实现的:一种基于OCR的财务报表信息快速提取方法,其特征在于,包括步骤:S1获得财务报表图像数据;S2对图像进行预处理; ...
【技术保护点】
1.一种基于OCR的财务报表信息快速提取方法,其特征在于,包括步骤:/nS1获得财务报表图像数据;/nS2对图像进行预处理;/nS3版式结构分析,判断是否有表格;/nS4单元格分析及识别类型判断;/nS5根据相应识别类型对每个单元格进行识别;/nS6对识别结果进行校验汇总;/nS7将识别结果结构化输出到Excel/xml文件中。/n
【技术特征摘要】
1.一种基于OCR的财务报表信息快速提取方法,其特征在于,包括步骤:
S1获得财务报表图像数据;
S2对图像进行预处理;
S3版式结构分析,判断是否有表格;
S4单元格分析及识别类型判断;
S5根据相应识别类型对每个单元格进行识别;
S6对识别结果进行校验汇总;
S7将识别结果结构化输出到Excel/xml文件中。
2.根据权利要求1所述的基于OCR的财务报表信息快速提取方法,其特征在于,所述S1获得财务报表图像数据包括:
S11:打开待识别文件,支持bmp、jpg、tif、pdf、doc、docx等文件格式;
S12:图像数据读取,通过设置每页图像ID将pdf、doc、docx等多页文件拆分为单页、再将单页转成图像数据。
3.根据权利要求1所述的基于OCR的财务报表信息快速提取方法,其特征在于,所述S2对图像进行预处理包括:
S21:方向判断,通过版面分析判断图像是横向还是纵向,通过OCR判断图像是0度正向还是180度倒向,然后通过图像旋转使方向一致;
S22:倾斜校正,利用框线信息或者文本信息通过LeadTools核心计算出倾斜角度,然后进行图像旋转,消除一定的倾斜角度;
S23:印章检测与过滤,利用印章的形状信息和颜色信息,通过霍夫变换进行印章检测,然后得到图像的背景色,通过滤红将印章区域过滤掉;
S24:去噪,通过中值或者均值方式进行去噪;
S25:二值化,对图像进行二值化处理。
4.根据权利要求1所述的基于OCR的财务报表信息快速提取方法,其特征在于,所述S3版式结构分析,判断是否有表格包括:
S31:通过是否还有待识别的行列信息判断有无续页;
S32:获取文本以及框线信息判断报表类型是文本还是表格。
5.根据权利要求1所述的基于OCR的财务报表信息快速提取方法,其特征在于,所述S4单元格分析及识别类型判断包括:<...
【专利技术属性】
技术研发人员:饶顶锋,刘伟,陶坚坚,
申请(专利权)人:北京译图智讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。