一种基于智能识别的报表分析方法技术

技术编号:37153741 阅读:11 留言:0更新日期:2023-04-06 22:13
本发明专利技术公开了一种基于智能识别的报表分析方法,涉及报表数据分析技术领域。本发明专利技术包括如下步骤:步骤S1:对纸质报表进行扫描,作为系统输入来源;步骤S2:对扫描而成的BMP图像进行数字图像处理,获取文本区域;步骤S3:对处理后的文本区域进行信息提取;步骤S4:对提取出来的信息进行分析和匹配;步骤S5:将表格区域和非表格区域的文本识别内容进行排版整合,输出报表信息。本发明专利技术通过对纸质报表进行扫描,获取MBP图像进行识别处理,并将识别结果进行排版整合生成电子报表,提高报表录入效率,减少报表出错概率。少报表出错概率。少报表出错概率。

【技术实现步骤摘要】
一种基于智能识别的报表分析方法


[0001]本专利技术属于报表数据分析
,特别是涉及一种基于智能识别的报表分析方法。

技术介绍

[0002]银行、税务、审计等机构存在大量基于财务报表的数据分析工作。按照财务报表种类的不同,每个财务报表至少有30

200个字段需要录入,且每年需要手工录入数千张各行业公司财务报表,其表格数量多,金额数字量很大,手工处理效率低、易出错,与人工手工录入相比,财报OCR技术可直接从财报影像中提取科目、金额等重要数据,帮助银行、税务、审计等提高工作效率,构建自动化的信审系统。
[0003]OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备 (例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。OCR传统上是指对输入扫描的文档图形进行分析和处理,检测并识别出图像中的文字信息,一般包含了文字检测(TextDetection)和文字识别(TextRecognition)两部分。
[0004]实际操作中,由于财务报表制表方式多样以及OCR识别出现容易数字混淆、小数点错漏等问题,市场上存在的财务报表OCR识别系统无法输出精确度很高的识别结果。

技术实现思路

[0005]本专利技术的目的在于提供一种基于智能识别的报表分析方法,通过对纸质报表进行扫描,获取MBP图像进行识别处理,并将识别结果进行排版整合生成电子报表,解决了现有的人工手工录入报表容易出错、效率低的问题。
[0006]为解决上述技术问题,本专利技术是通过以下技术方案实现的:
[0007]本专利技术为一种基于智能识别的报表分析方法,包括如下步骤:
[0008]步骤S1:对纸质报表进行扫描,作为系统输入来源;
[0009]步骤S2:对扫描而成的BMP图像进行数字图像处理,获取文本区域;
[0010]步骤S3:对处理后的文本区域进行信息提取;
[0011]步骤S4:对提取出来的信息进行分析和匹配;
[0012]步骤S5:将表格区域和非表格区域的文本识别内容进行排版整合,输出报表信息。
[0013]作为一种优选的技术方案,所述步骤S2中,对BMP图像进行数字图像处理包括图像二值化处理、图像倾斜矫正处理和图像降噪处理。
[0014]作为一种优选的技术方案,所述二值化处理用于将一多个灰度级的图像转换为仅有两个灰度级的图像,具体操作如下:
[0015]对BMP图像进行A/D转换后的字符图像点阵为:
[0016]C=(f(i,j)),其中,i=1,2,...,p;j=1,2,...,q;
[0017]式中,f(i,j)是像素(i,j)的灰度值;
[0018]设置f(i,j)的阀值T,当:
[0019][0020]作为一种优选的技术方案,所述图像倾斜矫正处理用于对BMP图像进行文本检测,识别出BMP图像中的文本区域,并将文本区域的框体竖直放置,具体倾斜矫正的公式如下:
[0021][0022]式中,(i,j)表示BMP图像像素点的原始坐标,(i

,j

)表示经过倾斜矫正后的BMP图像像素点的坐标。
[0023]作为一种优选的技术方案,所述图像降噪处理用于对处理后的图像进行形态学处理,消除单个字周围毛刺,减少单个字内的空白,使每个字符成为紧凑的字团。
[0024]作为一种优选的技术方案,所述步骤S3中,文本区域进行信息提取的流程如下:
[0025]步骤S31:表格单元格提取;
[0026]步骤S32:使用ECFEA方法提取单元格字符图像;
[0027]步骤S33:字符图像去噪;
[0028]步骤S34:对字符进行特征提取。
[0029]作为一种优选的技术方案,所述步骤S31中,表格单元格提取的具体步骤如下:
[0030]步骤S311:在报表图像的水平方向上进行投影,得到图像高度像素数条水平方向的黑色像素累加值,做分布图,并找出累加值接近最大值的多条水平线位置;
[0031]步骤S312:选择最上方的一条水平线和最下方的一条水平线分别为分割非表格区域和表格区域的起始基准线和终止基准线;
[0032]步骤S313:在起始基准线上方截取紧邻的一行文字行,在终止基准线下方截取紧邻的一行文字行,对文字行进行文本检测和文本识别,得到文字行的内容;
[0033]步骤S314:将识别出的起始基准线上方文字行的内容与收集的报表术语词数据库的条目进行比对,若不在数据库中,则起始基准线即为分割表格区域和非表格区域的起始水平线;若在数据库中,则起始水平线位置由起始基准线位置减去该文字行的高度得到;同样,将识别出的终止基准线下方文字行的内容与收集的报表术语词数据库的条目进行比对,若不在数据库中,则终止基准线即为分割表格区域和非表格区域的终止水平线;若在数据库中,则终止水平线位置由终止基准线位置加上该文字行的高度得到;
[0034]步骤S315:起始水平线和终止水平线之间的区域为表格区域,表格区域外为非表格区域。
[0035]作为一种优选的技术方案,所述步骤S32中,使用ECFEA方法提取单元格字符图像的具体流程如下:
[0036]步骤S321:PR过程提取的单元格图像;
[0037]步骤S322:MRCCC提取;
[0038]步骤S323:去除MRCCC边框线;
[0039]步骤S324:断裂笔画修复;
[0040]步骤S325:得到完整的单元格字符图像。
[0041]作为一种优选的技术方案,所述步骤S34中,文本识别采用DenseNet 模型生成报表领域特殊训练样本并训练模型,切分出的每一个精确的文本区域子图进行文字内容识别;所述报表领域特殊训练样本包含中文、英文、数字、特殊符号。
[0042]本专利技术具有以下有益效果:
[0043]本专利技术通过对纸质报表进行扫描,获取MBP图像进行识别处理,并将识别结果进行排版整合生成电子报表,提高报表录入效率,减少报表出错概率。
[0044]当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
[0045]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0046]图1为本专利技术的一种基于智能识别的报表分析方法流程图。
具体实施方式
[0047]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于智能识别的报表分析方法,其特征在于,包括如下步骤:步骤S1:对纸质报表进行扫描,作为系统输入来源;步骤S2:对扫描而成的BMP图像进行数字图像处理,获取文本区域;步骤S3:对处理后的文本区域进行信息提取;步骤S4:对提取出来的信息进行分析和匹配;步骤S5:将表格区域和非表格区域的文本识别内容进行排版整合,输出报表信息。2.根据权利要求1所述的一种基于智能识别的报表分析方法,其特征在于,所述步骤S2中,对BMP图像进行数字图像处理包括图像二值化处理、图像倾斜矫正处理和图像降噪处理。3.根据权利要求2所述的一种基于智能识别的报表分析方法,其特征在于,所述二值化处理用于将一多个灰度级的图像转换为仅有两个灰度级的图像,具体操作如下:对BMP图像进行A/D转换后的字符图像点阵为:C=(f(i,j)),其中,i=1,2,...,p;j=1,2,...,q;式中,f(i,j)是像素(i,j)的灰度值;设置f(i,j)的阀值T,当:4.根据权利要求2所述的一种基于智能识别的报表分析方法,其特征在于,所述图像倾斜矫正处理用于对BMP图像进行文本检测,识别出BMP图像中的文本区域,并将文本区域的框体竖直放置,具体倾斜矫正的公式如下:式中,(i,j)表示BMP图像像素点的原始坐标,(i

,j

)表示经过倾斜矫正后的BMP图像像素点的坐标。5.根据权利要求1所述的一种基于智能识别的报表分析方法,其特征在于,所述图像降噪处理用于对处理后的图像进行形态学处理,消除单个字周围毛刺,减少单个字内的空白,使每个字符成为紧凑的字团。6.根据权利要求1所述的一种基于智能识别的报表分析方法,其特征在于,所述步骤S3中,文本区域进行信息提取的流程如下:步骤S31:表格单元格提取;步骤S32:使用ECFEA方法提取单元格字符图像;步骤S33:字符图像去噪;步骤S34:对字符进行特征提取。7...

【专利技术属性】
技术研发人员:严峻孟祥磊侯颖吴思明
申请(专利权)人:武汉佰思特信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1