一种用于财务报表的弯曲表格线的检测方法技术

技术编号:21141704 阅读:24 留言:0更新日期:2019-05-18 05:20
本发明专利技术公开了一种用于财务报表的弯曲表格线的检测方法,包括:获取表格图像并进行图像预处理;获取实际字符高度并缩放处理;去除红章;卷积处理增强表格水平线和竖直线;自适应二值化处理获得二值化图像;过滤掉非表格线干扰;采用爬形虫算法对水平线和竖直线进行补全和干扰剔除处理,横竖线图相加获得表格图像,并根据表格相交特征修正表格图像以及弯曲表格线校正和字符识别,重构表格。本发明专利技术通过重构表格,并提取表格内的关键信息,以解决弯曲表格的表格线定位问题,满足财务报表到标准表格的映射、保存和校验。

A Method for Detecting Curved Form Lines in Financial Statements

【技术实现步骤摘要】
一种用于财务报表的弯曲表格线的检测方法
本专利技术涉及财务报表的表格线识别
,特别涉及一种用于财务报表的弯曲表格线的检测方法。
技术介绍
随着社会经济的发展和中国城镇化的推进,越来越多的人进入城市就业,越来越多的公司诞生;同时随着互联网技术的发展,电子交易,数字交易已经普及;对于公司、银行、证卷交易所产生越来越多的财务表格单据及信息。传统的财务报表统计、校对、审计都全靠人工进行;速度慢、效率底,很难满足越来越多的表格单据信息的识别、入库及校对。如何快速准确的对财务等表格单据进行智能识别、核对,同时减少人工成本,是急需解决的问题;特别时各种应用向移动端转移,以便更加灵活、便利。而其中表格线检测的完整性、准确性,对于表格重建及表格的识别有着重要的作用,而移动端用户拍摄的场景各异、条件差,导致上传表格存在各种噪声、弯曲、形変、光照不足或过强等,如何解决此类表格线的定位,特别是弯曲表格的定位,直接影响着该应用的适用范围、准确度、灵活度、便利性。
技术实现思路
本专利技术的目的是:提出一种用于财务报表的弯曲表格线的检测方法,重构表格,并提取表格内的关键信息,以解决弯曲表格的表格线定位问题,满足财务报表到标准表格的映射、保存和校验。本专利技术解决其技术问题所采用的技术方案是:一种用于财务报表的弯曲表格线的检测方法,包括如下步骤:S1、通过拍摄或扫描财务报表获得表格图像,并进行图像预处理;S2、采用霍夫直线检测所述表格图像的倾斜度,并计算出实际字符高度,运用放射变换校正所述表格图像,并依据实际字符高度对所述表格图像进行自适应缩放处理;S3、调用红章去除算法,去除所述表格图像中的红章干扰,并保留原有的印刷信息;S4、对去除红章后的表格图像进行灰度化处理,得到单通道的灰度图像M4,再分别采用横线卷积核和竖线卷积核对其进行卷积处理,以达到增强财务表格水平线和竖直线的目的;S5、对增强后的水平线和竖直线图像分别进行自适应二值化处理,获得二值化图像;S6、用数学形态学的方法对所述二值化图像中的横线和竖线进行检测,进而过滤掉非表格线干扰;S7、采用爬行虫行进的方式对表格线进行补全及干扰剔除;S8、重构表格线,并进行弯曲校正和字符识别;S9、依据标准映射表,重构表格,并进行校验和统计。进一步,所述步骤S1中图像预处理的具体步骤包括:图像缩放处理、灰度化处理、图像增强处理和自适应二值化处理。进一步,所述步骤S2中的实际字符高度的具体获取步骤如下:在自适应二值化处理得到的二值化图像上进行连通域查找,并剔除非字符连通域;对获取的字符连通域分别计算出其外接矩形框的高度和宽度的最大值的平均值,并将其作为字符高度,然后根据所述图像预处理中的图像缩放比例,反算出实际字符高度。进一步,所述步骤S2中放射变换校正表格图像的具体步骤如下:S21、采用Sobel边缘检测算法对二值化后的表格图像进行边缘提取;S22、采用Hough直线检测算法获得表格水平边缘与垂直边缘倾斜角度;S23、根据所述水平及垂直边缘倾斜角度进行放射变换,获取校正后的表格图像。进一步,所述步骤S2中自适应缩放处理的步骤包括:根据实际字符高度,判断表格图像是否可以缩放,若实际字符高度大于28像素,则将所述表格图像缩放至20像素,若实际字符高度小于28像素,则将所述表格图像设置为20像素,得到缩放图像M2。进一步,所述步骤S3中调用红章去除算法去除红章的具体步骤如下:S31、获取所述缩放图像M2的自适应二值图像B1,通过自适应二值图像B1及缩放图像M2来获取背景平均灰度值、目标平均灰度及最大灰度值;所述自适应二值图像B1的目标为字符及表格线,其它情况视为背景;S32、将所述缩放图像M2转换为HSV图像H,由于红章变红,其中r通道最大,而目标像素r、g、b相差不大且值相对小,对所述图像H进行如下遍历检测:a、当该点h<20或h>160,并且s>30,v>30,(b+g+r)>200,abs(b-g)+abs(b-r)+abs(g-r)>120判断此点为红色;b、针对该点分别向上下左右四个方向,遍历15个像素点;上下用来解决竖直线与红章重合,左右用来解决水平线与红章重合;对遍历到的像素点统计其(r+g+b)的平均值得ave_hori,ave_ver;c、当ave_hori或者ave_ver小于平均背景值时,说明当前点为目标像素点与红章重合区域点,不进行去除;否则将该点进行去除,填充为渐变背景色。进一步,所述步骤S4中增强财务表格水平线和竖直线的步骤如下:S41、构造水平线结构元素和竖直线结构元素;S42、对于水平线,其卷积核高度为1,宽度为(3*h)/2*2+1;S43、对于竖直线,设置卷积核为宽度为1,高度为h。进一步,所述步骤S7的具体步骤包括:水平线提取和竖直线提取;其中,所述水平线提取的方法是:S71:在获得的初步表格水平线中,针对每条获取的水平直线连通域信息,结合所述灰度图像M4进行放虫操作,当其在沿着水平直线连通域爬行过程中,完成对水平线信息的提取、记录、更新;爬行虫尾端部分用于保存水平线的特征信息,头部端用于搜索,中间端为搜索跨越步长;S72:爬行虫提取的直线特征包括:线宽、线的边界点、中心点和局部范围内的斜率;依据线在灰度图像上是渐变的特点,缓慢的向前移动;尾部设定为2倍字符高度,头部设定为2倍字符高度,每次跨越步长设定为1个字符高度;依据线宽基本一致的特征对爬行过程中与表格线形成的较粗区域进行精确定位,同时对于局部断裂情况进行补全;当检测到爬到尽头时则停止前进;S73:由于实际中直线特征与表格线及干扰有明显的差别,当爬行虫行进过程中,发现该条行进路线为噪声或字符区域时,则直接剔除;所述竖直线提取的方法与所述水平线提取的方法相同。进一步,所述步骤S8的具体步骤包括:S81:对上一步骤中获取的水平及竖直表格线进行严格的筛选、过滤,获取精确的表格线mask信息图;S82、把处理好的表格水平线图和竖直线图相加重建表格线图像,表格水平和竖线相交,会有九种相交特征,根据这九种相交特征对表格线图像进行修正处理;S83、检测重建表格线图像的各个交点,并获取每个单元格的四个坐标点,基于每个单元格对应的mask信息图提取图像,同时进行自适应的弯曲矫正,将弯曲单元格修正为相对较直的单元格;S84、采用基于深度学习模型的LSTM+CTC方法对字符进行识别。本专利技术的有益效果是:本专利技术主要应用于财务报表弯曲表格的表格线检测,其保证了表格线提取的完整性及与原图的一致性,使用于正常图像,表格弯曲、局部断裂、噪声干扰情况下表格新的定位检测;从而可以识别移动设备(如手机、Pad)拍摄上传的图片,并且同时支持扫描仪设备扫描的图像;保证了表格重建的准确性,进而保证了识别的准确率;将财务报表识别应用扩展到移动端,极大的扩展了其应用空间,可以更灵活、高效的完成财务报表的识别、保存、校验。附图说明图1是本专利技术处理流程示意图。图2是表格线九种相交特征示意图。图3是表格线修复示意图。具体实施方式以下结合附图。对本专利技术做进一步说明。本专利技术的处理流程如图1所示,首先,通过拍摄或扫描财务报表获得表格图像,并进行图像预处理。其中,具体的图像预处理步骤包括:图像缩放处理、灰度化处理、图像增本文档来自技高网...

【技术保护点】
1.一种用于财务报表的弯曲表格线的检测方法,其特征在于,包括如下步骤:S1、通过拍摄或扫描财务报表获得表格图像,并进行图像预处理;S2、采用霍夫直线检测所述表格图像的倾斜度,并计算出实际字符高度,运用放射变换校正所述表格图像,并依据实际字符高度对所述表格图像进行自适应缩放处理;S3、调用红章去除算法,去除所述表格图像中的红章干扰,并保留原有的印刷信息;S4、对去除红章后的表格图像进行灰度化处理,得到单通道的灰度图像M4,再分别采用横线卷积核和竖线卷积核对其进行卷积处理,以达到增强财务表格水平线和竖直线的目的;S5、对增强后的水平线和竖直线图像分别进行自适应二值化处理,获得二值化图像;S6、用数学形态学的方法对所述二值化图像中的横线和竖线进行检测,进而过滤掉非表格线干扰;S7、采用爬行虫行进的方式对表格线进行补全及干扰剔除;S8、重构表格线,并进行弯曲校正和字符识别;S9、依据标准映射表,重构表格,并进行校验和统计。

【技术特征摘要】
1.一种用于财务报表的弯曲表格线的检测方法,其特征在于,包括如下步骤:S1、通过拍摄或扫描财务报表获得表格图像,并进行图像预处理;S2、采用霍夫直线检测所述表格图像的倾斜度,并计算出实际字符高度,运用放射变换校正所述表格图像,并依据实际字符高度对所述表格图像进行自适应缩放处理;S3、调用红章去除算法,去除所述表格图像中的红章干扰,并保留原有的印刷信息;S4、对去除红章后的表格图像进行灰度化处理,得到单通道的灰度图像M4,再分别采用横线卷积核和竖线卷积核对其进行卷积处理,以达到增强财务表格水平线和竖直线的目的;S5、对增强后的水平线和竖直线图像分别进行自适应二值化处理,获得二值化图像;S6、用数学形态学的方法对所述二值化图像中的横线和竖线进行检测,进而过滤掉非表格线干扰;S7、采用爬行虫行进的方式对表格线进行补全及干扰剔除;S8、重构表格线,并进行弯曲校正和字符识别;S9、依据标准映射表,重构表格,并进行校验和统计。2.如权利要求1所述的一种用于财务报表的弯曲表格线的检测方法,其特征在于,所述步骤S1中图像预处理的具体步骤包括:图像缩放处理、灰度化处理、图像增强处理和自适应二值化处理。3.如权利要求1所述的一种用于财务报表的弯曲表格线的检测方法,其特征在于,所述步骤S2中的实际字符高度的具体获取步骤如下:在自适应二值化处理得到的二值化图像上进行连通域查找,并剔除非字符连通域;对获取的字符连通域分别计算出其外接矩形框的高度和宽度的最大值的平均值,并将其作为字符高度,然后根据所述图像预处理中的图像缩放比例,反算出实际字符高度。4.如权利要求1所述的一种用于财务报表的弯曲表格线的检测方法,其特征在于,所述步骤S2中放射变换校正表格图像的具体步骤如下:S21、采用Sobel边缘检测算法对二值化后的表格图像进行边缘提取;S22、采用Hough直线检测算法获得表格水平边缘与垂直边缘倾斜角度;S23、根据所述水平及垂直边缘倾斜角度进行放射变换,获取校正后的表格图像。5.如权利要求1所述的一种用于财务报表的弯曲表格线的检测方法,其特征在于,所述步骤S2中自适应缩放处理的步骤包括:根据实际字符高度,判断表格图像是否可以缩放,若实际字符高度大于28像素,则将所述表格图像缩放至20像素,若实际字符高度小于28像素,则将所述表格图像设置为20像素,得到缩放图像M2。6.如权利要求5所述的一种用于财务报表的弯曲表格线的检测方法,其特征在于,所述步骤S3中调用红章去除算法去除红章的具体步骤如下:S31、获取所述缩放图像M2的自适应二值图像B1,通过自适应二值图像B1及缩放图像M2来获取背景平均灰度值、目标平均灰度及最大灰度值;所述自适应二值图像B1的目标为字符及表格线,其它情况视为背景;S32、将所述缩放图像M2转换为HSV图像H,由于红章变红,其中r通道最大,而目标...

【专利技术属性】
技术研发人员:周康明
申请(专利权)人:上海眼控科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1