【技术实现步骤摘要】
一种基于特定业务特征对表格图片结构化的方法和系统
[0001]本专利技术属于图像数据处理
,具体涉及一种基于特定业务特征对表格图片结构化的方法和系统。
技术介绍
[0002]在债券融资领域中,对于债券发行,都会要求提供财务报表说明。例如一些专项债券发行时,发行机构会要求申请方提供项目募投报告,在报告中要求提供每种业务类别样式基本一致的数据表,例如项目资金筹措情况表、成本测算明细表、项目投资估算表等,这些数据表对于分析该债券的各项经济指标有较大价值。但是为了安全和防伪等考虑,这些募投报告文件都是扫描件的格式,其中的数据表都是表格图片的形式。这些表格图片进行结构化解析的应用进一步扩大。但是,在这些表格图片中,有些表格图片各单元格数据间距太近或者数据表格内换行等情况,使得识别横纵线错误,导致表格变形,从而降低表格图片结构化解析的准确度。如图1所示,原始表格图片样例中圈出的部分,由于单元格内数据间距太小及单元格内数据换行等情况。如图2所示,现有表格图片结构化解析软件解析结果中可以看到识别时,造成了表格解析不准确的情况。
技术实现思路
[0003]为克服上述现有技术的不足,本专利技术提出一种基于特定业务特征对表格图片结构化的方法,包括:
[0004]将待解析表格图片输入至预设的表格特征自学习方法中,得到所述待解析表格图片对应的表格特征;
[0005]基于所述表格特征与所述待解析表格图片对应的表格交点值绘制表格线,得到新的横纵线,并基于所述横纵线,对所述待解析表格图片重新解析,得到结构化表格 ...
【技术保护点】
【技术特征摘要】
1.一种基于特定业务特征对表格图片结构化的方法,其特征在于,包括:将待解析表格图片输入至预设的表格特征自学习方法中,得到所述待解析表格图片对应的表格特征;基于所述表格特征与所述待解析表格图片对应的表格交点值绘制表格线,得到新的横纵线,并基于所述横纵线,对所述待解析表格图片重新解析,得到结构化表格。2.如权利要求1所述的方法,其特征在于,所述将待解析表格图片输入至预设的表格特征自学习方法中,得到所述待解析表格图片对应的表格特征,包括:通过OPEN
‑
CV与OCR方法提取待解析表格图片对应的表格标题,判断所述表格标题是否存在,若是,则提取表格数据;否则,则进行表格分类处理;判断所述表格数据是否存在于预设的特征存储表中,若是,则确定所述表格数据在特征表中对应的特征权重值,并增加预设值;否则,则将表格数据作为新数据插入所述特征存储表,并将所述表格数据对应的特征权重值设置为预设的初始值;根据所述表格标题,确定特征权重值最大的表头行数和表格纵线数作为所述待解析表格图片的表格特征;其中,所述表格数据包括:表格标题、表头行数和表格纵线数。3.如权利要求2所述的方法,其特征在于,所述表格分类处理包括:基于提取待解析表格图片的中文内容,利用预设的分类算法对表格分类,得到表格类别和对应的表格数据。4.如权利要求1所述的方法,其特征在于,所述基于所述表格特征与所述待解析表格图片对应的表格交点值绘制表格线,得到新的横纵线,并基于所述横纵线,对所述待解析表格图片重新解析,得到结构化表格,包括:基于表格标题和待解析的表格图片在预设的表模板库中确定对应的模板表格,得到表头行数和表纵线数的特征值;通过对所述待解析的表格图片进行二值化和膨胀腐蚀处理,得到所述待解析的表格图片对应的表格交点值,并将所述表格交点值存储为列表;根据所述待解析的表格图片中表格交点的位置顺序对所述列表中的表格交点值进行排序,得到排序后的交点矩阵;根据所述交点矩阵中与所述表纵线数相等的一行表格交点值,确定横向交点,根据所述交点矩阵中的纵向交点数对所有列进行分组,确定列数最多组的列交点值和对应的纵向交点:根据所述横向交点和纵向交点绘制横纵线,得到新表格;基于所述新表格和新表格单元格的交点值,截取并识别所述待解析的表格图片中的表格内容,根据所述表格内容、表头行数和新表格,生成结构化表格。5.如权利要求4所述的方法,其特征在于,所述根据所述待解析的表格图片中表格交点的位置顺序对所述列表中的表格交点值进行排序,得到排序后的交点矩阵,包括:建立预设的初始矩阵,从所述列表第一个表格交点值开始,并遍历所述列表中每个表格交点值;将遍历的表格交点值依次填入所述初始矩阵,得到排序后的交点矩阵。6.如权利要求5所述的方法,其特征在于,所述将遍历的表格交点值依次填入所述初始
矩阵,得到排序后的交点矩阵,包括以下步骤...
【专利技术属性】
技术研发人员:姬永杰,陈思瑾,胡杞燚,
申请(专利权)人:北京大数元科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。