一种基于特定业务特征对表格图片结构化的方法和系统技术方案

技术编号:37581633 阅读:18 留言:0更新日期:2023-05-15 07:56
本发明专利技术提供了一种基于特定业务特征对表格图片结构化的方法和系统,包括:将待解析表格图片输入至预设的表格特征自学习方法中,得到所述待解析表格图片对应的表格特征;基于所述表格特征与所述待解析表格图片对应的表格交点值绘制表格线,得到新的横纵线,并基于所述横纵线,对所述待解析表格图片重新解析,得到结构化表格。本发明专利技术通过业务特征自学习的方法与基于业务特征对表格图片横纵线重画的方式,提升表格图片解析结构化的效率和准确率。提升表格图片解析结构化的效率和准确率。提升表格图片解析结构化的效率和准确率。

【技术实现步骤摘要】
一种基于特定业务特征对表格图片结构化的方法和系统


[0001]本专利技术属于图像数据处理
,具体涉及一种基于特定业务特征对表格图片结构化的方法和系统。

技术介绍

[0002]在债券融资领域中,对于债券发行,都会要求提供财务报表说明。例如一些专项债券发行时,发行机构会要求申请方提供项目募投报告,在报告中要求提供每种业务类别样式基本一致的数据表,例如项目资金筹措情况表、成本测算明细表、项目投资估算表等,这些数据表对于分析该债券的各项经济指标有较大价值。但是为了安全和防伪等考虑,这些募投报告文件都是扫描件的格式,其中的数据表都是表格图片的形式。这些表格图片进行结构化解析的应用进一步扩大。但是,在这些表格图片中,有些表格图片各单元格数据间距太近或者数据表格内换行等情况,使得识别横纵线错误,导致表格变形,从而降低表格图片结构化解析的准确度。如图1所示,原始表格图片样例中圈出的部分,由于单元格内数据间距太小及单元格内数据换行等情况。如图2所示,现有表格图片结构化解析软件解析结果中可以看到识别时,造成了表格解析不准确的情况。

技术实现思路

[0003]为克服上述现有技术的不足,本专利技术提出一种基于特定业务特征对表格图片结构化的方法,包括:
[0004]将待解析表格图片输入至预设的表格特征自学习方法中,得到所述待解析表格图片对应的表格特征;
[0005]基于所述表格特征与所述待解析表格图片对应的表格交点值绘制表格线,得到新的横纵线,并基于所述横纵线,对所述待解析表格图片重新解析,得到结构化表格
[0006]优选的,所述将待解析表格图片输入至预设的表格特征自学习方法中,得到所述待解析表格图片对应的表格特征,包括:
[0007]通过OPEN

CV与OCR方法提取待解析表格图片对应的表格标题,判断所述表格标题是否存在,若是,则提取表格数据;否则,则进行表格分类处理;
[0008]判断所述表格数据是否存在于预设的特征存储表中,若是,则确定所述表格数据在特征表中对应的特征权重值,并增加预设值;否则,则将表格数据作为新数据插入所述特征存储表,并将所述表格数据对应的特征权重值设置为预设的初始值;
[0009]根据所述表格标题,确定特征权重值最大的表头行数和表格纵线数作为所述待解析表格图片的表格特征;
[0010]其中,所述表格数据包括:表格标题、表头行数和表格纵线数。
[0011]优选的,所述表格分类处理包括:
[0012]基于提取待解析表格图片的中文内容,利用预设的分类算法对表格分类,得到表格类别和对应的表格数据。
[0013]优选的,所述基于所述表格特征与所述待解析表格图片对应的表格交点值绘制表格线,得到新的横纵线,并基于所述横纵线,对所述待解析表格图片重新解析,得到结构化表格,包括:
[0014]基于表格标题和待解析的表格图片在预设的表模板库中确定对应的模板表格,得到表头行数和表纵线数的特征值;
[0015]通过对所述待解析的表格图片进行二值化和膨胀腐蚀处理,得到所述待解析的表格图片对应的表格交点值,并将所述表格交点值存储为列表;
[0016]根据所述待解析的表格图片中表格交点的位置顺序对所述列表中的表格交点值进行排序,得到排序后的交点矩阵;
[0017]根据所述交点矩阵中与所述表纵线数相等的一行表格交点值,确定横向交点,根据所述交点矩阵中的纵向交点数对所有列进行分组,确定列数最多组的列交点值和对应的纵向交点:
[0018]根据所述横向交点和纵向交点绘制横纵线,得到新表格;
[0019]基于所述新表格和新表格单元格的交点值,截取并识别所述待解析的表格图片中的表格内容,根据所述表格内容、表头行数和新表格,生成结构化表格。
[0020]优选的,所述根据所述待解析的表格图片中表格交点的位置顺序对所述列表中的表格交点值进行排序,得到排序后的交点矩阵,包括:
[0021]建立预设的初始矩阵,从所述列表第一个表格交点值开始,并遍历所述列表中每个表格交点值;
[0022]将遍历的表格交点值依次填入所述初始矩阵,得到排序后的交点矩阵。
[0023]优选的,所述将遍历的表格交点值依次填入所述初始矩阵,得到排序后的交点矩阵,包括以下步骤:
[0024]步骤S10:当遍历的目标交点的表格交点值等于预设的第一个表格交点值或者大于上一个交点的表格交点值时,则将所述目标交点放入所述初始矩阵的行中,并跳转到步骤S30;否则,跳转到步骤S20;
[0025]步骤S20:对所述初始矩阵进行换行处理,并跳转到步骤S10;
[0026]步骤S30:判断是否遍历完所有表格交点,若是,则得到交点矩阵;否则,则跳转到步骤S10。
[0027]优选的,所述根据所述交点矩阵中与所述表纵线数相等的一行表格交点值,确定横向交点,根据所述交点矩阵中的纵向交点数对所有列进行分组,确定列数最多组的列交点值和对应的纵向交点,包括:
[0028]遍历交点矩阵每一行的交点值,筛选出所述交点值等于纵线数的所有行和所述所有行中每一个交点值都相同的行,确定所述所有行中的第一行为行交点值,并得到对应的横向交点;
[0029]遍历交点矩阵每一列的交点值,根据采集到的每列交点数,将所述交点数一样的列分为一组,确定数量最多的组中的第一列作为列交点值,并得到对应的纵向交点。
[0030]优选的,所述基于所述新表格和新表格单元格的交点值,截取并识别所述待解析的表格图片中的表格内容,根据所述表格内容、表头行数和新表格,生成结构化表格,包括:
[0031]基于所述新表格确定预设位置点的坐标值;
[0032]根据所述坐标值从待解析表格图片中截取单元格图,并基于OCR算法识别当前单元格图片的单元数据;
[0033]将所述单元数据输入至所述新表格对应的单元格中,得到结构化表格。
[0034]本专利技术还提出一种基于特定业务特征对表格图片结构化的系统,包括:
[0035]特征模块:用于将待解析表格图片输入至预设的表格特征自学习方法中,得到所述待解析表格图片对应的表格特征;
[0036]结构化模块:用于基于所述表格特征与所述待解析表格图片对应的表格交点值绘制表格线,得到新的横纵线,并基于所述横纵线,对所述待解析表格图片重新解析,得到结构化表格。
[0037]优选的,所述特征模块具体用于:
[0038]通过OPEN

CV与OCR方法提取待解析表格图片对应的表格标题,判断所述表格标题是否存在,若是,则提取表格数据;否则,则进行表格分类处理;
[0039]判断所述表格数据是否存在于预设的特征存储表中,若是,则确定所述表格数据在特征表中对应的特征权重值,并增加预设值;否则,则将表格数据作为新数据插入所述特征存储表,并将所述表格数据对应的特征权重值设置为预设的初始值;
[0040]根据所述表格标题,确定特征权重值最大的表头行数和表格本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特定业务特征对表格图片结构化的方法,其特征在于,包括:将待解析表格图片输入至预设的表格特征自学习方法中,得到所述待解析表格图片对应的表格特征;基于所述表格特征与所述待解析表格图片对应的表格交点值绘制表格线,得到新的横纵线,并基于所述横纵线,对所述待解析表格图片重新解析,得到结构化表格。2.如权利要求1所述的方法,其特征在于,所述将待解析表格图片输入至预设的表格特征自学习方法中,得到所述待解析表格图片对应的表格特征,包括:通过OPEN

CV与OCR方法提取待解析表格图片对应的表格标题,判断所述表格标题是否存在,若是,则提取表格数据;否则,则进行表格分类处理;判断所述表格数据是否存在于预设的特征存储表中,若是,则确定所述表格数据在特征表中对应的特征权重值,并增加预设值;否则,则将表格数据作为新数据插入所述特征存储表,并将所述表格数据对应的特征权重值设置为预设的初始值;根据所述表格标题,确定特征权重值最大的表头行数和表格纵线数作为所述待解析表格图片的表格特征;其中,所述表格数据包括:表格标题、表头行数和表格纵线数。3.如权利要求2所述的方法,其特征在于,所述表格分类处理包括:基于提取待解析表格图片的中文内容,利用预设的分类算法对表格分类,得到表格类别和对应的表格数据。4.如权利要求1所述的方法,其特征在于,所述基于所述表格特征与所述待解析表格图片对应的表格交点值绘制表格线,得到新的横纵线,并基于所述横纵线,对所述待解析表格图片重新解析,得到结构化表格,包括:基于表格标题和待解析的表格图片在预设的表模板库中确定对应的模板表格,得到表头行数和表纵线数的特征值;通过对所述待解析的表格图片进行二值化和膨胀腐蚀处理,得到所述待解析的表格图片对应的表格交点值,并将所述表格交点值存储为列表;根据所述待解析的表格图片中表格交点的位置顺序对所述列表中的表格交点值进行排序,得到排序后的交点矩阵;根据所述交点矩阵中与所述表纵线数相等的一行表格交点值,确定横向交点,根据所述交点矩阵中的纵向交点数对所有列进行分组,确定列数最多组的列交点值和对应的纵向交点:根据所述横向交点和纵向交点绘制横纵线,得到新表格;基于所述新表格和新表格单元格的交点值,截取并识别所述待解析的表格图片中的表格内容,根据所述表格内容、表头行数和新表格,生成结构化表格。5.如权利要求4所述的方法,其特征在于,所述根据所述待解析的表格图片中表格交点的位置顺序对所述列表中的表格交点值进行排序,得到排序后的交点矩阵,包括:建立预设的初始矩阵,从所述列表第一个表格交点值开始,并遍历所述列表中每个表格交点值;将遍历的表格交点值依次填入所述初始矩阵,得到排序后的交点矩阵。6.如权利要求5所述的方法,其特征在于,所述将遍历的表格交点值依次填入所述初始
矩阵,得到排序后的交点矩阵,包括以下步骤...

【专利技术属性】
技术研发人员:姬永杰陈思瑾胡杞燚
申请(专利权)人:北京大数元科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1