银行流水表格抽取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:33386080 阅读:62 留言:0更新日期:2022-05-11 23:00
本发明专利技术涉及计算机图像处理技术领域,提供了一种银行流水表格抽取方法、装置、计算机设备和存储介质,所述方法包括:获取银行流水图像,检测所述银行流水图像中的文本区域;合并所述文本区域构建文本行,得到文本行集合;遍历所述文本行集合中的各个文本行,提取流水表头行和流水表体行集合;根据所述流水表头行与所述流水表体行集合中各所述文本区域的距离,对所述流水表体行集合中各所述文本区域进行列划分,确定流水表体列集合;基于表头表体行列一致性,校验更新所述流水表头行和所述流水表体列集合,保存校验更新后的流水表头行和流水表体列集合作为表格抽取结果。采用本方法能够提高银行流水表格抽取的准确性。够提高银行流水表格抽取的准确性。够提高银行流水表格抽取的准确性。

【技术实现步骤摘要】
银行流水表格抽取方法、装置、计算机设备和存储介质


[0001]本专利技术属于计算机图像处理
,尤其涉及一种银行流水表格抽取方法、装置、计算机设备和存储介质。

技术介绍

[0002]企业在进行IPO(Initial Public Offering,公开募股)时,中国银监会通常会要求企业及其董事高管提供近几年内所有的银行流水交易,并要去券商完成企业的银行流水核查,从而用来防止企业存在财务造假等各种潜在的风险问题。
[0003]然而,目前企业银行流水主要是以纸质打印稿为主,业务人员需要手动将银行流水交易记录录入到流水核查系统中,这极大的降低了银行流水录入的效率。并且,由于银行流水表格样式的复杂多变,表格线条缺失问题以及易受印章、污渍等各种因素的干扰,因此采用常规的表格抽取方式并不能处理复杂多样的表格,导致表格抽取准确率降低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高银行流水表格抽取准确性银行流水表格抽取方法、装置、计算机设备和存储介质。
[0005]本专利技术提供一种银行流水表格抽取方法,包括:
[0006]获取银行流水图像,检测所述银行流水图像中的文本区域;
[0007]合并所述文本区域构建文本行,得到文本行集合;
[0008]遍历所述文本行集合中的各个文本行,提取流水表头行和流水表体行集合;
[0009]根据所述流水表头行与所述流水表体行集合中各所述文本区域的距离,对所述流水表体行集合中各所述文本区域进行列划分,确定流水表体列集合;
[0010]基于表头表体行列一致性,校验更新所述流水表头行和所述流水表体列集合,保存校验更新后的流水表头行和流水表体列集合作为表格抽取结果。
[0011]在其中一个实施例中,所述合并所述文本区域构建文本行,得到文本行集合,包括:
[0012]根据所述文本区域的区域位置,计算所述文本区域之间的垂直方向重叠比;
[0013]根据所述垂直方向重叠比确定可合并的文本区域组;
[0014]利用并查集算法对所述文本区域组进行合并处理,得到文本行集合。
[0015]在其中一个实施例中,所述遍历所述文本行集合中的各个文本行,提取流水表头行和流水表体行集合,包括:
[0016]遍历所述文本行集合中文本行的文本区域,将所述文本行的文本区域对应的文本内容与表头文本触发词进行匹配,确定所述文本行的触发词匹配数量;
[0017]根据所述触发词匹配数量,从各所述文本行中确定流水表头行;
[0018]重新遍历所述文本行集合中的非流水表头行,利用流水要素正则表达式分别对各所述非流水表头行流水要素匹配,确定流水要素匹配数量;
[0019]根据所述流水要素匹配数量提取表体行,得到流水表体行集合。
[0020]在其中一个实施例中,所述根据所述流水表头行与所述流水表体行集合中各所述文本区域的距离,对所述流水表体行集合中各所述文本区域进行列划分,确定流水表体列集合,包括:
[0021]根据所述流水表体行中的单元格数量和所述流水表体行集合中的元素数量,构建表体单元格二维数组;
[0022]遍历所述流水表体行集合,确定各流水表体行中各文本区域与所述流水表头行距离最小的表头行位置;
[0023]根据所述表头行位置,将所述流水表体行中各文本区域添加到所述表体单元格二维数组中;
[0024]基于所述表体单元格二维数组中各文本区域之间的水平方向重叠比合并得到流水表体列,得到流水表体列集合。
[0025]在其中一个实施例中,所述确定各流水表体行中各文本区域与所述流水表头行距离最小的表头行位置,包括:
[0026]基于文本区域的中心点坐标和宽,计算所述流水表体行中各文本区域与所述流水表头行中各文本区域的距离;
[0027]比较各所述距离确定最小距离,从所述流水表头行的各文本区域中确定所述最小距离对应的文本区域位置为表头行位置。
[0028]在其中一个实施例中,所述基于表头表体行列一致性,校验更新所述流水表头行和所述流水表体列集合,保存校验更新后的流水表体行和流水表体列集合作为表格抽取结果,包括:
[0029]确定所述流水表体列集合的文本区域总数量以及所述流水表体列集合中各所述流水表体列对应的文本区域数量;
[0030]当所述文本区域数量超过所述文本区域总数量的预设百分比数量时,构建对应所述流水表体列的表头文本块;
[0031]将与所述流水表头行中文本区域的面积重合度小于阈值的所述表头文本块添加到所述流水表头行中,得到更新后的流水表头行;
[0032]基于更新后的流水表头行重新进行列划分,确定更新后的表体列集合;
[0033]保存更新后的流水表体行和流水表体列集合作为表格抽取结果。
[0034]在其中一个实施例中,所述保存更新后的流水表体行和更新后的流水表体列集合作为表格抽取结果,包括:
[0035]构建银行流水单元格二维数组;
[0036]将更新后的流水表体行和更新后的流水表体列集合赋值给所述银行流水单元格二维数组并保存到预设文件中,得到表格抽取结果。
[0037]一种银行流水表格抽取装置,包括:
[0038]检测模块,用于获取银行流水图像,检测所述银行流水图像中的文本区域;
[0039]合并模块,用于合并所述文本区域构建文本行,得到文本行集合;
[0040]提取模块,用于遍历所述文本行集合中的各个文本行,提取流水表头行和流水表体行集合;
[0041]确定模块,用于根据所述流水表头行与所述流水表体行集合中各所述文本区域的距离,对所述流水表体行集合中各所述文本区域进行列划分,确定流水表体列集合;
[0042]校验模块,用于基于表头表体行列一致性,校验更新所述流水表头行和所述流水表体列集合,保存校验更新后的流水表头行和流水表体列集合作为表格抽取结果。
[0043]本专利技术还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储由计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的银行流水表格抽取方法的步骤。
[0044]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的银行流水表格抽取方法的步骤。
[0045]上述银行流水表格抽取方法、装置、计算机设备和存储介质,首先检测银行流水图像的文本区域后合并文本区域构建文本行,得到文本行集合;进而遍历文本行集合中的各个文本行,提取流水表头行和流水表体行集合;再根据流水表头行与流水表体行集合中各文本区域的距离,对流水表体行集合中各文本区域进行列划分,确定流水表体列集合;进一步基于表头表体行列一致性,校验更新流水表头行和流水表体列集合,保存校验更新后的流水表头行和流水表体列集合作为表格抽取结果。该通过行与列本身实现表格中各行各列的抽取和校验更新,充分利用表格行列一致性以及表头和表体对齐性质的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种银行流水表格抽取方法,其特征在于,包括:获取银行流水图像,检测所述银行流水图像中的文本区域;合并所述文本区域构建文本行,得到文本行集合;遍历所述文本行集合中的各个文本行,提取流水表头行和流水表体行集合;根据所述流水表头行与所述流水表体行集合中各所述文本区域的距离,对所述流水表体行集合中各所述文本区域进行列划分,确定流水表体列集合;基于表头表体行列一致性,校验更新所述流水表头行和所述流水表体列集合,保存校验更新后的流水表头行和流水表体列集合作为表格抽取结果。2.根据权利要求1所述的方法,其特征在于,所述合并所述文本区域构建文本行,得到文本行集合,包括:根据所述文本区域的区域位置,计算所述文本区域之间的垂直方向重叠比;根据所述垂直方向重叠比确定可合并的文本区域组;利用并查集算法对所述文本区域组进行合并处理,得到文本行集合。3.根据权利要求1所述的方法,其特征在于,所述遍历所述文本行集合中的各个文本行,提取流水表头行和流水表体行集合,包括:遍历所述文本行集合中文本行的文本区域,将所述文本行的文本区域对应的文本内容与表头文本触发词进行匹配,确定所述文本行的触发词匹配数量;根据所述触发词匹配数量,从各所述文本行中确定流水表头行;重新遍历所述文本行集合中的非流水表头行,利用流水要素正则表达式分别对各所述非流水表头行流水要素匹配,确定流水要素匹配数量;根据所述流水要素匹配数量提取表体行,得到流水表体行集合。4.根据权利要求1所述的方法,其特征在于,所述根据所述流水表头行与所述流水表体行集合中各所述文本区域的距离,对所述流水表体行集合中各所述文本区域进行列划分,确定流水表体列集合,包括:根据所述流水表体行中的单元格数量和所述流水表体行集合中的元素数量,构建表体单元格二维数组;遍历所述流水表体行集合,确定各流水表体行中各文本区域与所述流水表头行距离最小的表头行位置;根据所述表头行位置,将所述流水表体行中各文本区域添加到所述表体单元格二维数组中;基于所述表体单元格二维数组中各文本区域之间的水平方向重叠比合并得到流水表体列,得到流水表体列集合。5.根据权利要求4所述的方法,其特征在于,所述确定各流水表体行中各文本区域与所述流水表头行距离最小的表头行位置,包括:基于文本区域的中心点坐标和宽,计算所述流水表体行中各文本区域与所述...

【专利技术属性】
技术研发人员:郭建京周忠诚索红亮张圣栋黄九鸣
申请(专利权)人:湖南星汉数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1