表格处理方法、装置、系统及存储介质制造方法及图纸

技术编号:38364705 阅读:8 留言:0更新日期:2023-08-05 17:32
本申请提供一种表格处理方法、装置、系统及存储介质,涉及人工智能领域。该方法包括:获取源表格图像;采用直方图统计法提取源表格图像中的表格区域,得到预提取的表格区域;检测预提取的表格区域中是否存在目标属性,并根据检测结果从预提取的表格区域中筛选出目标表格区域;对目标表格区域中的文字部分进行定位,得到文字定位的表格图像。本申请的方法,实现了对表格的准确识别。现了对表格的准确识别。现了对表格的准确识别。

【技术实现步骤摘要】
表格处理方法、装置、系统及存储介质


[0001]本申请涉及人工智能领域,尤其涉及一种表格处理方法、装置、系统及存储介质。

技术介绍

[0002]表格数据数量庞大,对表格数据的数字化保存显得尤为重要,对表格图像的处理是对表格数据的数字化保存的重要前提。
[0003]目前现有技术中,对表格图像的处理主要针对表格框线完整、连续,横纵向框线又交界点的规则表格,采用分割法对表格进行分割,使用传统相加表格或表内文字定位的方式对表格中的文字进行定位处理。
[0004]然而,专利技术人发现至少存在以下技术问题:对于框线残缺等非规则表格的图像,现有技术在处理过程中鲁棒性欠佳,准确率不高。

技术实现思路

[0005]本申请提供一种表格处理方法、装置、系统及存储介质,用以解决无法对非规则表格进行准确处理的问题。
[0006]第一方面,本申请提供一种表格处理方法,包括:
[0007]获取源表格图像;
[0008]采用直方图统计法提取源表格图像中的表格区域,得到预提取的表格区域;
[0009]检测预提取的表格区域中是否存在目标属性,并根据检测结果从预提取的表格区域中筛选出目标表格区域;
[0010]对目标表格区域中的文字部分进行定位,得到文字定位的表格图像
[0011]在一种可能的设计中,采用直方图统计法提取源表格图像中的表格区域,得到预提取的表格区域,包括:对源表格图像进行灰度二值化处理,得到灰度二值化处理后的图像;对灰度二值化处理后的图像进行纵向直方图统计处理,得到纵向直方图统计处理后的图像;对纵向直方图统计处理后的图像进行最小外界矩形检测,确定表格区域的横向边界;对灰度二值化处理后的图像进行横向直方图统计处理,得到横向直方图统计处理后的图像;对横向直方图统计处理后的图像进行最小外接矩形检测,确定表格区域的纵向边界;根据横向边界和纵向边界,确定表格区域的矩形;根据预定义的第一筛选规则对表格区域的矩形进行筛选,得到筛选后的表格区域的矩形;基于筛选后的表格区域的矩形从源表格图像中,提取得到预提取的表格区域。
[0012]在一种可能的设计中,在对灰度二值化处理后的图像进行横向直方图统计处理,得到横向直方图统计处理后的图像之后,还包括:通过预定义的第一膨胀核对横向直方图统计处理后的图像进行横向膨胀处理,得到横向膨胀处理后的图像;相应地,对横向直方图统计处理后的图像进行最小外接矩形检测,确定表格区域的纵向边界,包括:对横向膨胀处理后的图像进行最小外接矩形检测,确定表格区域的纵向边界。
[0013]在一种可能的设计中,其中目标属性为横向直线;相应的,检测预提取的表格区域
中是否存在目标属性,并根据检测结果从预提取的表格区域中筛选出目标表格区域,包括:对预提取的表格区域进行灰度二值化,得到灰度二值化的预提取的表格区域;采用形态学方法,提取灰度二值化的预提取的表格区域中的横向线段;采用直线提取算法,将横向线段重构成为横向直线;检测每个预提取的表格区域中是否存在横向直线,得到检测结果;将检测结果为是的所有预提取的表格区域,确定为目标表格区域。
[0014]在一种可能的设计中,对目标表格区域中的文字部分进行定位,得到文字定位的表格图像,包括:对目标表格区域进行灰度化处理,得到灰度化处理后的目标表格区域;对灰度化处理后的目标表格区域进行边缘检测,得到边缘检测后的目标表格区域;对边缘检测后的目标表格区域进行二值化,得到二值化的目标表格区域;对二值化的目标表格区域进行腐蚀处理,去除二值化的目标表格区域中的竖直线得到剔除竖直线后的目标表格区域;根据预定义的第二膨胀核和腐蚀核对剔除竖直线后的目标表格区域进行处理,得到腐蚀处理后的目标表格区域;根据预定义的第三膨胀核对腐蚀处理后的目标表格区域再次进行膨胀处理,得到膨胀处理后的目标表格区域;查找膨胀处理后的目标表格区域中的矩形轮廓,对文字进行定位;根据预定义的第二筛选规则对矩形轮廓进行筛选;从目标表格区域中提取含有筛选后矩形轮廓的区域,得到文字定位的表格图像。
[0015]在一种可能的设计中,在对目标表格区域中的文字部分进行定位,得到文字定位的表格图像之后,还包括:识别表格图像中的文字,并根据文字生成电子表格。
[0016]第二方面,本申请提供一种表格处理装置,包括:
[0017]获取模块,用于获取源表格图像;
[0018]预提取模块,用于采用直方图统计法提取源表格图像中的表格区域,得到预提取的表格区域;
[0019]筛选模块,用于检测预提取的表格区域中是否存在目标属性,并根据检测结果从预提取的表格区域中筛选出目标表格区域;
[0020]定位模块,用于对目标表格区域中的文字部分进行定位,得到文字定位的表格图像。
[0021]在一种可能的设计中,预提取模块具体用于:对源表格图像进行灰度二值化处理,得到灰度二值化处理后的图像;对灰度二值化处理后的图像进行纵向直方图统计处理,得到纵向直方图统计处理后的图像;对纵向直方图统计处理后的图像进行最小外界矩形检测,确定表格区域的横向边界;对灰度二值化处理后的图像进行横向直方图统计处理,得到横向直方图统计处理后的图像;对横向直方图统计处理后的图像进行最小外接矩形检测,确定表格区域的纵向边界;根据横向边界和纵向边界,确定表格区域的矩形;根据预定义的第一筛选规则对表格区域的矩形进行筛选,得到筛选后的表格区域的矩形;基于筛选后的表格区域的矩形从源表格图像中,提取得到预提取的表格区域。
[0022]在一种可能的设计中,定位模块具体用于:对目标表格区域进行灰度化处理,得到灰度化处理后的目标表格区域;对灰度化处理后的目标表格区域进行边缘检测,得到边缘检测后的目标表格区域;对边缘检测后的目标表格区域进行二值化,得到二值化的目标表格区域;对二值化的目标表格区域进行腐蚀处理,去除二值化的目标表格区域中的竖直线得到剔除竖直线后的目标表格区域;根据预定义的第二膨胀核和腐蚀核对剔除竖直线后的目标表格区域进行处理,得到腐蚀处理后的目标表格区域;根据预定义的第三膨胀核对腐
蚀处理后的目标表格区域再次进行膨胀处理,得到膨胀处理后的目标表格区域;查找膨胀处理后的目标表格区域中的矩形轮廓,对文字进行定位;根据预定义的第二筛选规则对矩形轮廓进行筛选;从目标表格区域中提取含有筛选后矩形轮廓的区域,得到文字定位的表格图像。
[0023]第三方面,本申请提供表格处理系统,包括:
[0024]摄像机,用于采集源表格图像;
[0025]服务器包括:至少一个处理器和存储器;存储器存储计算机执行指令;处理器执行存储器存储的计算机执行指令,使得至少一个处理器执行如上第一方面以及第一方面各种可能的设计的表格处理方法。
[0026]第四方面,本申请提供一种计算机存储介质,计算机存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计的表格处理方法。
[0027]第五方面,本申请实施例提供一种计算机程序产品,包括计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格处理方法,其特征在于,包括:获取源表格图像;采用直方图统计法提取所述源表格图像中的表格区域,得到预提取的表格区域;检测所述预提取的表格区域中是否存在目标属性,并根据检测结果从所述预提取的表格区域中筛选出目标表格区域;对所述目标表格区域中的文字部分进行定位,得到文字定位的表格图像。2.根据权利要求1所述的方法,其特征在于,所述采用直方图统计法提取所述源表格图像中的表格区域,得到预提取的表格区域,包括:对所述源表格图像进行灰度二值化处理,得到灰度二值化处理后的图像;对所述灰度二值化处理后的图像进行纵向直方图统计处理,得到纵向直方图统计处理后的图像;对所述纵向直方图统计处理后的图像进行最小外界矩形检测,确定表格区域的横向边界;对所述灰度二值化处理后的图像进行横向直方图统计处理,得到横向直方图统计处理后的图像;对所述横向直方图统计处理后的图像进行最小外接矩形检测,确定表格区域的纵向边界;根据所述横向边界和所述纵向边界,确定表格区域的矩形;根据预定义的第一筛选规则对所述表格区域的矩形进行筛选,得到筛选后的表格区域的矩形;基于所述筛选后的表格区域的矩形从所述源表格图像中,提取得到预提取的表格区域。3.根据权利要求2所述的方法,其特征在于,在所述对所述灰度二值化处理后的图像进行横向直方图统计处理,得到横向直方图统计处理后的图像之后,还包括:通过预定义的第一膨胀核对横向直方图统计处理后的图像进行横向膨胀处理,得到横向膨胀处理后的图像;相应地,所述对所述横向直方图统计处理后的图像进行最小外接矩形检测,确定表格区域的纵向边界,包括:对所述横向膨胀处理后的图像进行最小外接矩形检测,确定表格区域的纵向边界。4.根据权利要求1所述的方法,其特征在于,其中所述目标属性为横向直线;相应的,所述检测所述预提取的表格区域中是否存在目标属性,并根据检测结果从所述预提取的表格区域中筛选出目标表格区域,包括:对所述预提取的表格区域进行灰度二值化,得到灰度二值化的预提取的表格区域;采用形态学方法,提取所述灰度二值化的预提取的表格区域中的横向线段;采用直线提取算法,将所述横向线段重构成为横向直线;检测每个预提取的表格区域中是否存在横向直线,得到检测结果;将检测结果为是的所有预提取的表格区域,确定为目标表格区域。5.根据权利要求1所述的方法,其特征在于,所述对所述目标表格区域中的文字部分进行定位,得到文字定位的表格图像,包括:
对所述目标表格区域进行灰度化处理,得到灰度化处理后的目标表格区域;对所述灰度化处理后的目标表格区域进行边缘检测,得到边缘检测后的目标表格区域;对所述边缘检测后的目标表格区域进行二值化,得到二值化的目标表格区域;对所述二值化的目标表格区域进行腐蚀处理,去除所述二值化的目标表格区域中的竖直线得到剔除竖直线后的目标表格区域;根据预定义的第二膨胀核和腐蚀核对所述剔除竖直线后的目标表格区域进行处理,得到腐蚀处理后的目标表格区域;根据预定义的第三膨胀核对所述腐蚀处理后的目标表格区域再次进行膨胀处理,得到膨胀处理后的目标表格区域;查找所述膨胀处理后的目标表格区域中的矩形轮廓,对文字进行定位...

【专利技术属性】
技术研发人员:李超陈永录李变刘斐
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1