【技术实现步骤摘要】
单据图像的表格识别方法、装置、电子设备及存储介质
[0001]本专利技术涉及单据图像的表格识别
,尤其是涉及一种单据图像的表格识别方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]在信息化的时代,为了便于信息管理,企业通过销售系统来统计销售数据。然而,目前仍有大量销售信息并不是以电子形式传输,而仍是以纸质作为媒介进行传递,如销售出库单等等单据。这类纸媒单据,需要通过人工录入系统,但人工录入效率低且出错率高。
[0003]随着图像处理技术的发展,目前可通过光学字符识别(Optical Character Recognition,OCR)技术来对单据图像中文本数据进行识别提取,提取时,首先对表格图像中的表格顶点进行识别,以确定单据表格,根据识别到的表格顶点来分割或合并表格图像中的文本数据,以得到有效文本数据。
[0004]然而,当前的OCR技术的数据提取完整度非常依赖于处理对象的图像质量,而实际的单据常常出现残缺或者污染的情况,导致难以提取到完整的表格顶点,从而无法提取到准确的单据数据。r/>
技术实现思路
<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种单据图像的表格识别方法,其特征在于,包括如下步骤:获取待识别的单据图像,并对所述单据图像进行预处理;对所述单据图像进行顶点识别,得到初始顶点集合;遍历所述初始顶点集合中所有顶点的第一坐标,将所述第一坐标差值小于第一阈值的顶点进行集合,得到若干第一顶点集合;针对每一所述第一顶点集合,与在所述单据图像上固定一侧相邻的另一所述第一顶点集合根据第二坐标进行合并,得到更新的第一顶点集合;遍历所有所述更新的第一顶点集合中所有顶点的所述第二坐标,将所述第二坐标差值小于第二阈值的顶点进行集合,得到若干第二顶点集合;针对每一所述第二顶点集合,与在所述单据图像上固定一侧相邻的另一所述第二顶点集合根据所述第一坐标进行合并,得到更新的第二顶点集合,确定所有所述更新的第二顶点集合中所有顶点为最终顶点集合。2.根据权利要求1所述的方法,其特征在于,对所述单据图像进行预处理,包括步骤:对所述单据图像进行清晰度检测,若所述清晰度小于预设值,则重新获取包含所述单据图像中单据的单据图像。3.根据权利要求1所述的方法,其特征在于,对所述单据图像进行预处理,包括步骤:对所述单据图像进行边框检测,并计算检测到的所有边框与所述单据图像竖直方向上的夹角,获取其中最大夹角和最小夹角以外的所有夹角的平均值,以所述平均值对所述单据图像进行旋转。4.根据权利要求1所述的方法,其特征在于,对所述单据图像进行预处理,包括步骤:对所述单据图像进行黑白化处理,并进行开运算后检测所述单据图像中的最大边框,基于所述最大边框对所述单据图像进行裁剪。5.一种单据图像的表格识别装置,其特征在于,包括:图像预处理模块,用于获取待识别的单据图像,并对所述单据图像进行预处理;初步识别模块,用于对所述单据图像进行顶点识别,得到初始顶点集合;第一顶点集合模块,用于遍历所述初始顶点集合中所有顶点的第一坐标,将所述第一坐...
【专利技术属性】
技术研发人员:谢方敏,周峰,郭陟,伍世志,李志权,
申请(专利权)人:广州方舟信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。