【技术实现步骤摘要】
端到端的表格还原方法
[0001]本专利技术涉及信息处理
,尤其是涉及一种端到端的表格还原方法。
技术介绍
[0002]在生产和生活过程中,时常需要进行图片表格进行计算机录入,因此,需要将表格图片还原成Excel格式的数据。
[0003]现有技术的表格识别方法大多是基于深度学习目标检测的思路进行。现有技术的表格还原方法大致分为两种,一种是基于深度学习的方案,一种是基于启发式规则的方案。表格还原部分,深度学习方法主要分为两种,第一种是转化为图像分割的任务,将每个单元格作为一个区域进行识别。再根据坐标进行还原。第二种是进行横线以及竖线的识别,通过线的位置还原表格。基于启发式的规则的方案也是通过文本块区域或者匹配到的横线、竖线进行坐标还原。
[0004]然而,无论是哪种方法,都是要通过单元格坐标信息进行还原。因此,对于采用深度学习方法的表格还原需要大量训练数据。对于启发式规则的表格还原方法,缺线表格或者横竖线较偏的图像难以还原成表格。
技术实现思路
[0005]本专利技术的目的在于提供一种端到 ...
【技术保护点】
【技术特征摘要】
1.一种端到端的表格还原方法,其特征在于,包括:输入待处理表格图片所在的文本图片,从所述文本图片中识别出表格图片;对所述表格图片进行倾斜校正;对倾斜校正后的所述表格图片转换为灰度图,从所述灰度图中检测出横线和竖线的像素点集合;判断所述像素点集合中是否具有表格图片的边线,如果所述像素点集合中没有表格图片的边线的像素点,则将边线的像素点补齐到像素点集合中;从所述像素点集合或补齐后的像素点集合中获取横线和竖线的交点;从所述交点中找出单元格;以及从所述表格图片中识别文字并填入所述单元格中。2.如权利要求1所述的端到端的表格还原方法,其特征在于,输入待处理表格图片所在的文本图片,从所述文本图片中识别出表格图片的方法包括:使用标注工具对所述文本图片的内容进行标注;以及使用网络模型对标注后的文本图片进行训练,从而从文本图片中提取出表格图片。3.如权利要求1所述的端到端的表格还原方法,其特征在于,对所述表格图片进行倾斜校正的方法包括:使用霍夫变换的方法,检测所述表格图片中的所有直线的倾斜角;根据所有倾斜角求得倾斜角平均值;以及根据所述倾斜角平均值对所述表格图片进行校正。4.如权利要求1所述的端到端的表格还原方法,其特征在于,对倾斜校正后的所述表格图片转换为灰度图,从所述灰度图中检测出横线和竖线的像素点集合的方法包括:根据灰度图的高度和宽度确定检测矩阵自定义核的比例;通过检测矩阵的方法获得横线的像素点和竖线的像素点;以及通过二值图的与操作将横线的像素点和竖线的像素点集合形成像素点集合。5.如权利要求1所述的端到端的表格还原方法,其特征在于,判断所述像素点集合中是否具有表格图片的边线的方法包括:如果最左侧的竖线像素点的左侧具有横线像素点,则认为左侧的边线缺失;如果最右侧的竖线像素点的右侧具有横线像素点...
【专利技术属性】
技术研发人员:李剑楠,周小雪,马骏,李恒,苏鹏,
申请(专利权)人:上海千鸟信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。