一种表格结构提取方法技术

技术编号:24757683 阅读:52 留言:0更新日期:2020-07-04 09:30
本发明专利技术涉及一种表格结构提取方法,属于文档识别领域。该方法包括:S1:数据转换;S2:图片预处理及直线分割;S3:直线检测及预处理;S4:水平线与竖直线判断;S5:查找交点;S6:断线的续连;S7:获取单元格。本发明专利技术采用深度网络分割图像,泛化和稳定性更高,能够减小背景色、印章、线条颜色的干扰;对表格图像进行分析,能处理表格线断裂,文字表格线粘连等常见问题,正确得到表格结构;对分割图进行线条检测时,通过按比例缩小图像提高检测速度,并保证大小与坐标还原;通过交点关系产生单元格,排除了原始线条的凸凹瑕疵,使单元格更加美观。

A method of extracting table structure

【技术实现步骤摘要】
一种表格结构提取方法
本专利技术属于文档识别领域,涉及一种表格结构提取方法。
技术介绍
文档分析中,充分利用表格信息对内容分析与提取有很大帮助,表格分析是表格自动处理过程中的第一步,根据表格的特点,给出一个基于直线提取和补全的通用表格分析方法,先利用模型检测出表格线,然后根据表格特性调整表格线,再从表格线得到表格特征点,最后建立规则得到表格结构的单元格描述。目前,常见的现有技术有:(1)采用传统图像处理的方式提取表格,但无法排除文字、印章、颜色干扰,提取的线条受背景影响大;(2)线条存在凸凹,断线时对生成单元格不利。因此,亟需一种能够准确完整提取表格的方法。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于图片的表格结构提取方法,在提高提取速度的同时,能够提高表格提取的精确度。为达到上述目的,本专利技术提供如下技术方案:一种表格结构提取方法,是基于图片的表格结构提取,具体包括以下步骤:S1:数据转换;S2:图片预处理及直线分割;S3:直线检测及预处理;S本文档来自技高网...

【技术保护点】
1.一种表格结构提取方法,其特征在于,该方法是基于图片的表格结构提取,具体包括以下步骤:/nS1:数据转换;/nS2:图片预处理及直线分割;/nS3:直线检测及预处理;/nS4:水平线与竖直线判断;/nS5:查找交点;/nS6:断线的续连;/nS7:获取单元格。/n

【技术特征摘要】
1.一种表格结构提取方法,其特征在于,该方法是基于图片的表格结构提取,具体包括以下步骤:
S1:数据转换;
S2:图片预处理及直线分割;
S3:直线检测及预处理;
S4:水平线与竖直线判断;
S5:查找交点;
S6:断线的续连;
S7:获取单元格。


2.根据权利要求1所述的一种表格结构提取方法,其特征在于,所述步骤S1中,将非图片格式的文档转换为JPG或PNG格式的图片,且保证生成的图片无多字压线、字体大小适中且内容坐标一致。


3.根据权利要求1所述的一种表格结构提取方法,其特征在于,所述步骤S2中,图片预处理包括校正,降噪,裁剪和图像增强处理;直线分割包括:利用深度学习的模型,分割出前景与后景,其中前景是直线,其它内容视为后景;利用预处理过的图片训练出模型,用模型分割出直线与后景。


4.根据权利要求3所述的一种表格结构提取方法,其特征在于,所述步骤S2具体包括以下步骤:
S21:图片切分;
取切分基准大小为512×512,原图的高为H,宽为W,切分的次数为单个切分后的坐标为:



其中,坐标结构为[左上角,右下角],点为(w,h),0≤wnum≤Wnum,0≤hnum≤Hnum;
S22:模型训练;
模型网络结构采用Unet的主体结构,Loss采用交叉熵;
S23:直线分割;
利用训练好的分割模型分割测试图,图片输入模型的方式与训练数据的切分方式一致,预测后的小图片再按原切分规则合并成原图,保持大小与坐标的统一;并设定模型预测的概率阈值,即预测概率值大于概率阈值时为前景,预测概率值小于阈值时为后景。


5.根据权利要求4所述的一种表格结构提取方法,其特征在于,所述步骤S3具体包括以下步骤:
S31:预处理:对分割结果图进行降噪、膨胀及腐蚀处理,去除干扰噪点,增强线条与背景的对比度;...

【专利技术属性】
技术研发人员:汪雨郭彦儒王威
申请(专利权)人:上海汇航捷讯网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1