【技术实现步骤摘要】
一种从文档中提取表格的方法、系统和计算机设备
[0001]本专利技术涉及到智能文本处理领域,特别涉及到一种从文档中提取表格的方法、系统和计算机设备。
技术介绍
[0002]表格是一种重要的信息承载及展现方式,具有结构清晰、信息量大等特点,在日常办公、资料文件等各种文件中得到大量使用,常见的例如人员信息表、产品属性表及财务报表等。
[0003]在实际中,表格数据很少单独呈现,而是和段落、标题、图片等其他文档元素混合起来以文档资料形式呈现。常见的文档格式包括Word、PDF、图片等格式。对于Word中的表格,如果是电子表格协议,可以直接读出,但word中也有可能插入图像形式的表格。而对于PDF、图片等格式,其中的表格都是以图像的形式存储,处理起来较为困难。由于图像表格录入环境复杂、纸张平整度、打印清晰度等问题,导致录入系统的图像表格存在扭曲、透视、清晰度等问题,对图像表格的后续使用造成很大困难。如何从不同类型文档中自动提取所有类型的表格结构及内容,在实际生产工作中需求很大,挑战很大。由于文档中电子表格指的是可以直接编辑表 ...
【技术保护点】
【技术特征摘要】
1.一种从文档中提取表格的方法,其特征在于,该方法包括离线处理环节和在线处理环节,其中:所述离线处理环节通过标注表格图像数据,训练机器学习模型,以检测图像表格区域、图像表格类型和图像表格线条,输出检测模型至在线处理环节应用;所述在线处理环节用以实时提取文档中所有类型的表格,包括电子表格和图像表格,电子表格可以根据指定文档的格式协议编码进行解析,图像表格需要利用离线处理环节所训练的模型,业务上进行串联后进行提取,得到结构还原和内容填充后的电子表格文件。2.根据权利要求1所述的一种从文档中提取表格的方法,其特征在于,所述离线处理环节包括如下步骤:S11. 训练出图像表格区域检测模型,基于目标检测技术检测图像表格区域,标注图像中表格区域的位置信息,将原始图像和位置信息作为训练数据,训练出能够检测表格区域的目标检测模型,表格区域用左上角xy坐标和右下角xy坐标来表示;S12. 训练出图像表格类型检测模型,基于图像分类技术将表格区域图像进行数据标注,将表格类型划分为有线表格、少线表格和无线表格,将原始图像和表格类型信息作为训练数据,训练出能够检测图像中表格类型的模型;S13. 训练出图像表格线条检测模型,基于图像实例分割技术,将表格线用有序像素点集合表示,横线排列顺序从左到右,竖线排列顺序由上到下,每个像素点由xy坐标表示,根据表格类型设计不同的分开训练线条检测模型,表格线按照是否可以观测到为标准划分为物理线条和虚拟线条,表格线条检测模型需要出训练物理线条检测和虚拟线条检测两个模型。3.根据权利要求1或2所述的一种从文档中提取表格的方法,其特征在于,所述在线处理环节包括如下步骤:S14.文档预处理,进行文档类型判断和表格类型判断,将文档中的表格分为电子表格和图像表格两大类,电子表格出现的文件包括Word和WPS中,而图像表格可以出现在任何类型文档中,根据文档类型进行不同的预处理,再根据预处理结果进行不同类型的表格提取,若为电子表格执行S15,若为图像表格则执行S16;S15.提取电子表格,所述电子表格使用对应文件协议解析库提取文档中的表格对象,对于微软Word 文档的.docx格式和金山WPS文档的.wps格式,使用 OpenXML 格式协议解析其中的电子表格,直接拿出表格结构和内容;S16.提取图像表格,先检测与识别图像表格中的文字内容;再利用训练好的图像表格区域检测模型判断表格区域,输出图像中所有表格的区域,每个区域包括左上角xy坐标和右下角xy坐标;再利用训练好的图像表格类型检测模型对表格区域进行类型划分,得到有线表格、无线表格及半线表格,并将类型输出;再将表格区域内的图像和类型送入图像表格线条检测模型中,输出相关的表格线,其中有线表格使用物理表格线检测模型,无线表格使用虚拟表格线检测模型,半线表格同时使用物理表格线及虚拟表格线模型;最后针对每一个表格区域内的表格线检测结果,根据横竖线条的多个交点得到每个单元格四角的xy坐标,将得到的所有单元格按照四角坐标按照从左到右从上到下的顺序排列,得到整个表格的结构;S17.导出表格至电子表格文件,将文档中所有检测到的表格进行结构还原和内容填
充,使用表格储存程序代码将每个表格依次保存为电子表格文件。4.根据权利要求2所述的一种从文档中提取表格的方法,其特征在于,在S11中,所述的目标检测技术包括有YOLO、Faster RCNN在内的算法,使用机器学习的方法来训练能够检测表格区域的目标检测模型,其流程包括有:输入原始图像数据集;对表格区域进行数据标注;标注数据生成模型训练数据;表格目标检测模型训练;输出表格区域检测模型。5.根据权利要求2所述的一种从文档中提取表格的方法,其特征在于,在S12中,所述的图像分类技术包括有SVM、ResNet在内的网络算法,使用机器学习的方法来训练能够检测图像中表格类型的模型,其流程包括有:集合表格区域图像;表格类型数据标注;标注数据生成模型训练数据;表格类型检测模型训练;输出表格类型检测模型。6.根据权利要求2所述的一种从文档中提取表格的方法,其特征在于,在S13中,所述的图像实例分割技术包括有UNet、Spatial CNN在内的算法,表格线条检测模型需要训练物理线条检测和虚拟线条检测两个模型,其流程包括有:表格区域图像集合;判读表格类型为有线表格、半线表格或者无线表格;有线表格进行物理表格线标注后,进行物理表格线检测模型训练,得到物理表格线检测模型;无线表格进行虚拟表格线标注后,进行虚拟表格线检测模型训练,得到虚拟表格线检测模型;半线表格中的物理表格线作为物理表格线标注,并组合进入物理表格线检测模型进行训练并输出,半线表格中的虚拟表格线作为虚拟表格线进行标准,并组合进入虚拟表格线检测模型进行训练并输出;训练完成的物理表格线检测模型作为表格线检测模型进行输出,训练完成的虚拟表格线检测模型也作为表格线检测模型进行输出。7.根据权利要求3所述的一种从文档中提取表格的方法,其特征在于,在...
【专利技术属性】
技术研发人员:高翔,李瀚清,杨慧宇,朱耀邦,曾丹梦,李巍豪,赵业辉,岳小龙,纪达麒,陈运文,
申请(专利权)人:达而观信息科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。