非编辑文档的表格抽取方法、电子设备及可读存储介质技术

技术编号:38427056 阅读:10 留言:0更新日期:2023-08-07 11:24
一种非编辑文档的表格抽取方法、电子设备及计算机可读存储介质,所述方法包括:获取非编辑文档中的表格所包含的框线及框线的坐标信息;基于框线的交叉点及坐标信息得到表格中的每个单元格的坐标信息;基于交叉点及每个单元格的坐标信息在可编辑文档中生成与表格对应的可编辑表格;基于每个单元格的坐标信息识别位于每个单元格内的字符,得到每个单元格所包含的字符串;基于每个单元格的坐标信息将每个单元格所包含的字符串写入可编辑表格。本申请涉及文档解析领域,可实现自动从非编辑文档中提取表格信息,并将表格信息写入至可编辑文档。档。档。

【技术实现步骤摘要】
非编辑文档的表格抽取方法、电子设备及可读存储介质


[0001]本申请涉及文档解析
,尤其涉及一种非编辑文档的表格抽取方法、电子设备及计算机可读存储介质。

技术介绍

[0002]非编辑文档,如便携式文档格式(Portable Document Format,PDF)可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,其具有跨平台、高集成度和高安全性等优点,使得PDF文档成为日常办公作业的资料保存、资料分享的理想文档格式。
[0003]当产品研发设计中的相关技术资料以PDF文档格式保存时,表格作为PDF文档的重要组成部分,表格承载了大多数的产品设计参数信息。若需要从PDF中将这些设计参数信息整理出来,作为后续的电路设计、产品测试等方面的技术指导,由于文档的不可编辑性,导致需要花费较长的时间整理这些设计参数信息,且占用较多的人力成本。

技术实现思路

[0004]有鉴于此,有必要提供一种非编辑文档的表格抽取方法、电子设备及计算机可读存储介质,其可自动从非编辑文档中提取表格信息,并将表格信息写入至可编辑文档。
[0005]本申请一实施方式提供一种非编辑文档的表格抽取方法,所述方法包括:遍历非编辑文档,以定位所述非编辑文档中所包含的表格;获取所述表格包含的多个框线及所述多个框线中每个框线的坐标信息;提取由所述多个框线形成的交叉点;基于所述交叉点及所述每个框线的坐标信息得到所述表格中的每个单元格的坐标信息;基于所述交叉点及所述每个单元格的坐标信息在可编辑文档中生成与所述表格对应的可编辑表格;基于所述每个单元格的坐标信息识别位于所述每个单元格的坐标范围内的字符,得到所述每个单元格所包含的字符串;基于所述每个单元格的坐标信息将所述每个单元格所包含的字符串写入所述可编辑表格。
[0006]在一些实施例中,所述方法还包括:获取所述表格的外侧框线的左上角点坐标,及以所述左上角点坐标为第一基准点坐标在所述非编辑文档中向上查询第一预设行;若在所述第一预设行中检索到第一预设关键字,判断所述第一预设关键字是否处于行开头位置及所述第一预设关键字是否跟随有数字;若所述第一预设关键字处于行开头位置且所述第一预设关键字跟随有数字,识别所述关键字所在行包含的字符;将所述关键字所在行包含的字符作为所述表格的表格标题,写入所述可编辑表格的上方行。
[0007]在一些实施例中,所述方法还包括:以所述左上角点坐标为所述第一基准点坐标在所述非编辑文档中向上查询第二预设行;若在所述第二预设行中检索到数字,且所述数字处于行开头位置时,识别所述数字所在行包含的字符;将所述数字所在行包含的字符作为所述表格的章节标题,写入所述表格标题的上方行。
[0008]在一些实施例中,所述方法还包括:当以所述左上角点坐标为所述第一基准点坐
标在所述非编辑文档中向上查询所述第一预设行或所述第二预设行时,忽略统计空格行及换行符所在的行的行数。
[0009]在一些实施例中,所述将所述数字所在行包含的字符作为所述表格的章节标题,写入所述表格标题的上方行,包括:遍历所述可编辑表格是否存在所述章节标题;若所述可编辑表格不存在所述章节标题,将所述表格标题写入所述表格标题的上方行。
[0010]在一些实施例中,所述基于所述每个单元格的坐标信息识别位于所述每个单元格的坐标范围内的字符,得到所述每个单元格所包含的字符串,包括:基于预设字符库及所述每个单元格的坐标信息识别位于所述每个单元格的坐标范围内的字符;获取位于所述坐标范围内的字符的字号及字体颜色;基于所述每个单元格的坐标范围内的字符、字号及字体颜色得到所述每个单元格所包含的字符串。
[0011]在一些实施例中,所述方法还包括:获取所述表格的外侧框线的左下角点坐标,及以所述左下角点坐标为第二基准点坐标在所述非编辑文档中向下查询第三预设行;若在所述第三预设行中检索到第二预设关键字,判断所述第二预设关键字是否处于行开头位置;若所述第二预设关键字处于行开头位置,提取所述第二预设关键字及与所述第二预设关键字关联的字符;将所述第二预设关键字及与所述第二预设关键字关联的字符作为所述表格的表格注解,写入所述可编辑表格的下方行。
[0012]在一些实施例中,所述方法还包括;当检测到所述非编辑文档中的两个表格处于相邻页,且所述两个表格的表格属性符合预设规则时,在所述可编辑文档中对与所述两个表格对应的两个可编辑表格进行合并处理;或当检测到所述表格为无框线表格时,利用边缘检测算法对所述表格中的内容进行边缘检测,以为所述表格添加框线。
[0013]本申请一实施方式还提供一种电子设备,所述电子设备包括处理器及存储器,所述存储器用于存储指令,所述处理器用于调用所述存储器中的指令,使得所述电子设备执行上述的非编辑文档的表格抽取方法。
[0014]本申请一实施方式还一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行上述的非编辑文档的表格抽取方法。
[0015]与现有技术相比,上述非编辑文档的表格抽取方法、电子设备及计算机可读存储介质,可以实现自动从非编辑文档中定位表格,提取表格的框线、表格内容及与表格相关的其他内容,将表格的框线及这些文本内容写入至可编辑文档中,使得用户后续可以对该可编辑文档进行编辑、整理,产出所需的目标文档,且无需占用用户过多的时间。
附图说明
[0016]图1是本申请一实施方式的非编辑文档的表格抽取方法的步骤流程图。
[0017]图2a~2b是对本申请一实施方式的非编辑文档中的表格进行结构信息提取的示意图。
[0018]图3是本申请一实施方式的表格抽取装置的功能模块图。
[0019]图4是本申请一实施方式的电子设备的结构示意图。
[0020]主要元件符号说明
[0021]表格抽取装置10
存储器20处理器30计算机程序40遍历模块101获取模块102提取模块103第一处理模块104生成模块105第二处理模块106写入模块107电子设备100
具体实施方式
[0022]为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施方式及实施方式中的特征可以相互组合。
[0023]在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施方式仅是本申请一部分实施方式,而不是全部的实施方式。
[0024]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本申请。
[0025]进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非编辑文档的表格抽取方法,其特征在于,所述方法包括:遍历非编辑文档,以定位所述非编辑文档中所包含的表格;获取所述表格包含的多个框线及所述多个框线中每个框线的坐标信息;提取由所述多个框线形成的交叉点;基于所述交叉点及所述每个框线的坐标信息得到所述表格中的每个单元格的坐标信息;基于所述交叉点及所述每个单元格的坐标信息在可编辑文档中生成与所述表格对应的可编辑表格;基于所述每个单元格的坐标信息识别位于所述每个单元格的坐标范围内的字符,得到所述每个单元格所包含的字符串;基于所述每个单元格的坐标信息将所述每个单元格所包含的字符串写入所述可编辑表格。2.如权利要求1所述的非编辑文档的表格抽取方法,其特征在于,所述方法还包括:获取所述表格的外侧框线的左上角点坐标,及以所述左上角点坐标为第一基准点坐标在所述非编辑文档中向上查询第一预设行;若在所述第一预设行中检索到第一预设关键字,判断所述第一预设关键字是否处于行开头位置及所述第一预设关键字是否跟随有数字;若所述第一预设关键字处于行开头位置且所述第一预设关键字跟随有数字,识别所述关键字所在行包含的字符;将所述关键字所在行包含的字符作为所述表格的表格标题,写入所述可编辑表格的上方行。3.如权利要求2所述的非编辑文档的表格抽取方法,其特征在于,所述方法还包括:以所述左上角点坐标为所述第一基准点坐标在所述非编辑文档中向上查询第二预设行;若在所述第二预设行中检索到数字,且所述数字处于行开头位置时,识别所述数字所在行包含的字符;将所述数字所在行包含的字符作为所述表格的章节标题,写入所述表格标题的上方行。4.如权利要求3所述的非编辑文档的表格抽取方法,其特征在于,所述方法还包括:当以所述左上角点坐标为所述第一基准点坐标在所述非编辑文档中向上查询所述第一预设行或所述第二预设行时,忽略统计空格行及换行符所在的行的行数。5.如权利要求3所述的非编辑文档的表格抽取方法,其特征在于,所述将所述数字所在行包含的字符作为所述表格的章节标题,写入所述表格标题的上方行,包括:遍历所述可编辑表格是否...

【专利技术属性】
技术研发人员:龚俊聪胡广林周厚原陈健才
申请(专利权)人:鸿海精密工业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1