一种电子表单的解析方法、系统及相关装置制造方法及图纸

技术编号:26891353 阅读:33 留言:0更新日期:2020-12-29 16:09
本申请提供一种电子表单的解析方法,包括:获取所述电子表单和对应的线段,根据所述线段确定所述电子表单包含的单元格;确定所述单元格的逻辑坐标,并根据所述逻辑坐标确定表格框架;读取所述电子表单中的文本数据;将所述文本数据按照对应的逻辑坐标填入所述表格框架中,得到解析表格。本申请使得电子表单得以重新建立,保证电子表单不因数据格式造成内容识别偏差,有效实现了电子表单的格式转换。本申请还提供一种电子表单的解析系统、计算机可读存储介质和电子设备,具有上述有益效果。

【技术实现步骤摘要】
一种电子表单的解析方法、系统及相关装置
本申请涉及数据处理领域,特别涉及一种电子表单的解析方法、系统及相关装置。
技术介绍
可移植文档格式(PortableDocumentFormat,PDF)是一种与操作系统平台无关的文件格式,在PDF文档中实际看到的表格是线条与文本叠加形成的。因此,在将PDF文件转换为其它较易于编辑的文档格式时,如果仅仅是从PDF文档中提取原始数据内容,就会得到分散的文本内容与线条;如果需要表格,需要手动删除线条,插入表格,并将文本内容重新填入表格中,费时费力。因此,如何对PDF等不宜编辑文件中的电子表单进行有效识别解析是本领域技术人员亟需解决的技术问题。
技术实现思路
本申请的目的是提供一种电子表单的解析方法、解析系统和电子设备,能够对电子表单进行有效解析。为解决上述技术问题,本申请提供一种电子表单的解析方法,具体技术方案如下:获取所述电子表单和对应的线段,根据所述线段确定所述电子表单包含的单元格;确定所述单元格的逻辑坐标,并根据所述逻辑坐标确定表格框架;<br>读取所述电子表本文档来自技高网...

【技术保护点】
1.一种电子表单的解析方法,其特征在于,包括:/n获取所述电子表单和对应的线段,根据所述线段确定所述电子表单包含的单元格;/n确定所述单元格的逻辑坐标,并根据所述逻辑坐标确定表格框架;/n读取所述电子表单中的文本数据;/n将所述文本数据按照对应的逻辑坐标填入所述表格框架中,得到解析表格。/n

【技术特征摘要】
1.一种电子表单的解析方法,其特征在于,包括:
获取所述电子表单和对应的线段,根据所述线段确定所述电子表单包含的单元格;
确定所述单元格的逻辑坐标,并根据所述逻辑坐标确定表格框架;
读取所述电子表单中的文本数据;
将所述文本数据按照对应的逻辑坐标填入所述表格框架中,得到解析表格。


2.根据权利要求1所述的解析方法,其特征在于,根据线段确定所述电子表单包含的单元格包括:
根据线段的起点坐标和终点坐标确定所述电子表单包含的单元格的位置信息。


3.根据权利要求2所述的解析方法,其特征在于,确定所述单元格的逻辑坐标包括:
根据所述单元格的所述位置信息确定逻辑坐标。


4.根据权利要求1所述的解析方法,其特征在于,读取所述电子表单中的文本数据包括:
按照所述逻辑坐标的横坐标由小及大、纵坐标由小及大的顺序读取所述电子表单中的文本数据;
其中,所述横坐标的优先级高于所述纵坐标。


5.根据权利要求1所述的解析方法,其特征在于,根据线段确定所述电子表单包含的单元格时,还包括:
将长度小于横坐标相同的平行线段平均长度的线段,或宽度小于横坐标相同的平行线段平均长度的线段作为单元格的内置线段,并根据所述内置线段确定子单元格。


6.根据权利要求5所述的解析方法,其特征在于,确定所述单元格的逻辑坐标时,还包括:
确定所述子单元格的子坐标,所述子坐标为所述子单元格所属单元格的逻辑坐标的下级坐标。


7.根据权利要求1所述的解析方法,其特征在于,...

【专利技术属性】
技术研发人员:徐意蒙淮
申请(专利权)人:杭州拼便宜网络科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1