【技术实现步骤摘要】
一种嵌套表格的提取方法及装置、存储介质
[0001]本申请实施例涉及办公及网络数据获取技术,尤其涉及一种嵌套表格的提取方法及装置、存储介质。
技术介绍
[0002]目前,针对非可编辑文本如PDF文本等进行文本识别时,对于其中的文字部分的识别提取方式比较成熟,且识别提取准确率比较高,但是,当非可编辑文本中包含表格等表格类内容时,对表格结构本身的识别相当差,如识别的表格中线条断断续续、参差不齐等,这严重影响了针对非可编辑文本的识别体验,导致用户需要浪费大量的时间修补识别后的表格结构,导致处理效率相当低下,其使用体验较差。
技术实现思路
[0003]有鉴于此,本申请实施例提供一种嵌套表格的提取方法及装置、存储介质。
[0004]根据本申请的第一方面,提供一种嵌套表格的提取方法,包括:
[0005]读取第一类型文件中的数据内容并进行解析,确定解析后的所述数据内容中包含的线段坐标信息;
[0006]以所述第一类型文件的展示单元为基准,对所述线段进行分组;
[0007]对于各组中的线段,基 ...
【技术保护点】
【技术特征摘要】
1.一种嵌套表格的提取方法,其特征在于,所述方法包括:读取第一类型文件中的数据内容并进行解析,确定解析后的所述数据内容中包含的线段坐标信息;以所述第一类型文件的展示单元为基准,对所述线段进行分组;对于各组中的线段,基于所述线段的坐标将相邻或相接线段横向或纵向距离小于第一设定阈值、相邻线段相邻端点间隔小于第二设定阈值的线段进行合并;遍历合并后的所有线段,根据线段是否相交进行分类,生成N个集合,集合内的线段相交,集合之间的线段不相交;N为大于等于1的整数;遍历集合内线段,确定合并后的相交线段之间的交点,遍历所有交点,确定构成矩形框的交点;以构成的矩形框面积大于第三阈值的交点为基准,生成表格;基于所生成的表格,计算表格之间的包含关系,基于表格的包含关系形成嵌套表格。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取解析后的所述数据内容中包含的文本信息及所述文本的坐标信息,根据文本的坐标信息,进行文本的合并,并计算文字轮廓;根据文字的轮廓的坐标信息和/或解析后的所述数据内容中包含的图片坐标信息,确定位于所述表格区域的文本和/或图片信息;将所确定的文本和/或图片填置于所述表格的对应区域。3.根据权利要求2所述的方法,其特征在于,所述基于表格的包含关系形成嵌套表格,包括:根据矩形框的坐标信息,综合表格外数据进行分析,计算基础单元格宽高列表;基于基础单元格宽高列表,计算表格之间的嵌套关系,按矩形框面积从小到大的顺序,设置矩形区域边框及合并单元格,生成嵌套表格格式。4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:将所述第一类型文件中位于所述表格外的文本信息进行存储,所述表格及所述表格内的文本和/或图片作为表格数据进行存储。5.根据权利要求1所述的方法,其特征在于,所述确定合并后的线段之间的交点,包括:将解析后的所述数据内容中包含的横向线段划分至第一集合,将纵向线段划分至第二集合,按线段坐标对所述第一集合和所述第二集合中的线段进行排序;对于第一集合或第二集合中的任一线段,确定出所有有交点的线段,并将有交点线段之间形成的交点形成交点集。6.一种嵌套表格的提取装置,其特征在于,所述装置包括:读取解析单元,用于读取第一类型文件中的数据内容并进行解析;第一确定单元,用于确定解析后的所述数据内容中包含的线...
【专利技术属性】
技术研发人员:王春浩,程言超,周炬,马成龙,
申请(专利权)人:苏州开心盒子软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。