三线表识别方法、电子设备及存储介质技术

技术编号:17705724 阅读:6 留言:0更新日期:2018-04-14 18:27
本发明专利技术公开了一种三线表识别方法、电子设备及存储介质,其中,三线表识别方法包括:提取出当前版式页面中所有的路径线;对所提取出的路径线进行筛选处理,得到水平路径线;根据水平路径线的索引值,对水平路径线进行划分处理,得到至少一组水平路径线;针对每组水平路径线,检测由该组水平路径线中的各条水平路径线组成的矩形区域是否符合预设表格特征;若是,则确定矩形区域为三线表区域,并依据三线表区域,生成表格图像。本发明专利技术提供的技术方案根据预设表格特征对每组水平路径线所组成的矩形区域进行检测,能够快捷、准确地识别出三线表,并依据识别得到的三线表区域生成表格图像,从而有效地解决了文件格式转换所带来的表格错位等问题。

【技术实现步骤摘要】
三线表识别方法、电子设备及存储介质
本专利技术涉及信息处理
,具体涉及一种三线表识别方法、电子设备及存储介质。
技术介绍
随着手机、电子书阅读器等电子设备的不断发展,越来越多的用户喜欢阅读电子书。为了使电子书能够很好地适用于不同屏幕尺寸的电子设备,现有技术中大多是将电子书制作成流式文件,从而不仅能够方便地对电子书内容进行编辑,而且还能够使电子书内容自动地根据屏幕宽度调整段落的换行以适应单页的视野范围。那么在利用PDF等版式文件制作电子书时,则需要先将版式文件转换成流式文件。然而现有技术无法准确地识别三线表,当版式文件中包含有三线表时,在将版式文件转换成流式文件后,很容易出现转换错误,尤其是当表格比较大时,转换后则很容易出现表格错位等问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的三线表识别方法、电子设备及存储介质。根据本专利技术的一个方面,提供了一种三线表识别方法,该方法包括:提取出当前版式页面中所有的路径线;对所提取出的路径线进行筛选处理,得到水平路径线;根据水平路径线的索引值,对水平路径线进行划分处理,得到至少一组水平路径线;针对每组水平路径线,检测由该组水平路径线中的各条水平路径线组成的矩形区域是否符合预设表格特征;若是,则确定矩形区域为三线表区域,并依据三线表区域,生成表格图像。根据本专利技术的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:提取出当前版式页面中所有的路径线;对所提取出的路径线进行筛选处理,得到水平路径线;根据水平路径线的索引值,对水平路径线进行划分处理,得到至少一组水平路径线;针对每组水平路径线,检测由该组水平路径线中的各条水平路径线组成的矩形区域是否符合预设表格特征;若是,则确定矩形区域为三线表区域,并依据三线表区域,生成表格图像。根据本专利技术的又一方面,提供了一种存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:提取出当前版式页面中所有的路径线;对所提取出的路径线进行筛选处理,得到水平路径线;根据水平路径线的索引值,对水平路径线进行划分处理,得到至少一组水平路径线;针对每组水平路径线,检测由该组水平路径线中的各条水平路径线组成的矩形区域是否符合预设表格特征;若是,则确定矩形区域为三线表区域,并依据三线表区域,生成表格图像。根据本专利技术提供的技术方案,提取出当前版式页面中所有的路径线,接着对所提取出的路径线进行筛选处理,得到水平路径线,根据水平路径线的索引值,对水平路径线进行划分处理,得到至少一组水平路径线,然后针对每组水平路径线,检测由该组水平路径线中的各条水平路径线组成的矩形区域是否符合预设表格特征;若符合预设表格特征,则确定矩形区域为三线表区域,并依据三线表区域,生成表格图像。利用本专利技术提供的技术方案,基于水平路径线的索引值对水平路径线进行分组,并结合预设表格特征对每组水平路径线所组成的矩形区域进行检测,能够快捷、准确地识别出三线表,并依据三线表区域生成表格图像,那么在将版式文件转换成流式文件后,使转换得到的流式文件能够通过图像形式完整地展现三线表的表格内容,从而有效地解决了文件格式转换所带来的表格错位等问题。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术实施例一的一种三线表识别方法的流程示意图;图2示出了根据本专利技术实施例二的一种三线表识别方法的流程示意图;图3示出了根据本专利技术实施例四的一种电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。实施例一图1示出了根据本专利技术实施例一的一种三线表识别方法的流程示意图,如图1所示,该方法包括如下步骤:步骤S101,提取出当前版式页面中所有的路径线。其中,版式页面中的对象可以有文本、路径线和图像。为了便于识别出三线表,在步骤S101中需要提取出当前版式页面中所有的路径线。其中,当前版式页面可以为PDF页面。具体地,由于提取的是当前版式页面中所有的路径线,因此所提取出的路径线可能包括有表格线、页眉页脚线、公式分式线、注释分割线以及页面背景装饰线等路径线。步骤S102,对所提取出的路径线进行筛选处理,得到水平路径线。结合三线表的特征可知,三线表是由至少三条水平的表格线组成,而在步骤S101所提取出的路径线可能包括有表格线、页眉页脚线等多种路径线,为了快速地确定哪些路径线可能为三线表对应的路径线,需要对所提取出的路径线进行筛选处理,筛选得到水平路径线。步骤S103,根据水平路径线的索引值,对水平路径线进行划分处理,得到至少一组水平路径线。在版式页面中,每一个对象都具有对应的索引值,那么在步骤S103中,可根据步骤S102筛选得到的水平路径线的索引值,对水平路径线进行划分处理,得到至少一组水平路径线。具体地,可将索引值相连续的水平路径线划分为一组水平路径线,从而得到至少一组水平路径线。步骤S104,从至少一组水平路径线中选择一组未曾被选择过的水平路径线。在得到了至少一组水平路径线之后,为了能够有效、全面地识别三线表,还需要针对至少一组水平路径线中的每一组水平路径线都进行检测,那么从至少一组水平路径线中选择一组未曾被选择过的水平路径线。步骤S105,检测由该组水平路径线中的各条水平路径线组成的矩形区域是否符合预设表格特征;若是,则执行步骤S106;若否,则执行步骤S107。其中,每组水平路径线是由多条水平路径线组成,该组水平路径线中的各条水平路径线能够组成一个矩形区域,检测该矩形区域是否符合预设表格特征。本领域技术人员可根据实际需要对预设表格特征进行设置,此处不做限定。具体地,预设表格特征可包括预设表标题特征和预设表格分栏特征等。如果检测得到矩形区域符合预设表格特征,则执行步骤S106;如果检测得到矩形区域不符合预设表格特征,则执行步骤S107。步骤S106,确定矩形区域为三线表区域,并依据三线表区域,生成表格图像。在经步骤S105检测得到矩形区域符合预设表格特征的情况下,确定该矩形区域为三线表区域,然后依据三线表区域,生成表格图像。具体地,可通过截图方式对所确定的三线表区域进行处理,从而生成得到表格图像。利用本专利技术提供的技术方案能够快捷、准确地识别出三线表,并依据识别得到的三线表区域生成表格图像,那么在将版式文件转换成流式文件后,使转换得到的流式文件能够通过图像形式完整地展现三线表的表格内容,从而有效地解本文档来自技高网...
三线表识别方法、电子设备及存储介质

【技术保护点】
一种三线表识别方法,包括:提取出当前版式页面中所有的路径线;对所提取出的路径线进行筛选处理,得到水平路径线;根据所述水平路径线的索引值,对所述水平路径线进行划分处理,得到至少一组水平路径线;针对每组水平路径线,检测由该组水平路径线中的各条水平路径线组成的矩形区域是否符合预设表格特征;若是,则确定所述矩形区域为三线表区域,并依据所述三线表区域,生成表格图像。

【技术特征摘要】
1.一种三线表识别方法,包括:提取出当前版式页面中所有的路径线;对所提取出的路径线进行筛选处理,得到水平路径线;根据所述水平路径线的索引值,对所述水平路径线进行划分处理,得到至少一组水平路径线;针对每组水平路径线,检测由该组水平路径线中的各条水平路径线组成的矩形区域是否符合预设表格特征;若是,则确定所述矩形区域为三线表区域,并依据所述三线表区域,生成表格图像。2.根据权利要求1所述的方法,所述对所提取出的路径线进行筛选处理,得到水平路径线进一步包括:获取所述路径线的长度和宽度;根据所述路径线的长度和宽度,从所述路径线中筛选出长度和宽度符合预设筛选规则的路径线,将筛选得到的路径线确定为水平路径线。3.根据权利要求2所述的方法,所述预设筛选规则包括:长度大于预设长度阈值、宽度小于预设宽度阈值以及长度和宽度之间的比例大于预设比例阈值。4.根据权利要求1-3任一项所述的方法,所述根据所述水平路径线的索引值,对所述水平路径线进行划分处理,得到至少一组水平路径线进一步包括:在所述水平路径线中将索引值相连续的水平路径线划分为一组水平路径线。5.根据权利要求1-4任一项所述的方法,在所述检测由该组水平路径线中的各条水平路径线组成的矩形区域是否符合预设表格特征之前,所述方法还包括:检测该组水平路径线中的各条水平路径线的左端点和右端点是否分别对齐;所述检测由该组水平路径线中的各条水平路径线组成的矩形区域是否符合预设表格特征具体为:若检测得到该组水平路径线中的各条水平路径线的左端点和右端点分别对齐,则检测由该组水平路径线中的各条水平路径线组成的矩形区域是否符合预设表格特征。6.根据权利要求1-5任一项所述的方法,所述检测由该组水平路径线中的各条水平路径线组成的矩形区域是否符合预设表格特征进一步包括:提取出当前版式页面中在所述矩形区域所...

【专利技术属性】
技术研发人员:张恒
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1