统计图的数据提取方法、电子设备和存储介质技术

技术编号:29227057 阅读:27 留言:0更新日期:2021-07-10 01:13
本发明专利技术实施例涉及信息处理领域,公开了一种统计图的数据提取方法、电子设备和存储介质,包括:利用语义分割模型对含有统计图的目标图像按照统计图类型进行图层分离,获取若干图层并确定每个图层对应的统计图类型,其中,图层为仅含有统计图形的二值图像;获取图层中的统计图形的关键点位置信息;利用预设的筛选条件,确定目标图像中的坐标轴和刻度信息;利用预设的标签筛选条件,从目标图像利用模型识别出的文本信息中确定坐标轴标签;根据关键点位置信息、坐标轴、刻度信息和坐标轴标签确定每个统计图形表示的统计数据并生成结构数据。通过本发明专利技术的方案能够实现对统计图数据的准确、完整、有效和快速提取。有效和快速提取。有效和快速提取。

【技术实现步骤摘要】
统计图的数据提取方法、电子设备和存储介质


[0001]本专利技术实施例涉及信息处理领域,特别涉及一种统计图的数据提取方法、电子设备和存储介质。

技术介绍

[0002]统计图能够直观地展现出统计数据,但用户也存在对统计图中的数据等信息进行提取的需求,从而在后续进行数据整合等处理。但是,在统计图不能编辑的情况下,如可携带文档格式(Portable Document Format,PDF)文件中的统计图、网页中下载的含统计图的图片等,统计图中的数据不能直接被导出,此时,就需要对统计图进一步进行处理。目前,常用的提取方法通常从以下两个方面进行考虑:一是利用多种模型从不同方面对统计图进行处理,分别提取出统计图中的统计数据、尺度、注释等信息;二是将文件转化为可缩放的矢量图形(Scalable Vector Graphics,SVG)格式后,基于SVG格式的文件设置多种提取规则进行数据提取。
[0003]然而,模型和规则都具有各自的优缺点,上述两种方法仅使用模型或者仅使用规则,非常单一,不能充分利用和结合模型各自的优点,从而不能最大程度地保证提取数据的速度和准确性。尤其是,利用模型进行提取时,提取结果的精度取决于模型的精度,而模型容易受到干扰信息的影响导致结果不准确,并且为了保证模型的精度,相应地需要使用大量的语料数据来训练模型,而语料数据需要人工标注特征,也就是说需要浪费大量的人力资源来保证模型具有一定的精度;而与可移植网络图形格式(Portable Network Graphic Format,PNG)等格式的统计图相比,SVG格式的统计图清晰度更低且不能准确地描述字符的位置,即转化为SVG格式会降低统计图的精度,从而降低提取数据的精度,特别地,SVG格式下的统计图并且实际中存在大量的统计图来源于PDF文件,当统计图以图片的格式,如PNG图片,存在于PDF文件中时,在转换成SVG格式后统计图在文件中以超链接的形式存在,可识别性差,若SVG格式的文件中不能被识别,更无法进行数据提取。

技术实现思路

[0004]本专利技术实施方式的目的在于提供一种统计图的数据提取方法、电子设备和存储介质,在不需要格式转换的情况下,准确、快速地提取出统计图中的统计数据,并同时提取能够辅助理解统计数据的其他信息,使得提取的信息更加完整、有效。
[0005]为解决上述技术问题,本专利技术的实施例提供了一种统计图的数据提取方法,包括:利用语义分割模型对含有统计图的目标图像按照统计图类型进行图层分离,获取若干图层并确定每个所述图层对应的所述统计图类型,其中,所述图层为仅含有统计图形的二值图像;获取所述图层中的所述统计图形的关键点位置信息;利用预设的筛选条件,确定所述目标图像中的坐标轴、刻度信息;利用预设的标签筛选条件,从所述目标图像利用模型识别出的文本信息中确定坐标轴标签;根据所述关键点位置信息、所述坐标轴、所述刻度信息和所述坐标轴标签确定每个所述统计图形表示的统计数据并生成结构数据。
[0006]本专利技术的实施例还提供了一种电子设备,包括:
[0007]至少一个处理器;以及,
[0008]与所述至少一个处理器通信连接的存储器;其中,
[0009]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上所述的统计图的数据提取方法。
[0010]本专利技术的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现以上所述的统计图的数据提取方法。
[0011]本专利技术实施例提供的统计图的数据提取方法,利用语义分割模型按照统计图类型对目标图像进行图层分离,得到若干个仅含有统计图形的二值图像作为图层,不同统计类型对应一个独立的图层,且二值图像表示的图层仅含有该统计类型的统计图形,使得在最大程度上减少了图层中的干扰因素,进而使得获取的统计图形的关键点位置信息受到的干扰小、准确性高,并且在图层分离的过程中,语义分割模型处理能够高效、准确地得到各个图层,充分利用了语义分割模型的优点。然后利用预设的筛选条件确定坐标轴和刻度信息,针对性和适用性更强,保证了获取坐标轴和刻度信息的准确性和精度,最后在确定坐标轴标签之后,根据坐标轴标签、刻度信息、坐标轴和关键点位置信息得到统计数据并生成结构数据,充分利用了统计图中的各种信息,通过综合分析获取统计数据并生成结构数据,有利于快速、准确地提取数据。此外,模型和规则共同参与数据的提取过程,充分利用两者的优点,提升处理效率和准确性,且不需要转换为SVG格式,进一步加快了处理速度。
[0012]另外,本专利技术实施例提供的统计图的数据提取方法,所述统计图类型为柱形图,所述统计图形为矩形,所述关键点位置信息为所述矩形的对角点位置信息,所述获取所述图层中的所述统计图形的关键点位置信息,包括:检测所述图层中的所述矩形是否完整;若存在至少一个所述矩形不完整,对不完整的所述矩形进行补全;检测所述图层中的所述矩形是否相连;若存在若干个所述矩形相连,对相连的所述矩形进行分割;获取所述图层中每个所述矩形的所述对角点位置信息。由于关键点位置信息能够直接确定统计图形的位置和几何信息,且统计图形的几何信息是统计数据的直观表达,因此,关键点的位置信息的准确性直接决定了提取统计数据的准确性,上述步骤通过对柱形图所在图层的矩形进行检测并进行相应的操作,即补全和/或分割,保证了柱形图中统计图形的独立性和完整性,避免在获取关键点位置信息时由于统计图形不完整和不独立导致的关键信息缺失或错误的情况,使得利用关键点位置信息计算的统计数据更加准确可靠,进一步提高了本专利技术的精度和准确度。
[0013]另外,本专利技术实施例提供的统计图的数据提取方法,所述确定所述目标图像中的坐标轴,包括:将所述目标图像中唯一满足预设第一长度条件的水平线段作为所述横坐标轴,或者,当所述统计图包含柱形图时,根据所述柱形图中矩形的位置确定所述横坐标轴;若所述统计图存在纵坐标轴,将所述目标图像中唯一或唯二满足预设第二长度条件的竖直线作为所述纵坐标轴,或者,利用所述统计图形的位置确定所述纵坐标轴。本专利技术充分考虑了目标图像中包含的统计图的实际情况,通过为各种不同的应用场景针对性地提供了确定坐标轴的方法,使得不同情况下仍然在最大程度上保证了坐标轴的正确性,使得后续根据坐标轴进行的一系列操作精度得到提高,最终提高提取数据的精度。且提出的不止一种获取确定横、纵坐标轴的方法,能够适用于在不同场景下对统计图进行数据提取,更加灵活实
用。
[0014]另外,本专利技术实施例提供的统计图的数据提取方法,所述刻度信息包括第一刻度和第二刻度,所述确定所述目标图像的刻度信息,包括:从所述目标图像中确定初始刻度并记录每相邻两个所述初始刻度之间的距离作为第一间距;根据所述第一间距将等距的所述初始刻度分为一组,获取若干刻度分组;将所述刻度分组中所述初始刻度数量最多的一组中的所述初始刻度作为所述第一刻度,将相邻两个所述第一刻度之间的距离作为第二间距;根据所述第一间距和所述第二间距从其余所述初始刻度中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种统计图的数据提取方法,其特征在于,包括:利用语义分割模型对含有统计图的目标图像按照统计图类型进行图层分离,获取若干图层并确定每个所述图层对应的所述统计图类型,其中,所述图层为仅含有统计图形的二值图像;获取所述图层中的所述统计图形的关键点位置信息;利用预设的筛选条件,确定所述目标图像中的坐标轴和刻度信息;利用预设的标签筛选条件,从所述目标图像利用模型识别出的文本信息中确定坐标轴标签;根据所述关键点位置信息、所述坐标轴、所述刻度信息和所述坐标轴标签确定每个所述统计图形表示的统计数据并生成结构数据。2.根据权利要求1所述的方法,其特征在于,所述统计图类型为柱形图,所述统计图形为矩形,所述关键点位置信息为所述矩形的对角点位置信息,所述获取所述图层中的所述统计图形的关键点位置信息,包括:检测所述图层中的所述矩形是否完整;若存在至少一个所述矩形不完整,对不完整的所述矩形进行补全;检测所述图层中的所述矩形是否相连;若存在若干个所述矩形相连,对相连的所述矩形进行分割;获取所述图层中每个所述矩形的所述对角点位置信息。3.根据权利要求1所述的方法,其特征在于,所述确定所述目标图像中的坐标轴,包括:将所述目标图像中唯一满足预设第一长度条件的水平线段作为所述横坐标轴,或者,当所述统计图包含柱形图时,根据所述柱形图中矩形的位置确定所述横坐标轴;若所述统计图存在纵坐标轴,将所述目标图像中唯一或唯二满足预设第二长度条件的竖直线作为所述纵坐标轴,或者,利用所述统计图形的位置确定所述纵坐标轴。4.根据权利要求1所述的方法,其特征在于,所述刻度信息包括第一刻度和第二刻度,所述确定所述目标图像的刻度信息,包括:从所述目标图像中确定初始刻度并记录每相邻两个所述初始刻度之间的距离作为第一间距;根据所述第一间距将等距的所述初始刻度分为一组,获取若干刻度分组;将所述刻度分组中所述初始刻度数量最多的一组中的所述初始刻度作为所述第一刻度,将相邻两个所述第一刻度之间的距离作为第二间距;根据所述第一间距和所述第二间距确定所述第二刻度。5.根...

【专利技术属性】
技术研发人员:王小凤张浩波
申请(专利权)人:上海携宁计算机科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1