一种图中数据的自动提取方法技术

技术编号:23558799 阅读:41 留言:0更新日期:2020-03-25 04:14
本发明专利技术公开了一种图中数据的自动提取方法。方法的主要包括以下步骤:文本区域定位与文本框分类;坐标轴定位,以及坐标轴的刻度标记位置定位;图例的定位与信息提取;根据图例颜色提取对应的柱体或者折线连通分量,并进行过滤和分类;确定X轴关键点并定位每个关键点对应的X轴标签;根据X轴关键点定位柱体和折线的关键点,确定关键点对应的标注数值文本框,并进行数值识别;计算每个像素对应数值,并估计柱体或者折线关键点对应的数值;根据估计值与识别的标注数值之间的差距来确定最终结果。本发明专利技术方法能够应对水平布局的柱状图、折线和柱体混合的数据图、不含坐标轴的数据图等各种数据图类型。实验证明方法具有较高的准确率和精确度。

An automatic method of data extraction from graphs

【技术实现步骤摘要】
一种图中数据的自动提取方法
本专利技术属于计算机图像处理和模式识别领域,涉及一种图中数据的自动提取方法。
技术介绍
柱状图、折线图等是一种更为直观的数据呈现方式,被广泛的用于各行各业中,特别是财经、科学研究、统计等行业。但是在日常工作中,有时需要引用他人制作的柱状图或者折线图中包含的数据用于自己的报告和文章中。由于无法获得原始数据,从图中获得其中包含的数据是一件比较困难的任务。一种简单的方式是通过直观的观察、估计、测量等手段获取数据。但是直观估计精确度较差,而且效率低下。如果有一种自动化的数据提取方法提高数据获取的效率和精确性将具有非常重要的应用价值。当前获取柱状图和折线图中数据的方法是一种半自动的方法。该方法主要采用通过手工标注坐标轴上的最小值和最大值位置和对应的数值,以及柱子的高度位置、折线的关键点等信息来获得X轴特定位置上的数值。采用该类方法代表性的软件有国外开发的GetData和EngaugeDigitizer。柱状图和折线图是一种具有一定规则的数据呈现方式,但是在转换为图像形式的数据后。图像的本质是像素的集合,每个像素本文档来自技高网...

【技术保护点】
1.一种图中数据的自动提取方法,用于对柱状或折线形式数据图中的元素数据进行提取,其特征在于,步骤如下:/nS1:按照S11~S15的步骤,进行数据图中文本区域定位与文本框分类:/nS11:获取待提取数据的数据图,采用深度学习方法来定位数据图中的所有文本框,并进行字符识别;/nS12:统计数据图中每个X方向位置上存在的文本框的个数,得到一个X方向不同位置上文本框个数的数组;然后获取该数组中文本框个数的局部最大值和对应位置;接着比对该数组中X方向中间区域的平均文本框个数与所述局部最大值的差别,若在阈值范围内则认为局部最大值的对应位置存在Y轴刻度值文本框;最后,根据局部最大值的对应位置将该位置的所有...

【技术特征摘要】
1.一种图中数据的自动提取方法,用于对柱状或折线形式数据图中的元素数据进行提取,其特征在于,步骤如下:
S1:按照S11~S15的步骤,进行数据图中文本区域定位与文本框分类:
S11:获取待提取数据的数据图,采用深度学习方法来定位数据图中的所有文本框,并进行字符识别;
S12:统计数据图中每个X方向位置上存在的文本框的个数,得到一个X方向不同位置上文本框个数的数组;然后获取该数组中文本框个数的局部最大值和对应位置;接着比对该数组中X方向中间区域的平均文本框个数与所述局部最大值的差别,若在阈值范围内则认为局部最大值的对应位置存在Y轴刻度值文本框;最后,根据局部最大值的对应位置将该位置的所有文本框初步确认为Y轴刻度值文本框,得到Y轴刻度值文本框列表;
S13:以文本框间隔距离为过滤条件,采用噪声数据过滤方法对所述Y轴刻度值文本框列表进行文本框间隔距离的一致性判别,去除不满足间隔距离一致性要求的文本框;
S14:采用S12和S13的方法,同理获得X轴刻度值文本框列表;
S15:根据图题文本框的尺寸特征以及在数据图的位置分布特征,识别出图题文本框中的图题文字;
S2:按照S21~S22的步骤,对数据图中的坐标轴以及对坐标轴上的刻度标记位置进行定位:
S21:对数据图进行坐标轴定位,定位方法为:
首先,分别计算数据图的水平梯度和垂直梯度,根据水平梯度结果以及垂直梯度结果分别确定垂直和水平边缘像素;
然后统计每列连续的边缘像素数以及每行连续的边缘像素数,将连续的边缘像素数超过设定阈值的边缘像素列确定为候选Y坐标轴,将连续的边缘像素数超过设定阈值的边缘像素行确定为候选X坐标轴;
再后,合并行间距或列间距小于距离阈值的相邻候选坐标轴;
最后,根据候选坐标轴的位置与候选坐标轴刻度值文本框列表的位置关系,确定坐标轴和坐标轴刻度值文本框列表;
S22:依次对X坐标轴和Y坐标轴的刻度标记位置定位,每条坐标轴上的定位方法为:
首先,以坐标轴为中心截取坐标轴区域图像,区域图像在垂直坐标轴方向的宽度应当覆盖整条坐标轴以及坐标轴上的刻度标记;然后对坐标轴区域图像进行二值化,将坐标轴以及坐标轴上的刻度标记为前景;接着对二值化图像在垂直坐标轴的方向上进行逐行或逐列的前景像素计数;然后对计数得到的数组求得局部极大值作为候选刻度标记的位置;最后,采用所述的噪声数据过滤方法对获得的候选刻度标记位置进行过滤,得到每条坐标轴上实际的刻度标记;
S3:按照S31~S36的步骤,对数据图中的图例进行定位与信息提取:
S31:通过计算相邻像素颜色值的距离进行连通分量分析,找到数据图中所有颜色相近且连通的连通分量,并获取每个连通分量的颜色平均值作为该连通分量的颜色,同时统计该连通分量像素数和外接矩形框;
S32:以连通分量的高、宽、像素数、高宽比和紧致性为条件,通过阈值法对所有连通分量进行过滤,获得满足图例要求的候选图例;
S33:两两遍历所有可能的候选图例连通分量对,将颜色和高度符合一致性要求的两个连通分量组合为一个新候选图例;
S34:将数据图中位于数据区域上面、右边和下面的三个区域,分别进行S31~S33从而得到这三个区域中的所有候选图例,根据三个区域各自的候选图例的数量选择候选图例数量最多的区域中的候选图例,作为数据图的实际图例;
S35:根据图例的空间位置对获取的实际图例进行布局分析,确定该数据图中的图例是垂直布局、水平布局还是混合式的布局方式,并过滤掉布局位置不符合布局方式的图例;
S36:根据图例的布局方式,从数据图中查找每个图例对应的图例文本框,并识别获得每个图例文本框中的文字字符以及字符颜色;
S4:按照S41~S45的步骤,根据图例颜色提取对应的柱体或者折线连通分量,并进行过滤和分类:
S41:将背景颜色、文本中的字符颜色、图例颜色组合成一个不同颜色类别的颜色列表,然后遍历数据图中数据区域内的像素,计算每个像素的颜色与颜色列表中各颜色类别的颜色距离,将颜色距离最近的颜色类别标记作为像素的类别;
S42:对每个类别的像素进行连通分量分析,并通过阈值法对连通分量进行筛选过滤,得到数据区域中每个图例对应的连通分量集合;
S43:以连通分量的高、宽、像素数和紧致性为条件,通过阈值法对所有连通分量集合进行遍历,判断每个连通分量是否为柱体;如果存在柱体,则计算图中所有柱体高度的方差以及所有柱体宽度的方差,根据方差确定柱状图中的柱体属于水平布局还是垂直布局,然后计算柱体的柱宽;如果不存在柱体,则认为是折线图,折线图的布局方向类型为垂直布局;
S44:根据数据图的布局方向类型,识别每个图例对应的连通分量集合是柱体还是折线,同...

【专利技术属性】
技术研发人员:姚金良俞月伦胡创
申请(专利权)人:杭州电子科技大学上虞科学与工程研究院有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1