一种从文档中自动识别和提取统计图表的方法技术

技术编号:35433161 阅读:26 留言:0更新日期:2022-11-03 11:39
本发明专利技术公开了一种从文档中自动识别和提取统计图表的方法,该方法利用OCR技术识别出统计图中的文字块及其像素坐标;然后,将统计图进行二值化处理,根据二值化图像中黑色像素坐标以及文字块的像素坐标拾取出坐标轴信息;通过HSV色坐标体系,分检出统计图中待区分颜色的色坐标范围,根据待区分颜色的色坐标范围从二值化图像中识别出对应颜色的像素位置;再根据待区分颜色的像素位置判断统计图类型,根据统计图类型,利用坐标轴信息计算出统计图中几何图形对应的统计数值。本发明专利技术能够将非结构化的统计图转换为结构化数据,不仅方便数据的再利用,也提高了非结构化数据的转换效率。也提高了非结构化数据的转换效率。也提高了非结构化数据的转换效率。

【技术实现步骤摘要】
一种从文档中自动识别和提取统计图表的方法


[0001]本专利技术涉及计算机视觉
,尤其涉及一种从文档中自动识别和提取统计图表的方法。

技术介绍

[0002]统计图作为研报、可行性报告等文件内直观展示数据的要素,在上述文件中出现频率极高,但只作为直观展示使用。但作为阅读的业务人员,这种报告中的统计图内容有时远远不够。
[0003]HSV颜色空间介绍:
[0004]HSV(hue,saturation,value)颜色空间的模型对应于圆柱坐标系中的一个圆锥形子集,圆锥的顶面对应于V=1.它包含RGB模型中的R=1,G=1,B=1三个面,所代表的颜色较亮。色彩H由绕V轴的旋转角给定。红色对应于角度0
°
,绿色对应于角度120
°
,蓝色对应于角度240
°
。在HSV颜色模型中,每一种颜色和它的补色相差180
°
。饱和度S取值从0到1,所以圆锥顶面的半径为1。HSV颜色模型所代表的颜色域是CIE色度图的一个子集,这个模型中饱和度为百分之百的颜色,其纯度一般小于百分之百。在圆锥的顶点(即原点)处,V=0,H和S无定义,代表黑色。圆锥的顶面中心处S=0,V=1,H无定义,代表白色。从该点到原点代表亮度渐暗的灰色,即具有不同灰度的灰色。对于这些点,S=0,H的值无定义。可以说,HSV模型中的V轴对应于RGB颜色空间中的主对角线。在圆锥顶面的圆周上的颜色,V=1,S=1,这种颜色是纯色。HSV模型对应于画家配色的方法。画家用改变色浓和色深的方法从某种纯色获得不同色调的颜色,在一种纯色中加入白色以改变色浓,加入黑色以改变色深,同时加入不同比例的白色,黑色即可获得各种不同的色调。
[0005]目前阅读的业务人员在使用报告内统计图数据时的场景如下:
[0006]1、根据统计图内容把图中对应点数据结构化后进行其他分析处理;
[0007]2、根据坐标,通过人眼估计判断更详细的坐标点位的值。
[0008]目前业务人员使用,仍有不足,具体不足如下:
[0009]1、通过统计图读数据有时只能根据人眼视觉估计:有些统计图只会给到横纵坐标,不会在具体折线图、柱状图上标注该点的真实值;
[0010]2、需要获取折线图上更详细的值:有些折线统计图只会根据横坐标给出图中的部分值,若需要更多的值,只能人眼估计值;
[0011]把统计图变成结构化数据,目前只有人工的方式,比较耗时且结果偏差有时较大。

技术实现思路

[0012]有鉴于此,本专利技术提供了一种从文档中自动识别和提取统计图表的方法,用以解决上述
技术介绍
中存在的问题。
[0013]一种从文档中自动识别和提取统计图表的方法,具体包括以下步骤:
[0014]S1,利用OCR技术识别出统计图中的文字块及其在图表中的像素坐标;
[0015]S2,将统计图进行二值化处理,根据二值化图像中黑色像素坐标以及文字块的像素坐标拾取出坐标轴信息;
[0016]S3,通过HSV色坐标体系,分检出统计图中待区分颜色的色坐标范围;
[0017]S4,根据待区分颜色的色坐标范围从二值化图像中识别出对应颜色的像素位置;
[0018]S5,根据待区分颜色的像素位置判断统计图类型;
[0019]S6,根据统计图类型,利用坐标轴信息计算出统计图中几何图形对应的统计数值。
[0020]优选地,所述步骤S1之前还包括步骤:对统计图中倾斜的文字块进行矫正。
[0021]优选地,所述步骤S2中根据二值化图像中黑色像素坐标以及文字块的像素坐标拾取出坐标轴信息的具体步骤为:
[0022]S21,根据二值化图像中黑色像素坐标确定出横坐标相等、纵坐标连续的像素点组成的最长的线,令该线为纵坐标轴,
[0023]根据二值化图像中黑色像素坐标确定出纵坐标相等、横坐标连续的像素点组成的最长的线,令该线为横坐标轴,
[0024]S22,将文字块中像素横坐标相等且距离纵坐标轴最近的一行纵向数值确定为纵坐标数值;
[0025]将文字块中像素纵坐标相等且距离横坐标轴最近的一行横向数值确定为横坐标数值;
[0026]S23,将相邻两个纵坐标数值两两相减的差值取众数,得到纵坐标轴的单位长度,
[0027]将相邻两个横坐标数值两两相减的差值取众数,得到横坐标轴的单位长度;
[0028]S24,将相邻两个纵坐标数值的像素纵坐标两两相减的差值取众数,得到纵坐标轴的单位长度的像素值,
[0029]将相邻两个横坐标数值的像素横坐标两两相减的差值取众数,得到横坐标轴的单位长度的像素值。
[0030]优选地,步骤S5中根据待区分颜色的像素位置判断统计图类型时,若待区分颜色中横向位置处所有像素点的像素横坐标呈分块连续、具有相同像素横坐标的所有像素点的像素纵坐标连续并具有一定长度,且同一横向分块内位于不同横向位置处的具有相同像素横坐标的所有像素点中的最大像素纵坐标和最小像素纵坐标均相近,则统计图为柱状图;
[0031]若待区分颜色的像素横坐标呈连续或断点趋势、整体长度较长,且像素纵坐标呈连续或断点趋势、整体长度较短,则统计图为折线图。
[0032]优选地,步骤S6中根据统计图类型,利用坐标轴信息计算出统计图表中几何图形对应的统计数值的具体步骤为:
[0033]若统计图为柱状图,则统计图表中几何图形对应的统计数值S=(h/p
y
)*l
y
,其中,h为几何图形所在横向分块的高度值,h通过横向分块中各个横向像素位置处的具有相同像素横坐标的所有像素点中最大像素纵坐标与最小像素纵坐标的差值取众数求得,p
y
为纵坐标轴的单位长度的像素值,l
y
为纵坐标轴的单位长度;
[0034]若统计图为折线图,则统计图表中几何图形对应的统计数值
[0035]S=[(j

j0)/p
x
]*l
x
,其中,j为位于同一纵向像素位置的呈连续或断点趋势的所有像素点的像素纵坐标的平均值,j0为横坐标轴的像素纵坐标,p
x
为横坐标轴的单位长度的像素值,l
x
为横坐标轴的单位长度。
[0036]本专利技术的有益效果是:
[0037]1、本专利技术能够将非结构化的统计图转换为结构化数据(例如表格),不仅方便数据的再利用,也提高了非结构化数据转换为结构化数据的转换效率。
[0038]2、本专利技术在获取坐标轴信息及几何图形对应的统计数值时,通过取众数、平均数等方式来计算对应数值,可以有效解决自动识别带来的数据误差,有效地提高了识别出的结构化数据的准确率。
[0039]3、本专利技术利用HSV色坐标体系来识别统计图中不同颜色的几何统计图形,颜色分类细,适用广泛,可以识别各种颜色的统计图表。
附图说明
[0040]为了更清楚地说明本专利技术实施例的技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种从文档中自动识别和提取统计图表的方法,其特征在于,具体包括以下步骤:S1,利用OCR技术识别出统计图中的文字块及其在图表中的像素坐标;S2,将统计图进行二值化处理,根据二值化图像中黑色像素坐标以及文字块的像素坐标拾取出坐标轴信息;S3,通过HSV色坐标体系,分检出统计图中待区分颜色的色坐标范围;S4,根据待区分颜色的色坐标范围从二值化图像中识别出对应颜色的像素位置;S5,根据待区分颜色的像素位置判断统计图类型;S6,根据统计图类型,利用坐标轴信息计算出统计图中几何图形对应的统计数值。2.根据权利要求1所述的从文档中自动识别和提取统计图表的方法,其特征在于,所述步骤S1之前还包括步骤:对统计图中倾斜的文字块进行矫正。3.根据权利要求1所述的从文档中自动识别和提取统计图表的方法,其特征在于,所述步骤S2中根据二值化图像中黑色像素坐标以及文字块的像素坐标拾取出坐标轴信息的具体步骤为:S21,根据二值化图像中黑色像素坐标确定出横坐标相等、纵坐标连续的像素点组成的最长的线,令该线为纵坐标轴,根据二值化图像中黑色像素坐标确定出纵坐标相等、横坐标连续的像素点组成的最长的线,令该线为横坐标轴,S22,将文字块中像素横坐标相等且距离纵坐标轴最近的一行纵向数值确定为纵坐标数值;将文字块中像素纵坐标相等且距离横坐标轴最近的一行横向数值确定为横坐标数值;S23,将相邻两个纵坐标数值两两相减的差值取众数,得到纵坐标轴的单位长度,将相邻两个横坐标数值两两相减的差值取众数,得到横坐标轴的单位长度;S24,将相邻两个纵坐标数值的像素纵坐标两两相减的差值取众数,得到纵坐标轴的单位长度的像素值,将相邻两个横坐标数值的像素横坐标两两相减的差值取众数,得到横坐标轴的单位长度的像素值。4....

【专利技术属性】
技术研发人员:王百含昝云飞纪传俊纪达麒陈运文
申请(专利权)人:达而观科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1