【技术实现步骤摘要】
一种图表类型数据数字化方法
[0001]本专利技术涉及图表数据处理
,特别是涉及一种图表类型数据数字化方法。
技术介绍
[0002]图表数据是一种重要的信息传输媒介,它能够通过最简单的方式将富余的数据量给简洁化展示出来。近年来,越来越多的图表图像出现在多媒体媒介,科学论文以及商业报告中。如何从海量的图表文件中自动获取数据也成为了值得关注的问题。
[0003]正如摘要附图的图表数据数字化系统所示,通常来说,数字化系统包含多个步骤。其中元素定位以及数值解析是最为关键以及最困难的一环。本专利技术主要关注这两个任务来设计。针对图表元素检测器,要求检测模型对于尺度变化差异大的元素也能够准确定位;同时要求检测模型能够精准的定位元素,较大误差的像素定位会使得对应的图表刻度偏移较大。
[0004]近年来,随着深度学习的发展,越来越多的学者提出性能更加优越的检测以及分类模型,基于最新的深度学习技术来设计图表数字化系统尚未得到有效实现。主要由于该系统包含多个步骤,涉及的流程多,同时每个系统存在的误差对后续的性能也有较大影响 ...
【技术保护点】
【技术特征摘要】
1.一种图表类型数据数字化方法,其特征在于,包括以下步骤:采集图表数据;识别所述图表数据,获取所述图表数据的元素识别结果,所述元素包括图表元素和文本元素;对所述图表元素进行检测分析,获取不同种类所述图表元素的定位和数值解析结果;基于所述定位和数值解析结果,输出Excel表格。2.根据权利要求1所述的图表类型数据数字化方法,其特征在于,对所述图表数据包括直方图,箱线图,线图以及散点图。3.根据权利要求1所述的图表类型数据数字化方法,其特征在于,识别所述图表数据采用OCR模型。4.根据权利要求1所述的图表类型数据数字化方法,其特征在于,对所述图表元素进行检测分析包括:构建元素定位模型,利用所述元素定位模型进行不同种类元素定位;构建数值解析模型,判断是否存在图例、坐标轴,如果存在所述图例、所述坐标轴,则利用所述数值解析模型将定位后的所述不同种类元素与图例进行匹配,并将所述不同种类元素的像素刻度换算到图表刻度;如果不存在所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。