一种图片图表数据获取方法及对比方法技术

技术编号:43751995 阅读:24 留言:0更新日期:2024-12-20 13:09
本发明专利技术涉及一种图片图表数据获取方法及对比方法,涉及图片图表对比技术领域。图片图表的解析中,基于包含图表类型、绘图区域和关键点像素坐标的第一语义信息和文字及文字所属区域的像素坐标的文字识别结果,进行像素坐标到数据坐标的映射时,基于聚类算法提取坐标轴刻度,分别得到X轴方向上和Y轴方向上最密集的类簇;分别判断X轴方向上和Y轴方向上最密集的类簇中数字区域的数量是否达到预设的数量阈值,如果达到,则基于构建的分位数回归模型进行像素坐标到数据坐标的映射;如果未达到,则基于构建的仿射变换模型进行像素坐标到数据坐标的映射。可以更加准确定位坐标刻度,降低OCR识别噪声的影响,提高坐标映射方法的准确性和稳健性。

【技术实现步骤摘要】

本专利技术涉及图片图表对比,具体涉及一种图片图表数据获取方法及对比方法


技术介绍

1、在很多领域中,特别是科研、医疗等领域中,图表对比是常用的数据分析方法,但在日常工作中,大量的图片图表都是以图片形式存在的,很难进行对比分析。

2、传统的图片图表对比方法将图表视为通用图片,使用图像处理的方式对比像素值,但这种方法无法准确捕捉到图表中数据语义层面的差异,这类方法代表性的软件有winmerge和difflmg‌。

3、基于机器学习的图表解析技术虽然可以实现图表图像到数据的转换,但容易受到ocr噪声点的影响,因此在像素坐标到数据坐标映射的过程中不可能做到完全准确。这导致两张图表解析后的数据在坐标、数据量上难以对齐,需要大量的人工操作或者编码工作才能实现数据的对齐和对比。


技术实现思路

1、本申请要解决的技术问题是提供一种图片图表数据获取方法及对比方法,具有可以更加准确定位坐标刻度,降低ocr识别噪声的影响,提高坐标映射方法的准确性和稳健性的特点。

2、第一方面,一种实施例中提供本文档来自技高网...

【技术保护点】

1.一种图片图表数据获取方法,其特征在于,包括:

2.如权利要求1所述的图片图表数据获取方法,其特征在于,所述第一语义信息还包括特定类型分组信息;所述特定类型分组信息包括折线图中关键点需要按照所属折线进行分组得到的分组信息,和/或,直方图中关键点按照所属矩形进行分组得到的分组信息。

3.如权利要求1所述的图片图表数据获取方法,其特征在于,所述的基于聚类算法提取坐标轴刻度,分别得到X轴方向上最密集的类簇和Y轴方向上最密集的类簇,包括:

4.如权利要求3所述的图片图表数据获取方法,其特征在于,所述的筛选文字识别结果中为数字的区域,得到区域集合,作为第一集合...

【技术特征摘要】

1.一种图片图表数据获取方法,其特征在于,包括:

2.如权利要求1所述的图片图表数据获取方法,其特征在于,所述第一语义信息还包括特定类型分组信息;所述特定类型分组信息包括折线图中关键点需要按照所属折线进行分组得到的分组信息,和/或,直方图中关键点按照所属矩形进行分组得到的分组信息。

3.如权利要求1所述的图片图表数据获取方法,其特征在于,所述的基于聚类算法提取坐标轴刻度,分别得到x轴方向上最密集的类簇和y轴方向上最密集的类簇,包括:

4.如权利要求3所述的图片图表数据获取方法,其特征在于,所述的筛选文字识别结果中为数字的区域,得到区域集合,作为第一集合,包括:

5.如权利要求4所述的图片图表数据获取方法,其特征在于,所述的筛选第一集合中与绘图区域存在交集的数字区域,包括:对于第一集合中的任意一个数字区域,计算该任意一个数字区域与绘图区域的相交面积,若相交面积大于0,则说明存在相交;...

【专利技术属性】
技术研发人员:蒲宇
申请(专利权)人:成都中科合迅科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1