【技术实现步骤摘要】
一种基于图像处理的文献曲线分离与坐标信息提取方法
[0001]本专利技术涉及一种从科学文献的曲线图像中提取信息的方法,包括曲线图像的分割、坐标的提取与信息提取等内容,应用于不同学科文献中曲线图数据提取和对应数据库构建等领域,在一定程度上提高该学科文献数据提取的速度,帮助提高该研究方向的研究进度和研究效率,促进相应学科的快速发展。
技术介绍
[0002]在科学研究文献中,对于实验获取的数据信息多半常用曲线图或者是表格来进行描述,表格中的数据信息通常是显示的表示,但曲线图中各个点的坐标数据信息常常隐藏在图像中,因此获取曲线图像中的曲线数据信息显得尤其重要。早期的方法中,在Matlab工具上可以使用人工选择,获取的曲线上的点并导出,但是这种方法十分的低效,不能自动化获取大量曲线图像上的数据,无法满足日益增长的研究需要以及文献数据信息的爆炸性增长,因此需要一种可靠的检测手段来实现自动提取曲线坐标信息。随着计算机技术和图像处理技术的发展,运用计算机图像识别技术和图像处理方法能够实现曲线信息提取的目的,但如何将计算机信息分析与图像分析结 ...
【技术保护点】
【技术特征摘要】
1.一种基于图像处理的文献曲线分离与坐标信息提取方法,其特征在于,包括如下步骤:(1)读入一篇文献,提取文献中曲线图像,利用图片格式进行保存,将图片的访问路径存入路径列表;(2)读取一张曲线图片,对曲线图像进行分割,分割成三个部分:X轴、Y轴和剩下的曲线内容部分,进行坐标信息获取,具体为:首先对读取的曲线图像进行预处理,包括去噪,二值化,提高对比度;然后根据坐标轴固定X轴和Y轴垂直的规律,获取到每张坐标轴垂直的坐标轴的位置信息,以此完成图片的分割过程;(3)字符检测与识别:对于截取的X轴和Y轴图片,对其进行字符检测与字符识别,以获取到所需要的数据信息,为像素坐标到真实坐标之间的转换提供数据来源;(4)曲线分离与提取:在完成了X轴Y轴的处理之后,对曲线图进行处理,对于有多种颜色区分的标准的曲线图,则根据曲线的颜色的不同将每条曲线单独的提取出来,获取曲线的像素坐标信息;(5)曲线坐标计算:在将曲线图像中不同颜色的曲线分离开,然后进行坐标计算并导出,将曲线上提取的数据保存到数据库中,完成坐标信息提取。2.根据权利要求1所述基于图像处理的文献曲线分离与坐标信息提取方法,其特征在于:在所述步骤(2)中,对曲线图像进行分割的具体步骤如下:(2
‑
1)将原曲线图转换为灰度图,黑色的像素值为0,白色的像素值为255,其它灰色的像素值在0和255之间;(2
‑
2)获取坐标系X轴信息:定义一个矩形,宽度为图片宽度,高度为一个像素,矩形内的像素值设定为1,用此矩形从上往下对图片进行滑动操作,与对应位置像素值进行相乘操作,然后将所有图片宽度个数的相乘结果相加,得到一组计算结果,比较并获取所有数值中的最小值,其数组序号就是所需的X轴所在的像素坐标;(2
‑
3)获取坐标系Y轴信息:定义一个矩形,高度为图片高度,宽度为一个像素,矩形内的像素值设定为1,用此矩形从左往右对图片进行滑动操作,与对应位置像素值进行相乘操作,然后将所有图片高度个数的相乘结果相加,得到一组计算结果,比较并获取所有数值中的最小值,其数组序号就是所需的Y轴所在的像素坐标;(2
‑
4)将图片分割成三个部分,分别包含X轴、包含Y轴和曲线内容部分,并对这三个部分进行保存。3.根据权利要求1所述基于图像处理的文献曲线分离与坐标信息提取方法,其特征在于:在所述步骤(3)中,进行字符检测与识别时,将X轴和Y轴图片上的有字符的区域从图片中检测出来,并获取字符的具体数值和其位置信息,具体步骤如下:(3
‑
1)读取一张坐标轴的图片;(3
‑
2)使用CRAFT文本检测模型,对输入的图片进行检测,识别出存在的字符文本并获取该文本的位置信息;(3
‑
3)使用ResNet+LSTM+CTC组合网络结构,对检测完成的文本区域进行字符识别;(3
‑
4)对在所述(3
...
【专利技术属性】
技术研发人员:韩越兴,陈侨川,王迎港,张瑞,潘登,夏锦桦,张家旺,
申请(专利权)人:上海大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。