文献图表提取及分类方法、系统、计算机设备及存储介质技术方案

技术编号:41585175 阅读:36 留言:0更新日期:2024-06-06 23:59
本发明专利技术属于图表中数据提取技术领域,公开了一种文献图表提取及分类方法、系统、计算机设备及存储介质,输入包含图表的文献图片,经分类器分类,图表的文字内容信息通过OCR技术进行识别与提取;获得与常规汉语语法习惯与阅读顺序相同的文字内容,文本数据识别,图表数据提取后,以表格形式输出图表中所包含的数据;同时获得每个文本块的位置信息,由于文字类别信息与位置信息存在一定关系,通过计算每个文本块的具体坐标及坐标间的关系确定其对应的文字类别信息,完成图表文字信息的提取工作。本发明专利技术对对图表数据提取的思路进行了整理,提出了一种自动提取图表数据的流程,针对折线图和柱状图两种特殊类型,验证了算法的可行性。

【技术实现步骤摘要】

本专利技术属于图表中数据提取,尤其涉及一种文献图表提取及分类方法、系统、计算机设备及存储介质


技术介绍

1、目前,近年来,随着互联网,物联网和智能移动终端的不断发展,信息网络的广度与深度不断增加,随之而来的就是信息的指数化增加。在信息的时代,数据可视化成为数据传播的重要方式,图表越来越频繁的出现在各种文献当中,使得研究结果更加直观。复现时,如何从图表中提取数据也变得愈发重要。图表数据提取是指从图表或图像中自动或半自动地提取数据的过程。在很多领域中,人们需要从图表中提取数据以进行分析、建模、预测等应用。传统方法中的图表数据提取通常需要人工处理,费时费力且容易出错。近年来,随着计算机视觉、机器学习等技术的发展,自动化的图表数据提取的研究提上了日程,并取得快速的发展。

2、图表数据提取的主要挑战在于,数据呈现的方式多种多样,包括柱状图、折线图、散点图、饼图等等,而每种图表又有不同的样式和布局。因此,要对任意形式的图表进行数据提取,需要充分调用如计算机视觉,机器学习等多门学科的技术进行支持。计算机视觉技术可以用来对图表中的线条、点、文本等进行分割和识本文档来自技高网...

【技术保护点】

1.一种文献图表提取及分类方法,其特征在于,所述文献图表提取及分类方法,包括以下步骤:

2.如权利要求1所述的文献图表提取及分类方法,其特征在于,所述文献图表提取及分类方法的选用yolov5模型进行目标识别与分类,构造出一个基于图片的文献图表识别分类系统,对用户提供的jpg图片,进行目标识别,提取出文件或图片中的折线图和柱状图。

3.如权利要求2所述的文献图表提取及分类方法,其特征在于,所述YOLOv5模型由骨干网络、颈部和头部三部分组成。

4.如权利要求3所述的文献图表提取及分类方法,其特征在于,首先,输入大小为640*640*3的图片,经过Focu...

【技术特征摘要】

1.一种文献图表提取及分类方法,其特征在于,所述文献图表提取及分类方法,包括以下步骤:

2.如权利要求1所述的文献图表提取及分类方法,其特征在于,所述文献图表提取及分类方法的选用yolov5模型进行目标识别与分类,构造出一个基于图片的文献图表识别分类系统,对用户提供的jpg图片,进行目标识别,提取出文件或图片中的折线图和柱状图。

3.如权利要求2所述的文献图表提取及分类方法,其特征在于,所述yolov5模型由骨干网络、颈部和头部三部分组成。

4.如权利要求3所述的文献图表提取及分类方法,其特征在于,首先,输入大小为640*640*3的图片,经过focus模块进行切片,将图像的高度和宽度缩小一半,得到大小为320*320的图像,并通过concat将切片后的图像拼合在一起,并将其变为64;

5.如权利要求2所述的文献图表提取及分类方法,其特征在于,yolov5目标检测的输出模块可以分为三个部分:预测框生成、类别预测和置信度预测。首先,预测框生成模块会生成多个预测框,通过计算锚定框和网络输出的偏移量来确定预测框的位置和大小;然...

【专利技术属性】
技术研发人员:樊媛媛张金铖邱振宇梁庆中李新川
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1