一种基于STC-OCR的科技图表识别方法技术

技术编号:37446341 阅读:12 留言:0更新日期:2023-05-06 09:18
本发明专利技术属于科技图表识别方法技术领域,具体涉及一种基于STC

【技术实现步骤摘要】
一种基于STC

OCR的科技图表识别方法


[0001]本专利技术属于科技图表识别方法
,具体涉及一种基于STC

OCR的科技图表识别方法。

技术介绍

[0002]在进行科技大数据的管理过程中,对现有科技文本资料的电子化是一项非常重要的工作,这些资料数量庞大,若由人工进行识别录入,将消耗极大的人力物力,同时效率极低。同时,科技数据文档通常使用图形、图表作为数据表示和解释的媒介,这更加增大了文档电子化的难度,同时现有的自动识别方法也难以有效处理此类元素。
[0003]现有技术中存在两个技术问题:1.图表识别的有效性差。现有的技术对针对文本进行建模,而忽略的科技文档中的图表数据,对其适配度不足,难以成功识别。2.识别图表类型少。现有的方法只能对少数几种图表进行识别,而科技数据的图表类型繁多,现有方法难以覆盖其所有类型。

技术实现思路

[0004]针对上述现有的图表识别的有效性差、识别图表类型少的技术问题,本专利技术提供了一种基于STC

OCR的科技图表识别方法,利用深度学习、OCR和图像处理技术从科技文本中提取所有图形,将其分类为各种图表类别,并从中检索有用的信息。
[0005]为了解决上述技术问题,本专利技术采用的技术方案为:
[0006]一种基于STC

OCR的科技图表识别方法,包括下列步骤:
[0007]S1、数据获取,对文档图像进行分割得到图标数据;
[0008]S2、对S1中图像分割得到的图标数据进行数据预处理;
[0009]S3、将数据预处理后的图标进行分类;
[0010]S4、对图标进行内容识别。
[0011]所述S1中对文档图像进行分割的方法为:使用基于Mask RCNN架构的预训练图像分割模型,将文档分解为五个类别:标题、文本块、列表、图和表,所述预训练图像分割模型基于ResNet50特征金字塔网络FPN基础配置,并在PubLayNet数据集上进行训练,用于文档布局分析,提取文档中的图标信息,所述图标信息包括树形图、网络图、气泡图。
[0012]所述S2中对图标数据进行数据预处理的方法为:将S1中图像分割得到的图标数据进行开运算,即对数据进行图像腐蚀,再对其进行膨胀,其中腐蚀尺度为3,膨胀尺度为5,以此去除数据中的噪点信息,同时修复因打印造成的白点问题,帮助网络更好的识别与学习数据特征。
[0013]所述S3中将图标进行分类的方法为:首先在ImageNet数据集上预训练的EfficientNet模型,之后除了最后的卷积层之外,冻结所有的层,将全连接层替换为使用softmax的13个图表类别分类层,并添加参数为0.2的DropOut层防止过拟合,使用Adam作为模型优化器,之后使用图表数据对模型进行进一步的训练。
[0014]所述S4对图标进行内容识别的方法为:包括下列步骤:S4.1、轴检测;S4.2、文本检测;S4.3、轴刻度检测;S4.4、轴标签检测;S4.5、数据提取。
[0015]所述S4.1中轴检测的方法为:将图像转换为二进制图像,然后获得每行和每列的最大连续图像;垂直和水平扫描矩阵,以跟踪相邻列和行中黑色像素的连续性;最后,y轴是最大连续1落在区域[max

阈值,max+阈值]中的第一列,其中假设了预定阈值,所述预定阈值=10;同理,对于x轴,最后一行是根据最大连续1落在范围[max

阈值,max+阈值]内的位置来选择的。
[0016]所述S4.2中文本检测的方法为:采用OCR服务来检测图表中的文本,并提取检测到的文本的所有矩形边界框。
[0017]所述S4.3中轴刻度检测的方法为:过滤x轴下方和y轴右侧的所有文本框,运行一条从x轴到图像底部的扫描线,与最大数量的文本框相交的线为所有x轴刻度提供了边界框;同理,使用垂直扫描线检测y轴刻度。
[0018]所述S4.4中轴标签检测的方法为:过滤x轴记号下方的文本框,然后再次从x轴记号到图像底部运行扫描线。这样做时,与最大数量的文本框相交的线提供了x轴标签的所有边界框;同理,使用垂直扫描线获得y轴标签。
[0019]所述S4.5中数据提取的方法为:每个图例的边界框都是白色的,消除了原始图表图像中的所有白色像素,在前一模块中决定的颜色用作初始聚类,因为图像的所有像素值被进一步划分为聚类;然后将给定的图分成多个图,每个簇一个图,通过聚类,将堆叠条形图分解为几个简单的图,获得绘图中的所有轮廓,为每个标签选择最近的边界矩形;此外,需要一个映射函数来将像素值映射到图表中的实际值,因此使用值刻度比α来估计每个条形的高度,为了找到这个比率,将实际的ylabel记号N
ticks
的平均值除以记号之间的平均距离Δd,所述平均距离Δd以像素为单位;
[0020]α=N
ticks
/Δd
[0021]最后,条形图的y值定义为y=α
×
H,其中H是条形图的高度,在获得所有相关信息后,创建一个数据表,完成图标信息的读取。
[0022]本专利技术与现有技术相比,具有的有益效果是:
[0023]1、本专利技术法利用可用的未标记数据使预训练的语言模型适应下游任务,并在定义调优之前将其嵌入引导到语义上有意义的空间。本专利技术使用模型蒸馏来生成语义上可比较的嵌入。此外,本专利技术设计了一种简单的策略,以有效地获取用于主动学习的初始迭代的一组标记的正样本和负样本。本专利技术可有效的降低数据的标注成本。
[0024]2、本专利技术从科技文本提取所有图标数据,将其分类为各种图表类别,从中获取相关信息,并将检索到的内容呈现在可访问的数据表中。相较于现有的方法,本专利技术对图表针对性的进行了处理,可以更有效的识别图表中的信息,达到更高的识别准确率,同时本专利技术对科技文本中常见的图表形式完成了覆盖,可更好的进行科技图表的识别。
附图说明
[0025]为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
提供的附图引申获得其它的实施附图。
[0026]本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
能涵盖的范围内。
[0027]图1为本专利技术的步骤流程图。
具体实施方式
[0028]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,这些描述只是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于STC

OCR的科技图表识别方法,其特征在于:包括下列步骤:S1、数据获取,对文档图像进行分割得到图标数据;S2、对S1中图像分割得到的图标数据进行数据预处理;S3、将数据预处理后的图标进行分类;S4、对图标进行内容识别。2.根据权利要求1所述的一种基于STC

OCR的科技图表识别方法,其特征在于:所述S1中对文档图像进行分割的方法为:使用基于Mask RCNN架构的预训练图像分割模型,将文档分解为五个类别:标题、文本块、列表、图和表,所述预训练图像分割模型基于ResNet50特征金字塔网络FPN基础配置,并在PubLayNet数据集上进行训练,用于文档布局分析,提取文档中的图标信息,所述图标信息包括树形图、网络图、气泡图。3.根据权利要求1所述的一种基于STC

OCR的科技图表识别方法,其特征在于:所述S2中对图标数据进行数据预处理的方法为:将S1中图像分割得到的图标数据进行开运算,即对数据进行图像腐蚀,再对其进行膨胀,其中腐蚀尺度为3,膨胀尺度为5,以此去除数据中的噪点信息,同时修复因打印造成的白点问题,帮助网络更好的识别与学习数据特征。4.根据权利要求1所述的一种基于STC

OCR的科技图表识别方法,其特征在于:所述S3中将图标进行分类的方法为:首先在ImageNet数据集上预训练的EfficientNet模型,之后除了最后的卷积层之外,冻结所有的层,将全连接层替换为使用softmax的13个图表类别分类层,并添加参数为0.2的DropOut层防止过拟合,使用Adam作为模型优化器,之后使用图表数据对模型进行进一步的训练。5.根据权利要求1所述的一种基于STC

OCR的科技图表识别方法,其特征在于:所述S4对图标进行内容识别的方法为:包括下列步骤:S4.1、轴检测;S4.2、文本检测;S4.3、轴刻度检测;S4.4、轴标签检测;S4.5、数据提取。6.根据权利要求5所述的一种基于STC

OCR的科技图表识别方法,其特征在于:所述S4.1中轴检测的方法为:将图像转换为二进制图像,然后获得每行和每列的最大连续图像;垂直和水平扫描矩阵,以跟踪相邻列和行中黑...

【专利技术属性】
技术研发人员:马瑾男申利华上官学奎陆文瑞刘东航王志文王渊程平萍张月平司童王威展张颖
申请(专利权)人:山西省信息产业技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1