一种基于STC-OCR的科技图表识别方法技术

技术编号：37446341 阅读：12 留言：0更新日期：2023-05-06 09:18

本发明专利技术属于科技图表识别方法技术领域，具体涉及一种基于STC

全部详细技术资料下载

【技术实现步骤摘要】
一种基于STC
‑
OCR的科技图表识别方法

[0001]本专利技术属于科技图表识别方法
，具体涉及一种基于STC
‑
OCR的科技图表识别方法。

技术介绍

[0002]在进行科技大数据的管理过程中，对现有科技文本资料的电子化是一项非常重要的工作，这些资料数量庞大，若由人工进行识别录入，将消耗极大的人力物力，同时效率极低。同时，科技数据文档通常使用图形、图表作为数据表示和解释的媒介，这更加增大了文档电子化的难度，同时现有的自动识别方法也难以有效处理此类元素。
[0003]现有技术中存在两个技术问题：1.图表识别的有效性差。现有的技术对针对文本进行建模，而忽略的科技文档中的图表数据，对其适配度不足，难以成功识别。2.识别图表类型少。现有的方法只能对少数几种图表进行识别，而科技数据的图表类型繁多，现有方法难以覆盖其所有类型。

技术实现思路

[0004]针对上述现有的图表识别的有效性差、识别图表类型少的技术问题，本专利技术提供了一种基于STC
‑
OCR的科技图表识别方法，利用深度学习、OCR和图像处理技术从科技文本中提取所有图形，将其分类为各种图表类别，并从中检索有用的信息。
[0005]为了解决上述技术问题，本专利技术采用的技术方案为：
[0006]一种基于STC
‑
OCR的科技图表识别方法，包括下列步骤：
[0007]S1、数据获取，对文档图像进行分割得到图标数据；
[0008]S2、对S1...

【技术保护点】

【技术特征摘要】
1.一种基于STC
‑
OCR的科技图表识别方法，其特征在于：包括下列步骤：S1、数据获取，对文档图像进行分割得到图标数据；S2、对S1中图像分割得到的图标数据进行数据预处理；S3、将数据预处理后的图标进行分类；S4、对图标进行内容识别。2.根据权利要求1所述的一种基于STC
‑
OCR的科技图表识别方法，其特征在于：所述S1中对文档图像进行分割的方法为：使用基于Mask RCNN架构的预训练图像分割模型，将文档分解为五个类别：标题、文本块、列表、图和表，所述预训练图像分割模型基于ResNet50特征金字塔网络FPN基础配置，并在PubLayNet数据集上进行训练，用于文档布局分析，提取文档中的图标信息，所述图标信息包括树形图、网络图、气泡图。3.根据权利要求1所述的一种基于STC
‑
OCR的科技图表识别方法，其特征在于：所述S2中对图标数据进行数据预处理的方法为：将S1中图像分割得到的图标数据进行开运算，即对数据进行图像腐蚀，再对其进行膨胀，其中腐蚀尺度为3，膨胀尺度为5，以此去除数据中的噪点信息，同时修复因打印造成的白点问题，帮助网络更好的识别与学习数据特征。4.根据权利要求1所述的一种基于STC
‑
OCR的科技图表识别方法，其特征在于：所述S3中将图标进行分类的方法为：首先在ImageNet数据集上预训练的EfficientNet模型，之后除了最后的卷积层之外，冻结所有的层，将全连接层替换为使用softmax的13个图表类别分类层，并添加参数为0.2的DropOut层防止过拟合，使用Adam作为模型优化器，之后使用图表数据对模型进行进一步的训练。5.根据权利要求1所述的一种基于STC
‑
OCR的科技图表识别方法，其特征在于：所述S4对图标进行内容识别的方法为：包括下列步骤：S4.1、轴检测；S4.2、文本检测；S4.3、轴刻度检测；S4.4、轴标签检测；S4.5、数据提取。6.根据权利要求5所述的一种基于STC
‑
OCR的科技图表识别方法，其特征在于：所述S4.1中轴检测的方法为：将图像转换为二进制图像，然后获得每行和每列的最大连续图像；垂直和水平扫描矩阵，以跟踪相邻列和行中黑...

【专利技术属性】
技术研发人员：马瑾男，申利华，上官学奎，陆文瑞，刘东航，王志文，王渊，程平萍，张月平，司童，王威展，张颖，
申请(专利权)人：山西省信息产业技术研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人