【技术实现步骤摘要】
一种基于STC
‑
OCR的科技图表识别方法
[0001]本专利技术属于科技图表识别方法
,具体涉及一种基于STC
‑
OCR的科技图表识别方法。
技术介绍
[0002]在进行科技大数据的管理过程中,对现有科技文本资料的电子化是一项非常重要的工作,这些资料数量庞大,若由人工进行识别录入,将消耗极大的人力物力,同时效率极低。同时,科技数据文档通常使用图形、图表作为数据表示和解释的媒介,这更加增大了文档电子化的难度,同时现有的自动识别方法也难以有效处理此类元素。
[0003]现有技术中存在两个技术问题:1.图表识别的有效性差。现有的技术对针对文本进行建模,而忽略的科技文档中的图表数据,对其适配度不足,难以成功识别。2.识别图表类型少。现有的方法只能对少数几种图表进行识别,而科技数据的图表类型繁多,现有方法难以覆盖其所有类型。
技术实现思路
[0004]针对上述现有的图表识别的有效性差、识别图表类型少的技术问题,本专利技术提供了一种基于STC
‑
OCR的科技图表识别方法,利用深度学习、OCR和图像处理技术从科技文本中提取所有图形,将其分类为各种图表类别,并从中检索有用的信息。
[0005]为了解决上述技术问题,本专利技术采用的技术方案为:
[0006]一种基于STC
‑
OCR的科技图表识别方法,包括下列步骤:
[0007]S1、数据获取,对文档图像进行分割得到图标数据;
[0008]S2、对S1 ...
【技术保护点】
【技术特征摘要】
1.一种基于STC
‑
OCR的科技图表识别方法,其特征在于:包括下列步骤:S1、数据获取,对文档图像进行分割得到图标数据;S2、对S1中图像分割得到的图标数据进行数据预处理;S3、将数据预处理后的图标进行分类;S4、对图标进行内容识别。2.根据权利要求1所述的一种基于STC
‑
OCR的科技图表识别方法,其特征在于:所述S1中对文档图像进行分割的方法为:使用基于Mask RCNN架构的预训练图像分割模型,将文档分解为五个类别:标题、文本块、列表、图和表,所述预训练图像分割模型基于ResNet50特征金字塔网络FPN基础配置,并在PubLayNet数据集上进行训练,用于文档布局分析,提取文档中的图标信息,所述图标信息包括树形图、网络图、气泡图。3.根据权利要求1所述的一种基于STC
‑
OCR的科技图表识别方法,其特征在于:所述S2中对图标数据进行数据预处理的方法为:将S1中图像分割得到的图标数据进行开运算,即对数据进行图像腐蚀,再对其进行膨胀,其中腐蚀尺度为3,膨胀尺度为5,以此去除数据中的噪点信息,同时修复因打印造成的白点问题,帮助网络更好的识别与学习数据特征。4.根据权利要求1所述的一种基于STC
‑
OCR的科技图表识别方法,其特征在于:所述S3中将图标进行分类的方法为:首先在ImageNet数据集上预训练的EfficientNet模型,之后除了最后的卷积层之外,冻结所有的层,将全连接层替换为使用softmax的13个图表类别分类层,并添加参数为0.2的DropOut层防止过拟合,使用Adam作为模型优化器,之后使用图表数据对模型进行进一步的训练。5.根据权利要求1所述的一种基于STC
‑
OCR的科技图表识别方法,其特征在于:所述S4对图标进行内容识别的方法为:包括下列步骤:S4.1、轴检测;S4.2、文本检测;S4.3、轴刻度检测;S4.4、轴标签检测;S4.5、数据提取。6.根据权利要求5所述的一种基于STC
‑
OCR的科技图表识别方法,其特征在于:所述S4.1中轴检测的方法为:将图像转换为二进制图像,然后获得每行和每列的最大连续图像;垂直和水平扫描矩阵,以跟踪相邻列和行中黑...
【专利技术属性】
技术研发人员:马瑾男,申利华,上官学奎,陆文瑞,刘东航,王志文,王渊,程平萍,张月平,司童,王威展,张颖,
申请(专利权)人:山西省信息产业技术研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。