当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于改进制造技术

技术编号:39640986 阅读:7 留言:0更新日期:2023-12-09 11:07
本发明专利技术公开了一种基于改进

【技术实现步骤摘要】
一种基于改进PP

OCRv3的厂站接线图文本自动检测和识别方法



[0001]本专利技术涉及智能电网和计算机视觉领域,特别涉及一种基于改进
PP

OCRv3
的厂站接线图文本自动检测和识别方法


技术介绍


[0002]电网图纸管理和查找的自动化是十分迫切的

随着电网图纸规模的扩大,传统的手工识别图纸内容不仅效率低下,而且会出现错误

由于电网接线图中信息复杂,为了实现自动化过程,对电力图纸中文字标注位置检测和文本内容识别就变得尤为重要

[0003]电网厂站接线图中的文字标注的形式往往是多样的,有不同的形状

方向

尺寸

其中的字符不仅涉及阿拉伯数字和字母,还包含诸多汉字

因此,若想直接利用通用的光学字符识别模型来识别厂站接线图中的文本并不现实,检测准确率往往不佳

需要进一步研究能够有效适应厂站接线图中文字标注特点的文本检测和识别模型,以提升检测和识别的准确率

[0004]近年来,以深度学习为基础的方法在光学字符识别领域成绩斐然

基于深度学习的
OCR
技术成为电网接线图自动化

智能化的潜在途径

将深度学习运用到工程设计图纸的文字识别上,能够有效实现电网接线图的智能化自动识别任务/>。
[0005]最接近现有技术及其评析:
[0006]Laura Jamieson
等人
(Jamieson,L.,Moreno

Garcia,C.F.,Elyan,E.:Deep learning for text detection and recognition in complex engineering diagrams.In:2020International Joint Conference on Neural Networks(IJCNN).pp.1

7.IEEE(2020))
使用
EAST

LSTM
网络实现了针对复杂工程图纸中文本的检测和识别,研究结果表明,虽然所选择的深度学习方法能够检测和识别发生在简单场景中的文本,但更复杂的文本检测和识别,包括那些位于图元附近的文本以及横纵向文字混合的文本,仍然存在的挑战


Li
等人
(Shanbin,L.,Haoyu,W.,Junhao,Z.:Electrical cabinet wiring detection method based on improved yolov5 and pp

ocrv3.In:2022China Automation Congress(CAC).pp.6503

6508.IEEE(2022))
使用
YOLOv5

PP

OCRv3
提高了在电气柜布线图中文本检测和识别的精度表现
。PP

OCRv3
是两阶段文本识别模型的代表之一

在文本位置检测过程中,引入
DBNet
对文本区域进行检测

在此基础上,提出了文本建议

在文本特征提取过程中,根据文本建议将裁剪好的文本图像输入到
MobileNetv1
中进行特征提取

获取每个文本提案的特征映射
Fs。
在文本识别过程中,提出了一种基于
SVTR
的识别头来获取文本识别结果

然而
PP

OCRv3
在具有不规则形状和紧凑分布文本的多尺度电图中表现不佳

电网接线图中的文本标注形式往往是多种多样的,具有不同的形状

方向和大小

这些汉字不仅包括数字和字母,还包括汉字

当直接使用通用
OCR
模型来识别电图中的文本时,其准确性通常很差


技术实现思路

[0007]本专利技术的目的在于提供一种基于改进
PP

OCRv3
的厂站接线图文本自动检测和识别方法

[0008]技术方案要点:
[0009]本专利技术针对现有基于深度学习的电网图纸文本检测识别方法在处理多尺度

多方向

形状不规则的紧凑文本方面的局限性问题,提出了基于改进
PP

OCRv3
的厂站接线图文本自动检测和识别方法

利用基于像素行聚类的区域重分割模块,纠正了包含垂直和水平字符的不规则形状文本的检测错误

通过
BiFPN
模块中引入通道注意力机制和深度可分卷积,提高了识别模型对不同尺度输入图像的鲁棒性

利用基于区域扩展和切割的字符重识别模块,减少了简单字符和密集文本对模型的不利影响

实验结果表明,本专利技术通过对
PP

OCRv3
的一系列改进,可以显著提高厂站接线图中文本的检测和识别精度

[0010]本专利技术需要保护的技术方案表征为:
[0011]一种基于改进
PP

OCRv3
的厂站接线图文本自动检测和识别方法,其特征在于,包括如下步骤:
[0012]步骤1:将电网厂站接线图纸数据集分为训练集和测试集,分别用于文本检测和识别两个模型的训练和测试

[0013]步骤2:对输入图像进行文本位置检测,并构建区域重分割模块,用于对文本检测结果进行调整,解决对于同时包含横向和纵向文字的不规则文本的精确检测,据此得到文本候选框

[0014]步骤3:构建基于改进
BiFPN
的特征提取和融合网络,对经裁剪的文本图像提取特征信息,得到序列特征

[0015]步骤4:对序列特征进行编码和解码,并构建字符重识别模块,通过对简单中文字符和多行数字文本的识别结果进行微调,改善整体精度,据此得到文本识别结果

[0016]步骤5:将文本候选框和文本识别结果分别与相应真值计算得到检测和识别两个模型的损失

[0017]步骤6:根据损失,使用
Adam
优化器分别优化检测和识别两个网络模型

[0018]步骤7:循环执行步骤2‑6至两个网络均收敛,保存两个模型文件

[0019]步本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于改进
PP

OCRv3
的厂站接线图文本自动检测和识别方法,其特征在于,包括如下步骤:步骤1:将电网厂站接线图纸数据集分为训练集和测试集,分别用于文本检测和识别两个模型的训练和测试;步骤2:对输入图像进行文本位置检测,并构建区域重分割模块,用于对文本检测结果进行调整,解决对于同时包含横向和纵向文字的不规则文本的精确检测,据此得到文本候选框;步骤3:构建基于改进
BiFPN
的特征提取和融合网络,对经裁剪的文本图像提取特征信息,得到序列特征;步骤4:对序列特征进行编码和解码,并构建字符重识别模块,通过对简单中文字符和多行数字文本的识别结果进行微调,改善整体精度,据此得到文本识别结果;步骤5:将文本候选框和文本识别结果分别与相应真值计算得到检测和识别两个网络模型的损失;步骤6:根据损失,使用
Adam
优化器分别优化检测和识别两个网络模型;步骤7:循环执行步骤2‑6至两个网络模型均收敛,保存两个模型文件;步骤8:将测试图纸输入检测模型中预测得到文本候选框,再将裁剪后的文本图像输入识别模型预测得到文本识别结果
。2.
如权利要求1所述的一种基于改进
PP

OCRv3
的厂站接线图文本自动检测和识别方法,其特征在于,所述步骤2:所述文本检测分为基于原始
DBNet
网络模型的初步检测和基于区域重分割模块的进一步精修;首先,将待检测的测试图纸输入
DBNet
文本检测网络模型进行初步的文本框位置检测,具体来说:将输入图像经过基于金字塔结构的特征提取和融合,并进行可微分二值化,得到像素分割的二值图,然后经过一系列后处理,得到
kernel
轮廓和
kernel
边界;接下来,将所得输出送入区域重分割模块,进行文本候选框的进一步精修;所述区域重分割模块,其算法为基于像素行聚类的文本位置检测后处理方法;在
DBNet
基础上设计了一个基于像素行聚类的区域再分割模块,其具体做法如下:
S2.1
异常区域滤波步骤:计算每个文本
kernel
轮廓和边界框的
S
contour

kernel
轮廓围绕而成的区域的面积,
S
box

kernel
边界框围成区域的面积;区域分割模块用于对“问题区域”进行重新分割;
S2.2
像素行聚类步骤:记录“问题区域”kernel
轮廓内每条像素行的宽度并对轮廓区域进行基于行的聚类;具体来讲,将“问题区域”的二值图转化为一个列表
list

list
的长度是“问题区域”的高度
h

list[i]
表示第
i
行像素行;
list[i]
由一个二元组
[xmin
i
,xmax
i
]
构成,表示“问题区域”中的像素点的纵坐标
y

i
时,对应横坐标的最小值
xmin
i
和最大值
xmax
i
;根据
list
,得到该“问题区域”中每行文本像素的起止位置的横坐标;根据
list
,能够得到“问题区域”中每个像素行横坐标的起止位置;接下来,随机选择尚未被聚类的文本像素行
list[i]
作为聚类中心
center
,即:
center

list[i]

[xmin
i
,Xmax
i
]
然后从
list[i]
分别向上方和下方的像素行扩张;若扩张到的像素行
list[c]
与聚类中心的距离小于阈值
θ

θ
是根据电网图纸中不规则文本的统计规律得出的超参数,则将它归入当前类簇,上述过程表示为:
if abs(list[c][0],center[0])≤
θ and abs(list[c][1],center[1])≤
θ
:add list[c]to the current class cluster.
然后,根据新加入的像素行重新计算聚类中心,计算方式如下:其中
X
为当前聚类,
count()
为聚类中的元素个数;在这之后,继续向上和向下扩张,直至遇到像素行与聚类中心距离大于等于阈值
θ
的像素行,或已被聚类过的像素行,或到达像素行边界;循环执行聚类直至所有像素行都被聚类;
S2.3
阈值滤波步骤:设置
δ
作为该区域的阈值;如果类集群的面积小于
δ
,则过滤类集群;
S2.4
文本候选框形成步骤:将微调的文本
kernel
进行膨胀,生成文本候选框
。3.
如权利要求1所述的一种基于改进
PP

OCRv3
的厂站接线图文本自动检测和识别方法,其特征在于,所述步骤3:所述基于改进
BiFPN
的特征提取和融合网络是在
PP

OCRv3

MobileNetv1
的基础上设计的;在
MobileNetv1
之后,引入了一种改进
BiFPN
特征融合模块,用于提取厂站接线图中不同形状文本的多尺度特征;具体而言,在
BiFPN
的末端增加一个通道注意力模块,增强高级特征映射中的信息,提高全局特征拟合能力;采用深度可分离卷积代替网络中的所有卷积,进一步克服参数增加所导致的效率降低问题;使用
Hardswish
作为激活函数,进一步提高精度;特征映射
F1、F2、F3和
F4是
MobileNetv1
不同层的输出,尺度分别为
64
×
24

【专利技术属性】
技术研发人员:张冬冬赵宇倩
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1