当前位置: 首页 > 专利查询>浙江大学专利>正文

一种面向多种类型数显仪表的字符检测和识别方法技术

技术编号:35062620 阅读:17 留言:0更新日期:2022-09-28 11:17
本发明专利技术公开了一种面向多种类型数显仪表的字符检测和识别方法,基于数显仪表样本库进行数据标注,构建数显仪表数显区域检测数据集;根据构建的数显仪表数显区域检测数据集,搭建并训练数显仪表数显区域检测模型,自动定位数显区域位置,根据其定位结果进行裁剪;数显字符识别数据集构建和标注;搭建数显字符识别模型,并根据所构建的数显字符识别数据集进行训练;将数显仪表旋转识别和旋转矫正和训练的到的两个模型进行串联,用于对数显仪表进行定位和识别,得到数显仪表所显示的示数。本发明专利技术解决了具有倾斜角度的多类数显仪表识别困难、准确度不高、鲁棒性低的问题。鲁棒性低的问题。鲁棒性低的问题。

【技术实现步骤摘要】
一种面向多种类型数显仪表的字符检测和识别方法


[0001]本专利技术属于图像处理领域,尤其涉及一种面向多种类型数显仪表的字符检测和识别方法。

技术介绍

[0002]数显仪表在仪器测量领域有着广泛应用,但不同的应用场景所使用的数显仪表也各有不同。以测量领域中常见的数字天平为例,通过仪表盘上的数显区域可以获得测量的数据,但由于缺少通讯接口,因此很难自动获取具体数字。在实际的测量过程中,一般采用人工采集的方式对数据进行记录,这样不仅耗时耗力,而且人在高频率的记录下容易造成误输入。然而,随着计算机视觉技术的迅速发展,各种数显仪表识别算法随之出现,通过计算机视觉自动获取数显仪表数据的方式,已成为实现仪器测量自动化的重要手段之一。
[0003]目前已有许多公开的数显仪表数字检测和识别算法。如徐贵力等(CN103984930A)提出了基于视觉的数字仪表识别系统及其识别方法,首先利用亮度阈值和颜色阈值,二值化图像得到数字区域,再利用二值化和垂直投影法对数字进行分割,然后基于BP神经网络实现了对七段数码管这一类型的数显仪表数字识别。如张方等(CN111539330A)提出了一种基于双SVM多分类器的变电站数显仪表识别方法,采用最大类间方差法获得二值化的阈值实现了数显仪表的数字区检测,再通过图像归一化和开闭运算实现单一字符的分割流程,最后通过训练两个SVM对分割后的单个字符进行预测,将得到的预测值加权后输出为最终的识别结果。
[0004]现有的大部分方法在识别同一类型的数显仪表时可以取得较好的效果,但无法适用于具有多种类型数显仪表的场景。此外,大部分数显仪表数字检测算法,是利用单一阈值进行二值化,以区分图像中的数显仪表的数字区域和其余区域。这种方法在面对多类型的数显仪表时,采用的是单一阈值,不能区分所有类型的数显仪表。此外,目前大部分数显仪表的数字识别方法,需要先对数字进行分割,然后将分割后的每个数字送分类网络中进行分类识别,字符分割结果的好坏会直接影响后续的识别过程,鲁棒性不高。同时,对于单个数字的识别网络,需要对数显仪表上的每个数字进行标注,标注成本较高。

技术实现思路

[0005]本专利技术的目的在于针对现有技术的不足,提供一种面向多种类型数显仪表的字符检测和识别方法。本专利技术利用图像处理、卷积神经网络、CTC(Connectionist Temporal Classification)构建深度学习模型,实现对室内场景下多类型数显仪表的数字检测和识别。
[0006]本专利技术的目的是通过以下技术方案来实现的:一种面向多种类型数显仪表的字符检测和识别方法,包括以下步骤:
[0007]S1:在统一场景下采集多种类型的数显仪表的图像。
[0008]S2:对S1中采集到的图像进行旋转识别和矫正,构建数显仪表图像样本库。
[0009]S3:对S2构建的数显仪表图像样本库进行数据标注,构建数显仪表的数字检测数据集。
[0010]S4:根据S3构建的数显仪表的数字检测数据集,搭建并训练数显仪表的数字检测模型,自动定位数显区域位置。
[0011]S5:构建数显字符识别数据集,由两部分组成,一部分由训练后的模型预测结果和标注组成,另一部分通过数据增强手段得到。
[0012]S6:搭建数显仪表的数显字符识别模型,并根据所构建的数显字符识别数据集进行训练。
[0013]S7:将S2中数显仪表旋转识别矫正步骤和S4,S6中训练的到的两个模型进行串联,用于对数显仪表的数字检测和识别,得到数显仪表所显示的示数。
[0014]进一步地,步骤S2中涉及到的图像旋转识别和矫正包含以下步骤:
[0015]S2.1:对得到的图像转化成灰度图。
[0016]S2.2:对得到的灰度图进行canny边缘检测。
[0017]S2.3:对得到的边缘检测图进行霍夫直线检测。
[0018]S2.4:求出所有直线相对于图像水平方向的角度。
[0019]S2.5:对所有的角度进行筛选,然后进行Canopy聚类,以聚类后数量最多的类求角度的平均值作为整个图像的旋转角度。
[0020]S2.6:对得到的旋转角度进行衍射变换。
[0021]进一步地,步骤S3利用Labelme工具进行数显仪表目标框标注和显示数字标注,形成数字检测数据集。
[0022]进一步地,步骤S4中数显仪表的数字检测检测模型,包括:
[0023]S4.1:特征提取层。主干网络采用VGG16的网络架构,选取其第五个卷积层输出作为下一个结构的输入,此时得到的特征大小为输入长宽的1/16。
[0024]S4.2:残差特征融合层。为了得到更高的语义特征和更大的感受野,以增强算法针对不同大小的文本检测能力,本专利技术设计了一种残差特征融合层的结构。首先把经过S4.1得到的特征图上添加了步长为3
×
3、通道数为1024的卷积层、以及一层步长为2的池化层,得到另一个特征图,大小为输入长宽的1/32。再通过双线性差值算法进行上采样将该特征图放缩到大小为输入长宽的1/16,双线性差值的公式如下:
[0025]src
x
=des
x
×
src
w
÷
des
w
[0026]src
y
=des
y
×
src
h
÷
des
h
[0027]其中,src
x
和src
y
代表目标图像中的像素坐标,des
x
和des
y
代表原图像的像素坐标,src
w
和src
h
代表目标图像的宽和高,des
w
和des
h
代表原图像的宽和高。
[0028]设需要进行双线性差值的点为P(x,y),Q
11
、Q
12
、Q
12
、Q
21
、Q
22
为原图中的四个已知的坐标点,插值后的值的计算公式如下:
[0029]f(x,y)=h(Q
11
)w
11
+h(Q
12
)w
12
+h(Q
21
)w
21
+h(Q
22
)w
22
[0030]其中,h(Q
ij
)为原来点的像素值,w
ij
为权重系数与P点到各个定点的距离有关。将上采样的结果通过拼接(Concat)的方式与S4.1得到的特征图,进行特征融合。再将特征融合的结果送入一个3
×
3的卷积层,以消除上采样来混叠效应,并在此基础上再加入一次批标准化,最终得到特征融合后的特征图。
[0031]S4.3:序列信息提取层。采用双向的LSTM提取序列信息。
...

【技术保护点】

【技术特征摘要】
1.一种面向多种类型数显仪表的字符检测和识别方法,其特征在于,包括以下步骤:S1:采集各类数显仪表的图像;S2:对S1中采集到的图像进行旋转识别和旋转矫正后,构建数显仪表图像样本库;S3:对S2构建好的数显仪表图像样本库,进行数据标注,构建数显仪表数显区域检测数据集;S4:根据S3构建的数显仪表数显区域检测数据集,搭建并训练数显仪表数显区域检测模型,定位数显区域位置;S5:数显仪表数显字符识别数据集构建和标注;S6:搭建数显仪表数显字符识别模型,并根据S5构建的数显仪表数显字符识别数据集,进行训练;S7:将待识别数显仪表图像,经过S2处理后,输入S4训练的数显仪表数显区域检测模型进行定位,再将定位区域的图像,输入S6训练的数显仪表数显字符识别模型,识别得到数显仪表显示的示数。2.根据权利要求1所述面向多种类型数显仪表的字符检测和识别方法,其特征在于,步骤S2中,对S1中采集到的图像进行旋转识别和旋转矫正,包含以下步骤:S2.1:对S1得到的图像转化成灰度图;S2.2:对S2.1得到的灰度图进行canny边缘检测;S2.3:对S2.2得到的边缘检测图进行霍夫直线检测;S2.4:求出S2.3得到的所有直线相对于图像水平方向的角度;S2.5:对S2.4得到的所有的角度进行筛选,然后进行Canopy聚类,以聚类后数量最多的类,求角度的平均值,作为整个图像的旋转角度;S2.6:对S2.5得到的旋转角度进行衍射变换,得到的旋转矫正后的图像。3.根据权利要求1所述面向多种类型数显仪表的字符检测和识别方法,其特征在于,步骤S3中,利用Labelme工具,进行数显仪表目标框标注和显示数字标注,形成数显仪表数显区域检测数据集。4.根据权利要求1所述面向多种类型数显仪表的字符检测和识别方法,其特征在于,步骤S4中,数显仪表数显区域检测模型,包括:S4.1:特征提取层;主干网络采用VGG16的网络架构,选取其第五个卷积层输出作为下一个结构的输入,此时得到的特征大小为输入长宽的1/16;S4.2:残差特征融合层;首先在S4.1得到的特征图上添加了步长为3
×
3、通道数为1024的卷积层、以及一层步长为2的池化层,得到另一个特征图,大小为输入长宽的1/32;再通过双线性差值算法进行上采样,将该特征图放缩到大小为输入长宽的1/16;将上采样的结果,通过拼接的方式,与S4.1得到的特征图,进行特征融合;再将特征融合的结果送入一个3
×
3的卷积层,并在此基础上再加入一次批标准化,最终得到特征融合后的特征图;S4.3:序列信息提取层;采用双向的LSTM提取S4.2特征融合后的特征图的序列信息;S4.4:全连接层;通过全连接层将S4.3得到的序列信息映射成两个预测结果;S4.5:预设预选框层;预设S4.4得到的预测结果所对应的每个点的anchor的个数和大小,再利用S4.4得到的预测结果,修正anchor的高度和中心点y轴方向坐标;S4.6:非极大抑制层;对S4.5得到的所有anchor进行非极大值抑制操作;
S4.7:文本连接层;利用文本连接算法将S4.6得到的anchor进行连接,得到最终的预测区域。5.根据权利要求4所述面向多种类型数显仪表的字符检测和识别方法,其特征在于,步骤S4.2中,双线性差值的公式如下:src
x
=des
x
×
src
w
÷
des
w
src
y
=des
y
×
src
h
÷
des
h
其中,src
x
和src
y
代表目标图像中的像素坐标,de...

【专利技术属性】
技术研发人员:朱秋国文宣璋王裕霞吴俊熊蓉
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1