一种基于深度学习的高反光金属表面字符识别方法技术

技术编号：39847853 阅读：6 留言：0更新日期：2023-12-29 16:46

本发明专利技术公开了一种基于深度学习的高反光金属表面字符识别方法，对包含金属表面文字的图像进行滤波处理；再对滤波处理后的图像进行

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的高反光金属表面字符识别方法

[0001]本专利技术属于工业机器人
，涉及字符识别技术，尤其涉及基于深度学习的高反光金属表面字符识别方法
。

技术介绍

[0002]随着数字信息时代的降临，图像中的字符识别在当下显得尤为重要
。
人工识别存在效率低下，时间成本高等缺点，大量重复性错误易引发工作失误
。
光学字符识别
(OCR
，
Optical Character Recognition)
作为计算机视觉领域一个不可或缺的分支，可解决字符信息的自动
、
高速
、
准确地输入到电子设备的问题
。OCR(
光学字符识别
)
技术的概念是在
1929
年由德国科学家
Tausheck
首次提出，
20
世纪六七十年代，世界各国开始有关
OCR
技术的研究
。OCR
是一种模拟人类视觉的信息处理方式
——
对包含文本内容的目标图像进行文本提取并数字化的一个过程，作为信息交互的一个重要的人机窗口，能够代替人工处理大量简单而重复的工作
。
[0003]OCR
字符识别技术经过多年发展，已有许多
OCR
算法如
LeNet、RRPN、DMPNet、CTPN
等网络结构被提出
。
然而，由于
OCR
>技术对于光照变化敏感，光线变化或者光线微弱的环境下，识别的效果难以保证；同时对于金属表面的
OCR
识别问题，不同材质金属表面的
OCR
字符在相同光照下，呈现出来的图像也并不一样，从而影响识别效果；而且由于深度学习中的神经元数量过大，计算数量大，从而导致网络复杂及耗时长；此外，在识别不同于训练集差异较大风格的字符时，识别效果不理想，从而在复杂环境
、
多变环境下识别不稳定
。

技术实现思路

[0004]本专利技术目的旨在针对现有技术中不同材质金属所造成的不同反光特性等问题，提供一种基于深度学习的高反光金属表面字符识别方法，能够实现在金属表面字符识别，且简化了网络结构，耗时短
、
准确率高
。
[0005]对于复杂工业背景下的零件表面字符，由于零件尺寸微小
、
识别环境阻力大，如不稳定的光照条件以及零件表面缺陷不一等
。
在识别字符以及获取其图像过程中，获取图像质量低，图像本身扭曲
、
遮挡
、
定位模糊及杂乱，为克服环境干扰，增强字符识别的准确率
。
本专利技术提供的基于深度学习的高反光金属表面字符识别方法，包括以下步骤：
[0006]S1
采集包含金属表面字符的图像；
[0007]S2
对包含金属表面字符的图像进行滤波处理；
[0008]S3
对滤波处理后的图像进行
Retinex
图像增强处理；
[0009]S4
通过模板匹配方法确定感兴趣区域；
[0010]S5
对感兴趣区域进行仿射变换；
[0011]S6
对字符进行检测，包括以下分步骤：
[0012]S61
对仿射变换得到的图像进行特征提取；
[0013]S62
基于提取特征获取预测文本概率图和动态阈值图；
[0014]S63
基于动态阈值图和文本概率图获取近似二值化图，近似二值化图轮廓，即为文本框；
[0015]S7
将获取文本框输入
CRNN
网络，对字符进行识别
。
[0016]上述步骤
S2
中，针对图像采集中因为外部干扰等因素造成的采集图像出现噪点影响识别问题，对图像进行中值滤波
。
中值滤波是基于排序统计理论的一种有效抑制噪声的非线性信号处理技术，可将数字图像或数字序列中一点的值用该点的一个领域中各点的中值代替，使周围像素值接近于真实值，从而消除孤立的噪声点，不依赖于领域内与典型值差别很大的值，具有运算简单
、
速度快
、
有效抑制椒盐噪声等优点
。
中值滤波计算公式如下：
[0017]F(x,y)
＝
Med{f(x
‑
θ
,y
‑
θ
),
…
,f(x,y),
…
,f(x+
θ
,y+
θ
)}
ꢀꢀ
(1)
[0018]其中，
Med
表示计算中值，
θ
表示滤波窗口大小
。
[0019]上述步骤
S3
中，光照不足可能导致细节不清晰，影响主观视觉效果，使得区域特征不明显，给目标检测
、
识别等操作带来困难
。
针对不同材质的反光特性与光照条件影响图像的成像质量问题，本专利技术采用
Retinex
图像增强方法进行图像增强，削弱光照影响
。Retinex
图像增强方法是基于人对颜色感知的恒常性的图像增强算法，可同时实现动态范围压缩
、
细节增强和色彩恒常性三方面特性
。Retinex
理论以颜色一致性为基础，通过消除或抑制环境光照，能够有效改善图像局部对比度，较好的保持图像自然性
。
多尺度
Retinex
图像增强按照以下公式实现：
[0020][0021]其中，
R
i
表示第
i
通道的反射分量，
i
＝
1,2,3
分别代表
R、G、B
三个通道；
I
i
表示步骤
S2
滤波处理所得图像第
i
个通道的分量；
N
为尺度参数个数，权重系数
ω
k
满足满足表示第
k
个尺度下的高斯模糊滤波器：
[0022][0023]其中，
c
k
表示第
k
个高斯滤波器的标准差
。
[0024]上述步骤
S4
中，金属表面字符因工作流程的原因可能出现在图像上的任意位置，虽然已有字符检测算法，但是字符的倾斜角度影响字符检测以及字符识别
。
本专利技术通过模板匹配法找到感兴趣区域，提高字符识别率
。
基于待识别高反光金属零件
(
也即待测金属工件
)
，构建包含感兴趣区域框架的模板，然后通过模板匹配
(
形本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于深度学习的高反光金属表面字符识别方法，其特征在于，包括以下步骤：
S1
采集包含金属表面字符的图像；
S2
对包含金属表面字符的图像进行滤波处理；
S3
对滤波处理后的图像进行
Retinex
图像增强处理；
S4
通过模板匹配方法确定感兴趣区域；
S5
对感兴趣区域进行仿射变换；
S6
对字符进行检测，包括以下分步骤：
S61
对仿射变换得到的图像进行特征提取；
S62
基于提取特征获取预测文本概率图和动态阈值图；
S63
基于动态阈值图和文本概率图获取近似二值化图，近似二值化图轮廓，即为文本框；
S7
将获取文本框输入
CRNN
网络，对字符进行识别
。2.
根据权利要求1所述的基于深度学习的高反光金属表面字符识别方法，其特征在于，步骤
S2
中，对包含金属表面字符的图像进行中值滤波
。3.
根据权利要求2所述的基于深度学习的高反光金属表面字符识别方法，其特征在于，中值滤波计算公式如下：
F(x,y)
＝
Med{f(x
‑
θ
,y
‑
θ
),
…
,f(x,y),
…
,f(x+
θ
,y+
θ
)} (1)
其中，
Med
表示计算中值，
θ
表示滤波窗口大小
。4.
根据权利要求1所述的基于深度学习的高反光金属表面字符识别方法，其特征在于，多尺度
Retinex
图像增强按照以下公式实现：其中，
R
i
表示第
i
通道的反射分量，
i
＝
1,2,3
分别代表
R、G、B
三个通道；
I
i
表示步骤
S2
滤波处理所得图像第
i
个通道的分量；

【专利技术属性】
技术研发人员：李强，朱明江，杨家勇，余平，黄兴才，
申请(专利权)人：四川乐成电气科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人