基于深度学习网络的复杂条件字符识别方法技术

技术编号：40142751 阅读：5 留言：0更新日期：2024-01-23 23:52

本发明专利技术公开了基于深度学习网络的复杂条件字符识别方法，属于字符识别技术领域。本发明专利技术的字符识别方法采用的系统包括：图像预处理模块、高通滤波引导模块、特征提取模块、检测模块。图像预处理模块用于消除字符随机角度影响；高通滤波引导模块用于强化字符的高频特征，突出其边缘信息；特征提取模块用于强调高频边缘信息消除模糊的同时抑制连续杂波特征干扰，检测模块设计解耦检测头，使得网络更加分别专注于回归和分类输出，本发明专利技术解决了工况复杂、脏污和水渍以及产线高速运动引起的日期字符杂波噪声干扰和运动模糊的问题，有效地提升了识别精度和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及基于深度学习网络的复杂条件字符识别方法，属于字符识别。

技术介绍

1、食品包装生产日期是决定食品安全的重要因素之一，gb 7718-2011《预包装食品标签通则》规定，标签应清晰、醒目、持久，日期标示应清晰标示预包装食品的生产日期，易拉罐食品包装流水工况复杂以及打印装置质量不一，在罐底区域易出现脏污、水渍等现象，导致字符具有杂波等噪声。由于快节奏的生产节拍，对罐底生产日期进行人工目检效率低下，不具有可行性。

2、字符识别传统方法主要有基于图像匹配和基于统计的方法，“孙晓娜,刘继超,高国华.基于视觉的乳品包装日期喷码缺陷检测技术[j].食品与机械,2018,34(10):100-103+108.”使用灰度模板匹配的方法对乳品包装日期字符进行识别。“马玲,罗晓曙,蒋品群.基于模板匹配和支持向量机的点阵字符识别研究[j].计算机工程与应用,2020,56(04):134-139.”将模板匹配结合支持向量机识别点阵字符。而他们均采用最大类间方差法分割字符，使用投影法切分字符，此方法在具有杂波噪声干扰及图像模糊时鲁棒性差，且都是用像素统计思想提取字符特征，特征单一，对复杂条件的字符识别效果较差。

3、深度学习的兴起对ocr领域产生了重大影响，字符图像识别的思路从手工设计特征逐渐转变为自动提取深层特征。“shi b,bai x,yao c.an end-to-end trainableneural network for image-based sequence recognition and its

4、针对复杂条件下的字符目标，具有模糊和杂波噪声干扰特点，设计一种高速鲁棒的复杂条件下字符识别算法，克服以上缺点，具有重要意义。

技术实现思路

1、为了提升复杂条件下具有模糊和杂波噪声干扰特点的字符目标识别精度和识别速度，本专利技术提供了基于深度学习网络的复杂条件字符识别方法，所述技术方案如下：

2、本专利技术的第一个目的在于提供一种字符识别方法，包括：

3、步骤1：采集待识别的字符图像并进行预处理，包括：提取字符区域，对字符区域进行旋转矫正；

4、步骤2：针对预处理后的字符图像，采用高通滤波器引导模块强化字符的高频特征，突出边缘信息，减小运动模糊带来的特征丢失；

5、步骤3：采用patch partition对所述步骤2得到的强化特征图进行分块，然后依次通过4个层级式的特征提取模块完成特征提取，每个特征提取模块包括：swin t cspbottleneck；

6、步骤4：第2、3、4个所述swin t csp bottleneck生成的特征图被输入至yolov5的fpn+pan层，分别自顶向下和自底向上进行多尺度特征融合；

7、步骤5：将所述步骤4得到的融合特征图输入yolov5头部的轻量解耦合检测头，得到回归框和类别，在图像上框出字符识别结果，同时返回识别文本。

8、可选的，所述步骤3中特征提取的过程包括：在主分支上，通过线性变换层对特征通道赋予权重；然后经过n个swin t block后，与次分支卷积结果拼接；最后使用1×1卷积改变通道数量减小网络参数，输出特征图；

9、所述swin t block的处理流程包括：

10、步骤31：采用ln层对输入特征图x进行归一化；

11、步骤32：采用w-msa层对所述步骤31得到的特征图进行注意力计算，然后经过残差计算的方式得到特征图x′；

12、步骤33：将所述步骤32得到的特征图x′依次经过ln层和带gelu非线性激活函数的多层感知机计算权重信息，经过与x'的残差计算，得到特征图xl1；

13、步骤34：将所述步骤33提取的特征依次输入ln层和sw-msa进行注意力计算，再与特征图xl1进行残差计算，得到特征图x′l1；

14、步骤35：所述步骤34的输出x′l1再次经过ln层和带gelu非线性激活函数的多层感知机计算权重信息，再与特征图x′l1进行残差计算，得到特征图xl2。

15、可选的，所述步骤2中高通滤波器引导模块的计算过程包括：

16、步骤21：对图像进行快速傅里叶变换将图像转化到频域，然后进行高通滤波保留高频部分信息，再用逆快速傅里叶变换将图像还原；

17、步骤22：使用灰度线性归一化法将正像素值归一至0到1，同时将ifft算得的非正值结果置零，突出目标边缘；

18、步骤23：通过2个深度超参数卷积层对傅里叶变换后的图像初步提取特征；

19、第一个深度超参数卷积层为2个卷积核大小为6*6、步长为1、填充为0的卷积操作，第二个深度超参数卷积层为2个卷积核大小为6*6、步长为1、填充为0的卷积操作；

20、步骤24：通过2个深度超参数卷积层待测图像初步提取特征；

21、第一个深度超参数卷积层为2个卷积核大小为6*6、步长为1、填充为0的卷积操作，第二个深度超参数卷积层为2个卷积核大小为6*6、步长为1、填充为0的卷积操作；

22、步骤25：将所述步骤23和步骤24的输出进行cat拼接。

23、可选的，所述步骤1的预处理过程包括：

24、步骤11：采用双大津法进行图像阈值分割，以提取出字符区域；

...

【技术保护点】

1.一种字符识别方法，其特征在于，所述字符识别方法包括：

2.根据权利要求1所述的字符识别方法，其特征在于，所述步骤3中特征提取的过程包括：在主分支上，通过线性变换层对特征通道赋予权重；然后经过n个Swin T block后，与次分支卷积结果拼接；最后使用1×1卷积改变通道数量减小网络参数，输出特征图；

3.根据权利要求1所述的字符识别方法，其特征在于，所述步骤2中高通滤波器引导模块的计算过程包括：

4.根据权利要求1所述的字符识别方法，其特征在于，所述步骤1的预处理过程包括：

5.根据权利要求1所述的字符识别方法，其特征在于，所述轻量解耦合检测头的计算流程包括：

6.根据权利要求4所述的字符识别方法，其特征在于，所述双大津法采用最大类间方差思想，计算三类像素的类间方差，嵌套遍历两个阈值，使类间方差最大，所述三类像素的类间方差计算方法如下：

7.根据权利要求4所述的字符识别方法，其特征在于，所述旋转矩阵的计算方法为：

8.一种字符识别系统，其特征在于，用于实现权利要求1-7任一项所述的字符识别方法，所述系统基于包括：

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时，实现如权利要求1-7任一项所述的字符识别方法。

...

【技术特征摘要】

1.一种字符识别方法，其特征在于，所述字符识别方法包括：

2.根据权利要求1所述的字符识别方法，其特征在于，所述步骤3中特征提取的过程包括：在主分支上，通过线性变换层对特征通道赋予权重；然后经过n个swin t block后，与次分支卷积结果拼接；最后使用1×1卷积改变通道数量减小网络参数，输出特征图；

3.根据权利要求1所述的字符识别方法，其特征在于，所述步骤2中高通滤波器引导模块的计算过程包括：

4.根据权利要求1所述的字符识别方法，其特征在于，所述步骤1的预处理过程包括：

5.根据权利要求1所述的字符识别方法，其特征在于，所述轻量解...

【专利技术属性】
技术研发人员：丁志鹏，吴静静，庄祉珊，肖天行，
申请(专利权)人：无锡九霄科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人