当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于Swin Transformer的钢印字符识别方法和系统技术方案

技术编号:41213190 阅读:30 留言:0更新日期:2024-05-09 23:36
本发明专利技术提供了一种基于Swin Transformer的钢印字符识别方法及系统,属于图像识别技术领域。通过采集终端获取工件钢印图像,通过灰度变换、裁剪、压缩的预处理统一格式并精简数据;通过DBNet模型分割工件钢印图像得到钢印字符图像,并构建训练数据集,并划分为预训练部分和微调部分;利用Swin Transformer模型逐级高度下采样提取预训练部分的钢印字符图像的特征;基于CTC损失解码钢印字符图像的特征序列得到识别结果,训练模型至收敛;在微调部分的钢印字符图像上测试模型,针对识别错误的图像继续训练微调模型。本发明专利技术能够准确且高效地识别易受背景纹理、光照条件等干扰且缺乏语义信息的钢印字符。

【技术实现步骤摘要】

本专利技术涉及图像识别,特别涉及一种基于swin transformer的钢印字符识别方法和系统。


技术介绍

1、随着工业生产技术的发展和生产规模的扩大,大量标准化工业元件在外观上难以区分和管理,因此需要额外的标记,例如条码标签和钢印编号。相较于直接扫描即可得到结果的条形码与二维码,钢印编号需要人力键入或使用场景文本识别技术,如基于cnn-rnn的模型和视觉-语言模型,才能录入生产管理系统实现数字化。

2、然而,金属切割、表面处理产生的独有纹理,高反射率金属表面特有的强烈反光,以及钢印字符本身相对于背景的低对比度,都会对识别带来干扰,导致传统的基于深度学习的场景文本识别方法,如基于cnn-rnn的模型,难以在钢印图像上达到理想的效果。

3、同时,钢印编号由拉丁字母与数字随机排列组成,缺乏明确的语义信息,因此视觉-语言模型难以将语义信息融入视觉信息中,识别准确率不尽人意;并且由于参数大、结构复杂,视觉-语言模型的识别效率偏低,难以满足效率至上的工业生产管理的需要。

4、因此,纯视觉模型更适合用于识别钢印字符,例如基于注意力本文档来自技高网...

【技术保护点】

1.一种基于Swin Transformer的钢印字符识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于Swin Transformer的钢印字符识别方法,其特征在于,所述通过采集终端获取工件钢印图像时,配置遮光与补光模块,为工业相机拍摄高反射率的工件钢印图像提供光照条件。

3.根据权利要求1所述的一种基于Swin Transformer的钢印字符识别方法,其特征在于,所述灰度变换、裁剪、压缩的预处理过程包括::

4.根据权利要求1所述的一种基于Swin Transformer的钢印字符识别方法,其特征在于,所述DBNet模型以Mo...

【技术特征摘要】

1.一种基于swin transformer的钢印字符识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于swin transformer的钢印字符识别方法,其特征在于,所述通过采集终端获取工件钢印图像时,配置遮光与补光模块,为工业相机拍摄高反射率的工件钢印图像提供光照条件。

3.根据权利要求1所述的一种基于swin transformer的钢印字符识别方法,其特征在于,所述灰度变换、裁剪、压缩的预处理过程包括::

4.根据权利要求1所述的一种基于swin transformer的钢印字符识别方法,其特征在于,所述dbnet模型以mobilenetv3为主干网络,利用fpn结构提取输入的工件钢印图像的多尺度特征并拼接得到特征图;基于特征图,分别使用一个卷积层和两个转置卷积层获取预测的概率图和阈值图,并利用db算法计算二值化阈值,将低于阈值的像素点置0,高于阈值的像素点置1,得到近似二值图,分割得到钢印字符图像。

5.根据权利要求1所述的一种基于swin transformer的钢印字符识别方法,其特征在于,所述步骤3包括:

<...

【专利技术属性】
技术研发人员:姚洙轶李俊吴吉义干红华
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1