一种基于深度学习的铸件文本检测与识别方法技术

技术编号:39724320 阅读:6 留言:0更新日期:2023-12-17 23:29
本发明专利技术公开了一种基于深度学习的铸件文本检测与识别方法,包括:传送装置将铸件传输到预定检测点位后,定位装置对铸件的位姿进行调整定位;在铸件定位好后,机械臂带动工业相机到达预定点位,对铸件进行拍照采样;将采样得到的图片传送给上位机,采用预训练并部署的文本检测模型

【技术实现步骤摘要】
一种基于深度学习的铸件文本检测与识别方法


[0001]本专利技术属于铸件文本检测与识别
,具体涉及一种基于深度学习的铸件文本检测与识别方法


技术介绍

[0002]OCR(Optical Character Recognition
,光学字符识别
)
是计算机视觉重要方向之一

传统定义的
OCR
一般面向扫描文档类对象,随着工业自动化的发展,
OCR
识别技术在工业场景中应用需求也越来越多,特别是对于水平文本适合使用
OCR
技术进行自动化,可以极大的减轻人力成本,提升效率

[0003]在工业应用场景中,往往环境干扰较大,字符本身存在残缺和污渍遮挡,这给
OCR
技术的实际应用带来了很大挑战,传统的字符检测技术,不能满足实际工业生产中的高准确率,高检测速度的需求

这给生产自动化带来了很大的制约

[0004]随着深度学习的发展,越来越多的
OCR
识别模型被提出来,在实际应用中,特别是在工业生产中,除了仿射变换

尺度问题

光照不足

拍摄模糊等算法层面的技术难点,
OCR
技术还面临两大落地难点:其一是端侧应用要求
OCR
模型足够轻量,识别速度足够快
。OCR
应用常部署在移动端或嵌入式硬件,其算力有限,对
OCR
模型的大小和预测速度有很高的要求

其二是工业应用场景中对模型识别的准确率有极高的要求,对于轻量化网络需要做到准确率与速度的权衡

[0005]OCR
技术主要包括3个主要方面,分别是文本检测

方向分类与文本识别

文本检测负责在图片中找到文字区域,并以矩形框的方式将文本区域在图片中裁剪出来,现有的检测算法分为基于回归和基于分割的两大类文本检测算法;方向分类器负责将文本区域旋正;文本识别负责旋正后的文本区域中的文字识别出来,识别算法大致分为基于
CRNN+CTC

Sequence2Sequence
两种

[0006]对于铸件上的字符文本检测,主要是对铸件上的生产型号批次进行检测

由于铸件字符存在残缺且形状不规范,与背景区域的对比度低,其字符识别难度高,现有的检测与识别算法直接应用的准确率低,需要经过相应的优化和后处理后才能实际场景中部署应用


技术实现思路

[0007]本专利技术所要解决的技术问题是针对上述现有技术的不足,提供一种基于深度学习的铸件文本检测与识别方法

[0008]为实现上述技术目的,本专利技术采取的技术方案为:
[0009]一种基于深度学习的铸件文本检测与识别方法,包括以下步骤:
[0010]步骤
1、
传送装置将铸件传输到预定检测点位后,定位装置对铸件的位姿进行调整定位;
[0011]步骤
2、
在铸件定位好后,机械臂带动工业相机到达预定点位,对铸件进行拍照采
样;
[0012]步骤
3、
将采样得到的图片传送给上位机,采用预训练并部署的文本检测模型

方向分类模型

文本识别模型进行文本的检测

方向分类

识别;
[0013]步骤
4、
识别出的结果在上位机中与数据库中数据进行匹配,匹配结果显示在交互界面

[0014]为优化上述技术方案,采取的具体措施还包括:
[0015]上述的步骤2所述工业相机为工业面阵相机,光源为围绕相机一圈的环形点阵白色光源,所述机械臂通过示教模式来确定预定点位

[0016]上述的步骤3所述文本检测模型

方向分类模型

文本识别模型的预训练与部署步骤如下:
[0017]S1、
采集带文本的铸件图片,并对采集到的图片进行标注,划分得到检测数据集

方向分类数据集

识别数据集;
[0018]S2、
对检测数据集

方向分类数据集

识别数据集中的图片进行预处理,扩充数据集;
[0019]S3、
分别对预处理后的检测数据集

方向分类数据集

识别数据集进行划分,得到各数据集对应的训练集

测试集

验证集;
[0020]S4、
对各数据集对应的训练集

测试集

验证集中数据进行归一化;
[0021]S5、
构建文本检测模型

方向分类模型

文本识别模型;
[0022]S6、
分别将检测数据集

方向分类数据集

识别数据集对应的训练集中数据输入对应的文本检测模型

方向分类模型

文本识别模型进行训练,得到训练后的检测模型

方向分类模型

识别模型;
[0023]S7、
对训练后的文本检测模型

方向分类模型

文本识别模型在各自数据集的验证集上进行性能评估,若评估未通过,则调整超参数后对模型再次进行训练,否则在各自数据集的测试集上评估对应模型的最终性能,最终性能满足要求后对模型进行上线部署

[0024]上述的步骤
S1
对采集到的图片进行标注的方式为:通过在通用数据集上训练好的模型进行预标注

[0025]上述的步骤
S2
对数据集中图片进行预处理的步骤包括:
[0026]1)
数据增广模拟铸件字符检测可能遇到的各种干扰,包括:通过仿射变换模拟相机采样时的角度偏斜;通过随机遮掩模拟铸件上字符缺失;通过运动模糊模拟铸件在相机采样过程中震动;
[0027]2)
将铸件上出现的文本字符裁剪成单个字符图片,按照铸件上字符的排列规则,将单个字符图片随机组合拼接成一行字符图片,对拼接出的字符图片随机缩放后再随机粘贴到没有字符的铸件图片上

[0028]上述的步骤
S3
中,训练集

测试集

验证集各包含1个文件夹和1个文本文件;对于检测数据集的训练集

测试集

验证集,其文件夹中存放原始图片,文本文件中每行存放对应1张原始图片路径和对应的矩形文本区域的4个顶本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于深度学习的铸件文本检测与识别方法,其特征在于,包括以下步骤:步骤
1、
传送装置将铸件传输到预定检测点位后,定位装置对铸件的位姿进行调整定位;步骤
2、
在铸件定位好后,机械臂带动工业相机到达预定点位,对铸件进行拍照采样;步骤
3、
将采样得到的图片传送给上位机,采用预训练并部署的文本检测模型

方向分类模型

文本识别模型进行文本的检测

方向分类

识别;步骤
4、
识别出的结果在上位机中与数据库中数据进行匹配,匹配结果显示在交互界面
。2.
根据权利要求1所述的一种基于深度学习的铸件文本检测与识别方法,其特征在于,步骤2所述工业相机为工业面阵相机,光源为围绕相机一圈的环形点阵白色光源,所述机械臂通过示教模式来确定预定点位
。3.
根据权利要求1所述的一种基于深度学习的铸件文本检测与识别方法,其特征在于,步骤3所述文本检测模型

方向分类模型

文本识别模型的预训练与部署步骤如下:
S1、
采集带文本的铸件图片,并对采集到的图片进行标注,划分得到检测数据集

方向分类数据集

识别数据集;
S2、
对检测数据集

方向分类数据集

识别数据集中的图片进行预处理,扩充数据集;
S3、
分别对预处理后的检测数据集

方向分类数据集

识别数据集进行划分,得到各数据集对应的训练集

测试集

验证集;
S4、
对各数据集对应的训练集

测试集

验证集中数据进行归一化;
S5、
构建文本检测模型

方向分类模型

文本识别模型;
S6、
分别将检测数据集

方向分类数据集

识别数据集对应的训练集中数据输入对应的文本检测模型

方向分类模型

文本识别模型进行训练,得到训练后的检测模型

方向分类模型

识别模型;
S7、
对训练后的文本检测模型

方向分类模型

文本识别模型在各自数据集的验证集上进行性能评估,若评估未通过,则调整超参数后对模型再次进行训练,否则在各自数据集的测试集上评估对应模型的最终性能,最终性能满足要求后对模型进行上线部署
。4.
根据权利要求3所述的一种基于深度学习的铸件文本检测与识别方法,其特征在于,步骤
S1
对采集到的图片进行标注的方式为:通过在通用数据集上训练好的模型进行预标注
。5.
根据权利要求1所述的一种基于深度学习的铸件文本检测与识别方法,其特征在于,步骤
S2
对数据集中图片进行预处理的步骤包括:
1)
数据增广模拟铸件字符检测可能遇到的各种干扰,包括:通过仿射变换模拟相机采样时的角度偏斜;通过随机遮掩模拟铸件上字符缺失;通过运动模糊模拟铸件在相机采样过程中震动;
2)
将铸件上出现的文本字符裁剪成单个字符图片,按照铸件上字符的排列规则,将单个字符图片随机组合拼接成一行字符图片,对拼接出的字符图片随机缩放后再随机粘贴到没有字符的铸件图片上
。6.
根据权利要求1所述的一种基于深度学习的铸件文本检测与识别方法,其特征在于,步骤
S3
中,训练集

测试集

验证集各包含1个文件夹和1个文本文件;对于检测数据集的训

【专利技术属性】
技术研发人员:李桂东徐健华
申请(专利权)人:南京耘瞳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1