当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于计算机视觉的金属板带产品标签信息识别方法技术

技术编号:20869754 阅读:43 留言:0更新日期:2019-04-17 10:00
本发明专利技术公开了一种基于计算机视觉的金属板带产品标签信息识别方法,通过轻量级网络的分割获取产品标签区域的位置,经过图像处理手段获取产品标签的坐标信息,实现透视变换的矫正,利用VGG16进行旋转文本的识别,利用方差方法进行文字旋转小角度的配准,有效地提升了文本位置的检测以及文本识别的精度,采用了YOLOv3以及ENet使得文本的矫正与位置获取更快更准,有效地较小计算机的损耗以及对于计算机性能的要求,利用CRNN中LSTM的特点实现不定长文本的检测,有效地提升检测的性能,在光照不均匀、复杂背景、多语言混合、文本复杂版式、产品标签图片旋转、仿射扭曲以及透视扭曲等自然场景下均有良好的识别性能,为金属板带产品标签信息的录入提供便利。

【技术实现步骤摘要】
一种基于计算机视觉的金属板带产品标签信息识别方法
本专利技术涉及图像处理
,尤其涉及一种集“传统图像处理、目标分割、目标检测和文本识别”于一体的金属板带产品标签文字信息识别方法。
技术介绍
钢铁企业中将订购产品的相关订购信息录入到企业系统是完成入库操作的一个重要环节,且人工录入信息非常耗时耗力,当存在大量入库产品时,难以在短时间内完成,严重影响了生产效率,因此,利用现有的图像处理技术来帮助企业提高产品标签信息的录入效率是急需解决的问题。传统的文本识别方法首先进行文本定位,接着进行倾斜文本矫正,之后分割出单字后,并对单字识别,最后基于统计模型(如隐马尔科夫链,HMM)进行语义纠错,在面对自然场景下拍摄的产品标签图片所具有的复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本复杂版式等情况时,失去了文本识别的能力。现有先进的基于深度学习的文本识别方法在自然场景的文本识别中表现出了很大的优越性,但是在产品标签图片存在仿射变形、透视变形以及旋转变换等严重扭曲的情况下同样不能够准确识别文本信息,文本召回率低下。现有的文本识别技术在钢铁行业中还未得到普及和有效应用,对于钢铁企业产品标签信息还没有有效的识别技术。
技术实现思路
根据上述提出的技术问题,而提供一种基于计算机视觉的金属板带产品标签信息识别方法。本专利技术采用的技术手段如下:一种基于计算机视觉的金属板带产品标签信息识别方法,具有如下步骤:S1:对现场随机拍摄的金属板带产品标签图片进行分割处理:利用轻量级ENet网络对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行分割,将产品标签区域和其他背景区域分离;进行不同颜色的标记:在产品标签区域和其他背景区域分别生成不同的掩码以示区分;S2:将步骤S1中得到的带有分割掩码的图片进行灰度化处理,保留最佳连通区域作为产品标签区域,同时删除剩余的所有连通区域;S3:将步骤S2得到的图片进行图像的腐蚀和膨胀处理,利用Douglas-Peucker算法将联通区域的轮廓形状近似为由4个点组成的轮廓形状,钢铁企业的产品标签轮廓是一个标准的矩形,在实际的拍摄中存在旋转、偏移和透视等情况导致产品标签图片中产品标签的轮廓发生扭曲成为不规则的矩形,利用轮廓近似实现对产品标签区域的拟合;S4:以像素为单位确定步骤S3得到的拟合轮廓的坐标信息;S5:根据步骤S4得到的坐标信息,利用透视变换对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行校正,消除拍摄中透视变换的影响;S6:将步骤S5中得到的校正图片输入到VGG16网络中进行产品标签区域旋转角度angle的识别:主要识别的产品标签区域旋转方向为0,90,180,270四个角度;S7:计算步骤S5中得到的校正图片的方差信息,估计产品标签区域中的文字角度angletext;S8:根据步骤S6和步骤S7得到的产品标签区域旋转角度angle和文字角度angletext对步骤S5得到的校正图片进行二次校正,输入到YOLOv3网络进行文本位置的检测;S9:将步骤S8中得到的带有文本信息区域的图片进行合并和筛选,将最后切割的含有文本信息区域的图片逐个输入到CRNN网络中进行文本的识别;S10:针对企业产品标签中的重点字段的特点建立数据字典信息,利用最短编辑距离(Levenshtein距离)方法和正则匹配对步骤S9识别的文本信息进行校准。步骤S1的具体步骤如下:S11:利用双线性插值的方法将现场随机拍摄的金属板带产品标签图片的尺寸大小调整为480×360;S12:利用轻量级ENet网络对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行分割,将产品标签区域和其他背景区域分离,分割的类别设置为2;S13:将分割掩码的RGB颜色设为:分割的产品标签区域(128,0,0),分割的背景区域(128,128,128),分割得到的结果分别利用该颜色进行标记,作为最终的分割结果。步骤S2的具体步骤如下:S21:获取现场原始拍摄的金属板带产品标签图片的尺寸大小(width,height),将步骤S13得到的尺寸为480×360的带有分割掩码的图片利用双线性插值方法调整为(width,height)并进而灰度化处理;S22:对步骤S21得到的灰度图片进行逐像素标记,采用8邻接方式判断两个像素是否相邻,若两个像素点相邻且值相同,则认为这两个像素点在一个相互连通的区域内,且同一连通区域的所有像素点,用同一个数值来进行标记;S23:判断连通区域的数量并计算各联通区域的大小:area0,area1…arean;S24:当联通区域的个数为1时,对该图片不进行任何操作而直接保存该图片,否则直接删除第一个连通区域area0,依次遍历剩余的连通区域,从中选出最大的连通区域后,删除其他n-1个连通区域,其中删除的各区域变为背景,选出的最大的连通区域为最佳连通区域,也就是产品标签区域。步骤S3的具体步骤如下:S31:将步骤S24得到的图片进行二值化处理,二值化的最小灰度阈值设为127,最大灰度阈值设为255;S32:利用大小为(width/100,height/100)大小的腐蚀卷积核对步骤S31得到的图片进行腐蚀,减去不规则的边缘;S33:利用与腐蚀卷积核相同大小的膨胀卷积核对步骤S32得到的图片进行膨胀操作,将丢失的边缘信息进行恢复;S34:查找轮廓信息,遍历每个轮廓,计算每个轮廓所形成的区域包含的像素的总数carea0,carea1…caream;S35:计算现场随机拍摄的金属板带产品标签图片的像素总数carea,从满足careai/carea≥0.2的轮廓中选出具有最大像素数的轮廓;S36:利用Douglas-Peucker算法将联通区域的轮廓形状近似为由4个点组成的轮廓形状,获取该轮廓的周长length,则算法中两个轮廓点可以连为直线的最大阈值threshold应满足:threshold≤0.05×length。步骤S4的具体步骤如下:以步骤S36得到的拟合轮廓的左上角为原点,步骤S36得到的拟合轮廓的宽和高为横坐标和纵坐标,对坐标点按照左上坐标(u0,v0)、右上坐标(u1,v1)、左下坐标(u2,v2)和右下坐标(u3,v3)的顺序排列;若抓取不到步骤S36得到的拟合轮廓的坐标信息或无法根据坐标信息对其排列的情况下则返回坐标:左上坐标(0,0)、右上坐标(width,0)、左下坐标(0,height)和右下坐标(width,height)。步骤S5的具体步骤如下:S51:经透视变换将现场随机拍摄的金属板带产品标签图片投影到一个新的视平面时,现场随机拍摄的金属板带产品标签图片的图像坐标(u,v,w)和透视变换后的图像坐标(x,y,z)应满足如下关系:x=x′/hy=y′/h其中:h是辅助坐标,不是常量,A是透视矩阵,[a13,a23]T产生透视变换,[b1,b2]用于平移,表示平移、旋转、缩放和偏移等线性变换,因此,透视变换后的图像坐标可表示为:步骤S6的具体步骤如下:S61:对步骤S51校正后图片的尺寸等比例缩放为224×224,交换图像第1个通道和最后一个通道的顺序得到BGR颜色通道的图片,且对图片image中的每个颜色通道进行去均值化处理:meanvalue=[Bmean,本文档来自技高网...

【技术保护点】
1.一种基于计算机视觉的金属板带产品标签信息识别方法,其特征在于具有如下步骤:S1:对现场随机拍摄的金属板带产品标签图片进行分割处理:利用轻量级ENet网络对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行分割,将产品标签区域和其他背景区域分离;进行不同颜色的标记:在产品标签区域和其他背景区域分别生成不同的掩码以示区分;S2:将步骤S1中得到的带有分割掩码的图片进行灰度化处理,保留最佳连通区域作为产品标签区域,同时删除剩余的所有连通区域;S3:将步骤S2得到的图片进行图像的腐蚀和膨胀处理,利用Douglas‑Peucker算法将联通区域的轮廓形状近似为由4个点组成的轮廓形状,利用轮廓近似实现对产品标签区域的拟合;S4:以像素为单位确定步骤S3得到的拟合轮廓的坐标信息;S5:根据步骤S4得到的坐标信息,利用透视变换对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行校正,消除拍摄中透视变换的影响;S6:将步骤S5中得到的校正图片输入到VGG16网络中进行产品标签区域旋转角度angle的识别:主要识别的产品标签区域旋转方向为0,90,180,270四个角度;S7:计算步骤S5中得到的校正图片的方差信息,估计产品标签区域中的文字角度angletext;S8:根据步骤S6和步骤S7得到的产品标签区域旋转角度angle和文字角度angletext对步骤S5得到的校正图片进行二次校正,输入到YOLOv3网络进行文本位置的检测;S9:将步骤S8中得到的带有文本信息的区域进行合并和筛选,将最后切割的含有文本信息的区域逐个输入到CRNN网络中进行文本的识别;S10:针对企业产品标签中的重点字段的特点建立数据字典信息,利用最短编辑距离方法和正则匹配对步骤S9识别的文本信息进行校准。...

【技术特征摘要】
1.一种基于计算机视觉的金属板带产品标签信息识别方法,其特征在于具有如下步骤:S1:对现场随机拍摄的金属板带产品标签图片进行分割处理:利用轻量级ENet网络对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行分割,将产品标签区域和其他背景区域分离;进行不同颜色的标记:在产品标签区域和其他背景区域分别生成不同的掩码以示区分;S2:将步骤S1中得到的带有分割掩码的图片进行灰度化处理,保留最佳连通区域作为产品标签区域,同时删除剩余的所有连通区域;S3:将步骤S2得到的图片进行图像的腐蚀和膨胀处理,利用Douglas-Peucker算法将联通区域的轮廓形状近似为由4个点组成的轮廓形状,利用轮廓近似实现对产品标签区域的拟合;S4:以像素为单位确定步骤S3得到的拟合轮廓的坐标信息;S5:根据步骤S4得到的坐标信息,利用透视变换对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行校正,消除拍摄中透视变换的影响;S6:将步骤S5中得到的校正图片输入到VGG16网络中进行产品标签区域旋转角度angle的识别:主要识别的产品标签区域旋转方向为0,90,180,270四个角度;S7:计算步骤S5中得到的校正图片的方差信息,估计产品标签区域中的文字角度angletext;S8:根据步骤S6和步骤S7得到的产品标签区域旋转角度angle和文字角度angletext对步骤S5得到的校正图片进行二次校正,输入到YOLOv3网络进行文本位置的检测;S9:将步骤S8中得到的带有文本信息的区域进行合并和筛选,将最后切割的含有文本信息的区域逐个输入到CRNN网络中进行文本的识别;S10:针对企业产品标签中的重点字段的特点建立数据字典信息,利用最短编辑距离方法和正则匹配对步骤S9识别的文本信息进行校准。2.根据权利要求1所述的基于计算机视觉的金属板带产品标签信息识别方法,其特征还在于:步骤S1的具体步骤如下:S11:利用双线性插值的方法将现场随机拍摄的金属板带产品标签图片的尺寸大小调整为480×360;S12:利用轻量级ENet网络对现场随机拍摄的金属板带产品标签图片中的产品标签区域进行分割,将产品标签区域和其他背景区域分离,分割的类别设置为2;S13:将分割掩码的RGB颜色设为:分割的产品标签区域(128,0,0),分割的背景区域(128,128,128),分割得到的结果分别利用该颜色进行标记,作为最终的分割结果。3.根据权利要求2所述的基于计算机视觉的金属板带产品标签信息识别方法,其特征还在于:步骤S2的具体步骤如下:S21:获取现场拍摄的金属板带产品标签图片的尺寸大小(width,height),将步骤S13得到的尺寸为480×360的带有分割掩码的图片利用双线性插值方法调整为(width,height)并进而灰度化处理;S22:对步骤S21得到的灰度图片进行逐像素标记,采用8邻接方式判断两个像素是否相邻,若两个像素点相邻且值相同,则认为这两个像素点在一个相互连通的区域内,且同一连通区域的所有像素点,用同一个数值来进行标记;S23:判断连通区域的数量并计算各联通区域的大小:area0,area1…arean;S24:当联通区域的个数为1时,对该图片不进行任何操作而直接保存该图片,否则直接删除第一个连通区域area0,依次遍历剩余的连通区域,从中选出最大的连通区域后,删除其他n-1个连通区域,其中删除的各区域变为背景,选出的最大的连通区域为最佳连通区域,也就是产品标签区域。4.根据权利要求3所述的基于计算机视觉的金属板带产品标签信息识别方法,其特征还在于:步骤S3的具体步骤如下:S31:将步骤S24得到的图片进行二值化处理,二值化的最小灰度阈值设为127,最大灰度阈值设为255;S32:利用大小为(width/100,height/100)大小的腐蚀卷积核对步骤S31得到的图片进行腐蚀,减去不规则的边缘;S33:利用与腐蚀卷积核相同大小的膨胀卷积核对步骤S32得到的图片进行膨胀操作,将丢失的边缘信息进行恢复;S34:查找轮廓信息,遍历每个轮廓,计算每个轮廓所形成的区域包含的像素的总数carea0,carea1…caream;S35:计算现场拍摄的金属板带产品标签图片的像素总数carea,从满足careai/carea≥0.2的轮廓中选出具有最大像素数的轮廓;S36:利用Douglas-Peucker算法将联通区域的轮廓形状近似为由4个点组成的轮廓形状,获取该轮廓的周长length,则算法中两个轮廓点可以连为直线的最大阈值threshold应满足:threshold≤0.05×length。5.根据权利要求4所述的基于计算机视觉的金属板带产品标签信息识别方法,其特征还在于:步骤S4的具体步骤如下:以步骤S36得到的拟合轮廓的左上角为原点,步骤S36得到的拟合轮廓的宽和高为横坐标和纵坐标,对坐标点按照左上坐标(u0,v0)、右上坐标(u1,v1)、左下坐标(u2,v2)和右下坐标(u3,...

【专利技术属性】
技术研发人员:刘士新郭文瑞陈大力
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1