【技术实现步骤摘要】
一种基于改进YOLOv3的单证图像中数字信息区域识别方法
[0001]本专利技术涉及图像识别
,特别是一种基于改进YOLOv3的单证图像中数字信息区域识别方法。
技术介绍
[0002]手写数字识别是日常生活和工业领域处理一些数据和信息的核心技术,比如:统计报表、财务报表、邮政编码、各种单证票据等等。手写体数字识别作为图像识别领域下的一个很重要的分支,同时也是模式识别下的一个传统研究领域,不仅具有重大的现实意义和应用价值,还有着极其关键的理论价值。在实际应用中尤其在金融领域对识别的精度有相当苛刻的要求,单个数字的正确与否就可能造成难以估量的损失。
[0003]在经典的模式识别中,一般是事先提取特征。提取诸多特征后,要对这些特征进行相关性分析,找到最能代表字符的特征,去掉对分类无关和自相关的特征。然而,这些特征的提取太过依赖人的经验和主观意识,提取到的特征的不同对分类性能影响很大,甚至提取的特征的顺序也会影响最后的分类性能。同时,图像预处理的好坏也会影响到提取的特征。
技术实现思路
[0004]有鉴 ...
【技术保护点】
【技术特征摘要】
1.一种基于改进YOLOv3的单证图像中数字信息区域识别方法,其特征在于,包括以下步骤:获取手写数字图片,并对获取的手写数字图片集合进行预处理与标注,得到训练集;训练YOLOv3网络,用以检测和识别单证图像手写体数字信息区域;训练卷积神经网络CNN,用以识别单个手写体数字;用训练好的YOLOv3网络和卷积神经网络模型CNN对单证图像中手写数字信息区域的进行检测识别和重识别。2.根据权利要求1所述的一种基于改进YOLOv3的单证图像中数字信息区域识别方法,其特征在于,所述对获取的手写数字图片集合进行预处理与标注,得到训练集具体包括以下步骤:步骤S11:批量读入各类手写体数字图像;步骤S12:对读入图像的颜色空间进行转换,使之转换为单通道灰度图像;步骤S13:根据预设的阈值对单通道灰度图像进行处理,获得能够反映出图像特征的二值图像;步骤S14:将得到的二值图像批量进行高斯滤波去噪以去除图像中的黑色噪点,然后用投影法去掉黑色手写体数字周围多余的白色边界,得到无边界手写体数字图片并批量制作数据集,将得到的部分图片作为训练集;批量标注单证图像中手写数字信息区域各个数字的边框,标签类别分别标为0、1、2、3、4、5、6、7、8、9,数据集中的每一张图片都生成与其同名的xml文件,将图片和xml文件做成VOC数据集格式,并生成训练测试时需要用到的train.txt和test.txt文件;步骤S15:扩充训练集的数据量,进行数据增强,以提升模型的泛化性和鲁棒性。3.根据权利要求1所述的一种基于改进YOLOv3的单证图像中数字信息区域识别方法,其特征在于,所述训练YOLOv3网络,用以检测和识别单证图像手写体数字信息区域具体包括以下步骤:步骤S21:将经过批量标注的单证图像中手写数字信息区域图片作为YOLOv3网络的输入,在YOLOv3网络中,首先通过特征提取网络,输出N*N的卷积特征图,生成N*N个Gird cell,再经过预测层输出目标的类别和预测框坐标,其中预测框坐标(Zbx,Zb
y
,Zb
w
,Zb
h
)的计算公式如下:Zb
x
=σ(q
x
)+c
x
;Zb
y
=σ(q
y
)+c
y
;;式中,q
x
,q
y
,q
w
,q
h
为YOLOv3网络中每个预测框的中心点坐标与预测框的宽、高,c
x
,c
y
为预测框的中心点坐标所在Grid cell的坐标偏移量,p
w
,p
h
为预测前anchor的宽高;首先确定输入图像中物体目标中心坐标落在哪个Grid cell,然后根据该Grid cell来预测目标,YOLOv3中每个Grid cell有三个锚点框,在计算预测坐标Zb
x
,Zb
y
,Zb
w
,Zb
h
的目标损失函数时,选择三个锚点框中置信度最高的来计算;其中目标类别损失L
cla
(o,c)采用的是二值交叉熵损失,计算公式如下所示:
其中,式中,o<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。