基于深度卷积神经网络的票据中手写签名位置定位方法技术

技术编号:14743115 阅读:445 留言:0更新日期:2017-03-01 18:26
本发明专利技术公开了基于深度卷积神经网络的票据中手写签名位置定位方法,具体按照以下步骤实施:步骤1:搭建基于包含多种卷积神经网络模型的caffe深度学习框架的平台;步骤2:准备票据的数据集;步骤3:训练网络得到定位检测模型;步骤4:用步骤3得到的定位检测模型对待检测的票据定位手写的签名位置。本发明专利技术基于深度卷积神经网络的票据中手写签名位置定位方法,能够准确的标定出票据中含有手写签名的位置。

【技术实现步骤摘要】

本专利技术属于图像定位检测
,具体涉及一种基于深度卷积神经网络的票据中手写签名位置定位方法
技术介绍
目前,我国对票据自动检测系统的研究大多还在开发阶段,实际应用较少,并且配置一套票据指定手写签名位置检测系统成本较高,也限制了票据自动化检测技术的发展。这也就对广大的研究机构和学者提出了需求,需要研究出一种票据自动化检测的技术。票据中的手写签名具有字符的特性,对于字符的识别主要有:统计特征识别技术、结构特征识别技术、基于神经网络的识别技术。统计特征有字符二维平面位置特征、字符在水平或垂直方向投影的直方图特征等,基于统计特征的字符识别技术对于形近字符区分能力弱,只适合字符粗分类。结构特征有笔划的走向、孤立的点以及是否含有闭合笔画等,这种方法便于区分字型变化大的字符。目前,对神经网络的研究正处于一个新的高峰时期,神经网络已经广泛应用于模式识别领域。随着学术界对于深度学习的研究,深度学习的算法越来越成熟,应用也越来越多。但是,大多数神经网络只能用于提取目标的特征,不能用于目标定位。
技术实现思路
本专利技术的目的是提供一种基于深度卷积神经网络的票据中手写签名位置定位方法,能够准确的标定出票据中含有手写签名的位置。本专利技术所采用的技术方案是,基于深度卷积神经网络的票据中手写签名位置定位方法,具体按照以下步骤实施:步骤1:搭建基于包含多种卷积神经网络模型的caffe深度学习框架的平台;步骤2:准备票据的数据集;步骤3:训练网络得到定位检测模型;步骤4:用步骤3得到的定位检测模型对待检测的票据定位手写的签名位置。本专利技术的特点还在于:步骤2具体为:步骤2.1:对票据进行拍照,得到票据的原始图像数据,并对原始图像数据进行样本扩充;步骤2.2:对步骤2.1中得到的所有图像数据进行编号及标定,标定出票据图像中手写签名位置的坐标,得到该签名位置的左上角坐标(Xmin、Ymin)和右下角坐标(Xmax、Ymax),并且将所有图像的序号及相应的坐标位置信息写入到xml文件中;步骤2.3:将所有图像数据分为训练数据集和测试数据集,再将训练数据集分为训练数据和验证数据。步骤2.1中对原始图像数据进行样本扩充,包括:①对原始图像数据进行不同角度的旋转及不同方向的平移;②对原始图像数据进行线性插值缩放;③对原始图像数据增加不同强度的椒盐噪声、高斯噪声。步骤3具体为:步骤3.1:将步骤2中得到的数据集中的图像调整成W1*H1大小的图像并放入ZF网络前5层层中做特征提取,输出256个大小的特征图;步骤3.2:用3*3的卷积核与步骤3.1得到的256个特征图进行卷积,得到256维特征向量,作为RPN的第一层;步骤3.3:将步骤3.2得到的256维特征向量输入到分类层和回归层两个并行卷积层,根据正样本中前景概率的得分高低,选取得分高的前300个候选框;步骤3.4:使用ROI_Pooling层将步骤3.3中的300个候选框映射到ZF网络的第五层卷积后得到的256维特征图上,得到池化归一后的大小6*6的特征图;步骤3.5、将每一个6*6大小的特征图输入到两个连续的全连接层fc6、fc7,先经过fc6得到4096维特征,再将4096维特征输入到fc7中,最终得到1*4096维特征;步骤3.6:将1*4096维特征输入到两个并行的全连接层cls_score层、bbox_predict层,cls_score层用于分类,输出背景的概率和K类样本的概率,其中,K是样本类别数;bbox_predict层用于调整候选区域位置,输出候选框的(x',y',w',h'),x'为调整后的候选框左上角横坐标,y'为调整后的候选框左上角纵坐标,w'为调整后的候选框的宽度,h'为调整后的候选框的高度;步骤3.7:判断总迭代次数是否大于阈值,如果不大于阈值,则转到步骤3.2;如果大于阈值,则结束。步骤3.1中数据集中的图像调整成W1*H1大小的图像需要根据数据集中图像大小W*H来计算,即:步骤3中训练网络时学习速率的初始值设定为lr=0.01,每当当前迭代次数达到步长值的整数倍时,学习速率衰减一次,当迭代次数达到总迭代次数时,结束;衰减后的lr=lr*gamma,其中,gamma=0.1,迭代次数≤总迭代次数。步骤3中训练网络时mini-batchsize设为256。本专利技术的有益效果是:本专利技术基于深度卷积神经网络的票据中手写签名位置定位方法,采用的是深度神经网络来进行图像定位,比传统的方法在定位的速度和准确度上均有提高,准确度已经可以达到90.9%,速度基本可以做到实时定位,定位一张图片需要0.3s;并且本专利技术的票据图像数据库包含了各种各样的数据样本,数据样本具有多样性,使得定位的准确度有所上升。附图说明图1是本专利技术方法中采集的正常票据图像;图2是本专利技术方法中采集的旋转45°票据图像;图3是本专利技术方法中采集的加椒盐噪声票据图像;图4是本专利技术方法中旋转90°的待检测票据图像;图5是图4的检测结果图;图6是本专利技术方法中旋转180°的待检测票据图像;图7是图6的检测结果图;图8是本专利技术方法中旋转45°的待检测票据图像;图9是图8的检测结果图;图10是本专利技术方法中加高斯噪声的待检测票据图像;图11是图10的检测结果图;图12是本专利技术方法中加椒盐噪声的待检测票据图像;图13是图12的检测结果图。具体实施方式下面结合附图和具体实施方式对本专利技术进行详细说明。本专利技术基于深度卷积神经网络的票据中手写签名位置定位方法,具体按照以下步骤实施:步骤1:在ubuntu系统环境或者Windos环境下搭建基于包含多种卷积神经网络模型的caffe深度学习框架的平台;步骤2:准备票据的数据集,具体为:步骤2.1、由于在真实环境中的图像都是由用户自己在手机或者相机上拍照上传给票据系统的,所以在准备图片的时候,需要考虑不同分辨率的手机拍摄的照片,以及拍摄的环境光照等条件。本专利技术使用多种不同分辨率的手机对票据进行拍摄,将这部分手机拍摄的图像称为原始图像数据。为了使图像数据足够充分且能够符合各种实际情况,本专利技术对原始图像数据进行了样本扩充:①对原始图像数据进行不同角度的旋转及不同方向的平移;②对原始图像数据进行线性插值缩放,是考虑到不同相机采集到的图像大小不同;③对原始图像数据增加不同强度的椒盐噪声、高斯噪声;如图1-3给出采集到的部分票据样本图像,包括正常的票据图像、旋转的票据图像、含有噪声的票据图像。步骤2.2:对步骤2.1中得到的所有图像数据进行编号及标定,标定出票据图像中手写签名位置的坐标,得到该签名位置的左上角坐标(Xmin、Ymin)和右下角坐标(Xmax、Ymax),并且将所有图像序号及相应的坐标位置信息写入到xml文件中;步骤2.3:对所有准备好的图像数据随机分成训练数据集trainval和测试数据集test两个部分数据,其中设置trainval数据集占整个数据集的8/10,test数据集占整个数据集的2/10。在trainval数据集中又分成train数据和val数据,其中trian数据是用来做训练的,占trainval数据集的4/5,val数据是用来做验证的,占trainval数据集的1/5。步骤3:训练网络得到定位检测模型并对训练参数进行优化步骤3.1:将步骤2中得到的数据集中的本文档来自技高网...
基于深度卷积神经网络的票据中手写签名位置定位方法

【技术保护点】
基于深度卷积神经网络的票据中手写签名位置定位方法,其特征在于,具体按照以下步骤实施:步骤1:搭建基于包含多种卷积神经网络模型的caffe深度学习框架的平台;步骤2:准备票据的数据集;步骤3:训练网络得到定位检测模型;步骤4:用步骤3得到的定位检测模型对待检测的票据定位手写的签名位置。

【技术特征摘要】
1.基于深度卷积神经网络的票据中手写签名位置定位方法,其特征在于,具体按照以下步骤实施:步骤1:搭建基于包含多种卷积神经网络模型的caffe深度学习框架的平台;步骤2:准备票据的数据集;步骤3:训练网络得到定位检测模型;步骤4:用步骤3得到的定位检测模型对待检测的票据定位手写的签名位置。2.根据权利要求1所述的基于深度卷积神经网络的票据中手写签名位置定位方法,其特征在于,所述步骤2具体为:步骤2.1:对票据进行拍照,得到票据的原始图像数据,并对原始图像数据进行样本扩充;步骤2.2:对步骤2.1中得到的所有图像数据进行编号及标定,标定出票据图像中手写签名位置的坐标,得到该签名位置的左上角坐标(Xmin、Ymin)和右下角坐标(Xmax、Ymax),并且将所有图像的序号及相应的坐标位置信息写入到xml文件中;步骤2.3:将所有图像数据分为训练数据集和测试数据集,再将训练数据集分为训练数据和验证数据。3.根据权利要求2所述的基于深度卷积神经网络的票据中手写签名位置定位方法,其特征在于,所述步骤2.1中对原始图像数据进行样本扩充,包括:①对原始图像数据进行不同角度的旋转及不同方向的平移;②对原始图像数据进行线性插值缩放;③对原始图像数据增加不同强度的椒盐噪声、高斯噪声。4.根据权利要求1所述的基于深度卷积神经网络的票据中手写签名位置定位方法,其特征在于,所述步骤3具体为:步骤3.1:将步骤2中得到的数据集中的图像调整成W1*H1大小的图像并放入ZF网络前5层层中做特征提取,输出256个大小的特征图;步骤3.2:用3*3的卷积核与步骤3.1得到的256个特征图进行卷积,得到256维特征向量,作为RPN的第一层;步骤3.3:将步骤3.2得到的256维特征向量输入到分类层和回归层两个并行卷积层,根据正样本中前景概率的得分...

【专利技术属性】
技术研发人员:张二虎李雪薇
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1