一种基于深度学习对视频或图片中数字的检测和识别方法技术

技术编号:19009525 阅读:31 留言:0更新日期:2018-09-22 09:20
本发明专利技术提出了一种基于深度学习对视频或图片中数字的检测和识别方法,对采集样本进行处理并制作训练数据,选择合适的方式对图片中的数字进行标定。模拟可能出现的数字特征增加训练集,对数字进行各种特征的变换操作,把制作的数字样本置入采集的图片中并进行自动标记。制作训练数据完成后,采用faster‑rcnn算法,联合训练一个rpn网络和识别网络,再由训练完成后的模型对实时采集的视频或图片进行识别。本发明专利技术在各种场景、光照等条件下取得丰富的训练样本,并对图像中的数字及数字的标记进行合理设计,又人工设计了极丰富的不同特征的训练样本供网络进行学习,极大减少了误识别或不识别的情况,并有很快的检测速度。

A method of detecting and recognizing numbers in video or pictures based on deep learning

The invention proposes a method for detecting and recognizing numbers in video or picture based on depth learning, processes the collected samples and produces training data, and selects an appropriate way to calibrate the numbers in the picture. The training set is added to simulate the possible digital features, and the digital features are transformed. The digital samples are put into the collected pictures and labeled automatically. After the training data are produced, a RPN network and recognition network are trained by using the faster_rcnn algorithm, and then the real-time video or picture is recognized by the training model. The invention obtains abundant training samples under various scenes, illumination and other conditions, and reasonably designs the numbers and the marks of the numbers in the images, and manually designs training samples with extremely rich different characteristics for network learning, which greatly reduces the misidentification or non-recognition, and has a very fast detection speed.

【技术实现步骤摘要】
一种基于深度学习对视频或图片中数字的检测和识别方法
本专利技术属于模式识别及深度学习
,特别是涉及一种基于深度学习对视频或图片中数字的检测和识别方法。
技术介绍
随着内河事业的不断发展,船舶的数量越来越多,船体也向大型化的方向不断迈进,船舶的吃水深度也越来越深,随之航运事故时有发生,这不仅给航运安全带来威胁,破坏航运通道,而且也会影响航运的运行效率。船舶搁浅是各种事故中发生最频繁的,引起的原因也各种各样,但最为普遍的一个原因便是船舶运行超过了规定的吃水线。在各类船舶交通事故中,由于超吃水线带来的事故占很大的比重。目前对吃水线的检测分为人工检测和技术自动检测两种,传统方法以人工检测为主,具体地,待检测时,要求船舶停靠岸边,检测人员对船体上刻有的吃水线标记进行观察记录。这种方式需要船暂时停靠岸边,影响了航运的效率,且有大风浪时检测人员很难观测到准确的吃水刻度。由于船体常年受到海水、河水的腐蚀,字体的颜色和形状也发生了很大的变化,这对检测人员的观测带来了很多的困难和不便,效率不高,且由于是人为检测,船东为了最求更大的利益,往往采取谎报吃水来逃避相关部门的惩罚等欺瞒的行为,会增加船舶发生事故的危险。近年来,随着科技的发展,出现了各种通过技术手段自动对船舶进行吃水检测的方法,如声呐测量法、电子水尺法、激光水位检测法等。而由于船体中数字常常出现被腐蚀的现象,造成船体上的数字与标准印刷字体有较大区别,加上摄像头拍摄时会出现一些比较斜的数字字体,用传统方法对数字的识别很难达到实用的准确度,而深度学习由于强大的特征提取能力与非线性分类的能力,能够应对各种复杂条件下数字的检测与识别。
技术实现思路
本专利技术为了解决现有的技术问题,提出一种基于深度学习对视频或图片中数字的检测和识别方法。本专利技术利用faster-rcnn算法对视频或图片中的数字进行识别以及对数据集的制作。本专利技术的目的通过以下技术方案实现:一种基于深度学习对视频或图片中数字的检测和识别方法,包括以下步骤:步骤1,用摄像头拍摄采样包含若干个数字的视频,并对视频进行反交错处理后按同等间隔抽取图片;所述图片制作训练样本;步骤2,手工对训练样本中数字的位置与类别信息进行标定;步骤3,人工设计不同特征的数字字体增加训练样本,置入设计好的数字字体到采集的图片中并进行位置与类别信息的自动标定;步骤4,采用faster-rcnn算法对制作好的数据样本集训练rpn网络与识别网络,所述rpn网络与识别网络交替训练两次,共享提取图片深度特征的前13层卷积层,得到训练模型;步骤5,训练完成后,调用训练好的模型对视频或图片中的数字进行检测和识别,输出图片中各个数字的位置及类别信息,完成检测。进一步地,所述步骤1中用摄像头拍摄的视频是从多个角度或多个距离位置拍摄的包含若干个数字的视频。进一步地,所述步骤2具体为:仅对图片中完整的数字进行位置与类别信息的标定,所述位置信息的标定为记录数字左上方与右下方的坐标,所述类别信息的标定为记录下当前数字所属的类别信息,所述类别信息为“0”,“1”,“2”,“3”,“4”,“5”,“6”,“7”,“8”,“9”共十个类别。进一步地,所述步骤3中,在设计增加训练样本时,对数字字体进行各种色彩、大小、粗细程度、旋转角度或噪点程度特征变换,模拟现实中可能出现的各种数字字体的外观特征。进一步地,所述步骤4中,联合训练rpn网络与识别网络步骤如下:S1:用训练好的模型初始化rpn网络,用制作好的训练样本对rpn网络进行训练;其中前13层卷积层提取输入图片的特征图,第14层卷积层是当前13层参数固定时,用来调整参数的卷积层,第15层有两个并联的卷积层,都应用于关联输入的所有的特征图;S2:对特征图的每一点都配备1:1,1:2,2:1三种尺寸以及三种大小不同比例共九个基准框,第15层的其中一卷积层用于判定各个基准框内有数字的可能性;S3:第15层的另一卷积层用于计算对预测框位置进行微调的四个参数,即两个平移参数和两个缩放参数;S4:根据输入图片被标定的数字的位置,计算rpn网络预测的位置与实际位置的误差,使用梯度下降法,根据所求误差计算调整网络中各个权重和偏差的值,使误差减小到极小值;S5:训练rpn网络完成后,由训练好的rpn网络对输入图片中数字的位置进行检测,得到若干预判定为数字的不同置信度的预测框,取置信度最高的前300个预测框,再通过RolPooling层把所述300个预测框映射到经rpn网络第14层卷积层提取的特征图上,得到图片中数字的粗略特征图,并把所述粗略特征图归一化为相同维度的特征向量;S6:用相同的训练模型初始化识别网络中的卷积层,提取rpn网络送来的粗略特征图的深度特征信息,得到特征向量;经过三层全连接层与两层relu层对特征向量的非线性分类,得出预测目标特征向量为数字各个类别的置信度,并对预测框位置做进一步精细调整;S7:根据训练样本自带的数字的位置信息,计算识别误差,根据梯度下降法优化识别网络各层参数,使误差达到极小值;S8:当识别网络训练完成后,把其中训练好的卷积层参数用作初始化rpn网络相对应的前13层卷积层部分;S9:固定rpn网络中的前13层卷积层的参数不变,通过样本数据训练rpn的其余层的参数;S10:固定识别网络中的卷积层的参数不变,通过训练完成的rpn网络和RolPooling层提取数字的粗略特征图,对识别网络其余层进行训练。本专利技术的有益效果在于:本专利技术应用深度学习对视频或图片中数字的检测和识别方法。由于现实环境中各种数字的大小、颜色、字体等都不相同,用传统的方法很难对所有不同特征的数字的检测和识别都非常准确。本专利技术通过faster-rcnn算法,拍取大量实际环境中不同字体、拍摄角度、不同大小等各种不同特征的数字的训练数据并进行标定,且通过模拟生成可能出现的大量不同特征的数字字体并进行自动标定,取得了丰富的训练样本。训练完成后,通过卷积层提取图片的深度特征后通过全连接层与relu层进行非线性分割,从而达到对图片中各个数字位置进行检测和对其类别进行识别的目的,具有较强的鲁棒性。而由于rpn给出的建议区域只有300个,供识别网络进行识别,且rpn网络与识别网络共享卷积层,所以识别速度与rcnn和fast-rcnn相比有明显的提升,从而能达到实时检测的效果。附图说明图1为本专利技术基于深度学习对视频或图片中数字的检测和识别方法流程图;图2为人工设计的包含不同特征的数字字体的训练数据图;图3为faster-rcnn算法结构图。具体实施方式下面将结合本专利技术实施例中的附图对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。结合图1-图3,本专利技术提出一种基于深度学习对视频或图片中数字的检测和识别方法,所述方法包含图像数据采集,训练数据标定,生成训练数据并进行自动标定,深度学习的模型训练及实时检测五个步骤完成识别目的,具体包括以下步骤:步骤1,用摄像头拍摄采样包含若干个数字的视频,并对视频进行反交错处理后按同等间隔抽取图片;所述图片制作训练样本;步骤2,手工对训练样本文档来自技高网
...
一种基于深度学习对视频或图片中数字的检测和识别方法

【技术保护点】
1.一种基于深度学习对视频或图片中数字的检测和识别方法,其特征在于,包括以下步骤:步骤1,用摄像头拍摄采样包含若干个数字的视频,并对视频进行反交错处理后按同等间隔抽取图片;所述图片制作训练样本;步骤2,手工对训练样本中数字的位置与类别信息进行标定;步骤3,人工设计不同特征的数字字体增加训练样本,置入设计好的数字字体到采集的图片中并进行位置与类别信息的自动标定;步骤4,采用faster‑rcnn算法对制作好的数据样本集训练rpn网络与识别网络,所述rpn网络与识别网络交替训练两次,共享提取图片深度特征的前13层卷积层,得到训练模型;步骤5,训练完成后,调用训练好的模型对视频或图片中的数字进行检测和识别,输出图片中各个数字的位置及类别信息,完成检测。

【技术特征摘要】
1.一种基于深度学习对视频或图片中数字的检测和识别方法,其特征在于,包括以下步骤:步骤1,用摄像头拍摄采样包含若干个数字的视频,并对视频进行反交错处理后按同等间隔抽取图片;所述图片制作训练样本;步骤2,手工对训练样本中数字的位置与类别信息进行标定;步骤3,人工设计不同特征的数字字体增加训练样本,置入设计好的数字字体到采集的图片中并进行位置与类别信息的自动标定;步骤4,采用faster-rcnn算法对制作好的数据样本集训练rpn网络与识别网络,所述rpn网络与识别网络交替训练两次,共享提取图片深度特征的前13层卷积层,得到训练模型;步骤5,训练完成后,调用训练好的模型对视频或图片中的数字进行检测和识别,输出图片中各个数字的位置及类别信息,完成检测。2.根据权利要求1所述的方法,其特征在于,所述步骤1中用摄像头拍摄的视频是从多个角度或多个距离位置拍摄的包含若干个数字的视频。3.根据权利要求1所述的方法,其特征在于,所述步骤2具体为:仅对图片中完整的数字进行位置与类别信息的标定,所述位置信息的标定为记录数字左上方与右下方的坐标,所述类别信息的标定为记录下当前数字所属的类别信息,所述类别信息为“0”,“1”,“2”,“3”,“4”,“5”,“6”,“7”,“8”,“9”共十个类别。4.根据权利要求1所述的方法,其特征在于,所述步骤3中,在设计增加训练样本时,对数字字体进行各种色彩、大小、粗细程度、旋转角度或噪点程度特征变换,模拟现实中可能出现的各种数字字体的外观特征。5.根据权利要求1所述的方法,其特征在于,所述步骤4中,联合训练rpn网络与识别网络步骤如下:S1:用训练好的模型初始化rpn网络,用制作好的训练样本对rpn网络进行训练;其中前13层卷积层提取输入图片的特征图,第14层卷积层是...

【专利技术属性】
技术研发人员:朱齐丹吕晓龙游锦成吴禹辰
申请(专利权)人:哈尔滨哈船智控科技有限责任公司
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1