The invention proposes a method for detecting and recognizing numbers in video or picture based on depth learning, processes the collected samples and produces training data, and selects an appropriate way to calibrate the numbers in the picture. The training set is added to simulate the possible digital features, and the digital features are transformed. The digital samples are put into the collected pictures and labeled automatically. After the training data are produced, a RPN network and recognition network are trained by using the faster_rcnn algorithm, and then the real-time video or picture is recognized by the training model. The invention obtains abundant training samples under various scenes, illumination and other conditions, and reasonably designs the numbers and the marks of the numbers in the images, and manually designs training samples with extremely rich different characteristics for network learning, which greatly reduces the misidentification or non-recognition, and has a very fast detection speed.
【技术实现步骤摘要】
一种基于深度学习对视频或图片中数字的检测和识别方法
本专利技术属于模式识别及深度学习
,特别是涉及一种基于深度学习对视频或图片中数字的检测和识别方法。
技术介绍
随着内河事业的不断发展,船舶的数量越来越多,船体也向大型化的方向不断迈进,船舶的吃水深度也越来越深,随之航运事故时有发生,这不仅给航运安全带来威胁,破坏航运通道,而且也会影响航运的运行效率。船舶搁浅是各种事故中发生最频繁的,引起的原因也各种各样,但最为普遍的一个原因便是船舶运行超过了规定的吃水线。在各类船舶交通事故中,由于超吃水线带来的事故占很大的比重。目前对吃水线的检测分为人工检测和技术自动检测两种,传统方法以人工检测为主,具体地,待检测时,要求船舶停靠岸边,检测人员对船体上刻有的吃水线标记进行观察记录。这种方式需要船暂时停靠岸边,影响了航运的效率,且有大风浪时检测人员很难观测到准确的吃水刻度。由于船体常年受到海水、河水的腐蚀,字体的颜色和形状也发生了很大的变化,这对检测人员的观测带来了很多的困难和不便,效率不高,且由于是人为检测,船东为了最求更大的利益,往往采取谎报吃水来逃避相关部门的惩罚等欺瞒的行为,会增加船舶发生事故的危险。近年来,随着科技的发展,出现了各种通过技术手段自动对船舶进行吃水检测的方法,如声呐测量法、电子水尺法、激光水位检测法等。而由于船体中数字常常出现被腐蚀的现象,造成船体上的数字与标准印刷字体有较大区别,加上摄像头拍摄时会出现一些比较斜的数字字体,用传统方法对数字的识别很难达到实用的准确度,而深度学习由于强大的特征提取能力与非线性分类的能力,能够应对各种复杂条件下数字 ...
【技术保护点】
1.一种基于深度学习对视频或图片中数字的检测和识别方法,其特征在于,包括以下步骤:步骤1,用摄像头拍摄采样包含若干个数字的视频,并对视频进行反交错处理后按同等间隔抽取图片;所述图片制作训练样本;步骤2,手工对训练样本中数字的位置与类别信息进行标定;步骤3,人工设计不同特征的数字字体增加训练样本,置入设计好的数字字体到采集的图片中并进行位置与类别信息的自动标定;步骤4,采用faster‑rcnn算法对制作好的数据样本集训练rpn网络与识别网络,所述rpn网络与识别网络交替训练两次,共享提取图片深度特征的前13层卷积层,得到训练模型;步骤5,训练完成后,调用训练好的模型对视频或图片中的数字进行检测和识别,输出图片中各个数字的位置及类别信息,完成检测。
【技术特征摘要】
1.一种基于深度学习对视频或图片中数字的检测和识别方法,其特征在于,包括以下步骤:步骤1,用摄像头拍摄采样包含若干个数字的视频,并对视频进行反交错处理后按同等间隔抽取图片;所述图片制作训练样本;步骤2,手工对训练样本中数字的位置与类别信息进行标定;步骤3,人工设计不同特征的数字字体增加训练样本,置入设计好的数字字体到采集的图片中并进行位置与类别信息的自动标定;步骤4,采用faster-rcnn算法对制作好的数据样本集训练rpn网络与识别网络,所述rpn网络与识别网络交替训练两次,共享提取图片深度特征的前13层卷积层,得到训练模型;步骤5,训练完成后,调用训练好的模型对视频或图片中的数字进行检测和识别,输出图片中各个数字的位置及类别信息,完成检测。2.根据权利要求1所述的方法,其特征在于,所述步骤1中用摄像头拍摄的视频是从多个角度或多个距离位置拍摄的包含若干个数字的视频。3.根据权利要求1所述的方法,其特征在于,所述步骤2具体为:仅对图片中完整的数字进行位置与类别信息的标定,所述位置信息的标定为记录数字左上方与右下方的坐标,所述类别信息的标定为记录下当前数字所属的类别信息,所述类别信息为“0”,“1”,“2”,“3”,“4”,“5”,“6”,“7”,“8”,“9”共十个类别。4.根据权利要求1所述的方法,其特征在于,所述步骤3中,在设计增加训练样本时,对数字字体进行各种色彩、大小、粗细程度、旋转角度或噪点程度特征变换,模拟现实中可能出现的各种数字字体的外观特征。5.根据权利要求1所述的方法,其特征在于,所述步骤4中,联合训练rpn网络与识别网络步骤如下:S1:用训练好的模型初始化rpn网络,用制作好的训练样本对rpn网络进行训练;其中前13层卷积层提取输入图片的特征图,第14层卷积层是...
【专利技术属性】
技术研发人员:朱齐丹,吕晓龙,游锦成,吴禹辰,
申请(专利权)人:哈尔滨哈船智控科技有限责任公司,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。