深度学习大尺寸图片训练检测算法制造技术

技术编号:19965182 阅读:33 留言:0更新日期:2019-01-03 13:18
本发明专利技术涉及一种深度学习大尺寸图片训练检测算法。在训练集合VOC中筛选出包含待识别对象的图片,并保存到训练集合VOC中的对应目录中;遍历所有图片对应的标签文件获取对应的分类识别框,识别框用冒泡方式获取待识别对象的最大尺度,同时用冒泡法找出待识别对象的最小尺度;以待识别对象在相应图片中的中心坐标为中心,根据最大尺度W1、H1从相应图片里面截取以W1、H1为最大长宽的图片;将截取的图片及对应的新的标签文件替换原图及原图对应的标签文件保存到训练集合VOC中的对应目录中;将得到的训练集合VOC输入到fpn深度学习网络进行训练。本发明专利技术算法可以训练多个尺度,并且可以对大尺寸进行检测,并降低内存消耗。

Deep Learning Detection Algorithms for Large-Size Picture Training

The invention relates to an in-depth learning large-scale picture training detection algorithm. In the training set VOC, the images containing the objects to be identified are screened out and stored in the corresponding catalogue of the training set VOC; the corresponding classification and recognition boxes are obtained by traversing the corresponding label files of all the pictures, and the recognition boxes are used to obtain the maximum scale of the objects to be identified by bubbling method, while the minimum scale of the objects to be identified is found by bubbling method; the objects to be identified are in the corresponding pictures. Centering on the center coordinates, the images with the largest lengths and widths of W 1 and H 1 are intercepted from the corresponding pictures according to the largest scale W 1 and H 1; the intercepted pictures and corresponding new tag files are replaced by the original image and the corresponding tag files of the original image are saved in the corresponding directory of the training set VOC; and the training set VOC is input into the FPN deep learning network for training. The algorithm of the invention can train multiple scales, detect large size and reduce memory consumption.

【技术实现步骤摘要】
深度学习大尺寸图片训练检测算法
本专利技术涉及一种深度学习大尺寸图片训练检测算法。
技术介绍
opencv是开源的OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows、Android和MacOS操作系统上。Fpn(FeaturePyramidNetworks)特征金字塔是在深度学习网络上的一种多尺度提取识别特征的架构。目前的opencv算法逐步被深度学习算法所取代,但是还有一些领域想车牌识别还是基于opencv的识别技术。Opecv对于大尺寸的识别采用缩小或者采用滑框方式进行识别。基于深度学习神经元网络的算法对大图片的识别或者训练通常在进入网络后进行缩放,设置最长边或者最短边,受限深度学习的gpu显卡的内存限制通常无法识别或者训练大尺寸原图(5k+)。opencv算法对于大尺寸识别采取滑框方式,但是对于不同尺度的对象识别没有比较好的处理方法,即无法识别尺寸发生变化的图片。基于深度学习神经元网络的算法对大图片的识别或者训练通常在进入网络后进行缩小(设置最长边或者最短边),但是受限深度学习的gpu显卡的内存(6g-12g)限制通常无法识别或者训练大尺寸原图(5k+),缩小导致对于细小特征的训练和识别产生问题。特别5k的图片特征在60x60左右,整体缩小到1024x1024后,特征只剩下12*12的区域,特征严重丢失,影响训练和学习。因此本申请针对以上现有技术的缺陷,特提出一种改造算法,可以训练多个尺度,并且可以对大尺寸进行检测,并降低内存消耗。
技术实现思路
本专利技术的目的在于提供一种深度学习大尺寸图片训练检测算法,可以训练多个尺度,并且可以对大尺寸进行检测。为实现上述目的,本专利技术的技术方案是:一种深度学习大尺寸图片训练检测算法,包括如下步骤:步骤S1、在训练集合VOC中筛选出包含待识别对象的图片,以形成包含待识别对象的图片的图片集合,并保存到训练集合VOC中的对应目录中;步骤S2、包含待识别对象的图片的图片集合中的每一张图片均对应有相应的标签文件,每一个标签文件均包括待识别对象的类别信息、待识别对象在相应图片中的位置信息;遍历所有的标签文件获取对应的分类识别框,识别框用冒泡方式获取待识别对象的最大尺度(W1,H1),同时用冒泡法找出待识别对象的最小尺度(W0,H0);其中:W1或W0=xmax-xminH1或H0=ymax-ymin式中,(xmin,ymin)(xmax,ymax)分别为待识别对象在相应图片中的左上角坐标、右下角坐标;步骤S3、计算待识别对象在相应图片中的中心坐标((xmax-xmin)/2,(ymax-ymin)/2));步骤S4、以待识别对象在相应图片中的中心坐标为中心,根据最大尺度W1、H1从相应图片里面截取以W1、H1为最大长宽的图片;若截取出来的长宽落到原图外面,则落到原图外面部分补上空白;步骤S5、截取的图片以原图为参照,将待识别对象求出的新的xmin,ymin,xmax,ymax写到新的标签文件中,同时将截取的图片及对应的新的标签文件替换原图及原图对应的标签文件保存到训练集合VOC中的对应目录中;步骤S6、将步骤S5得到的训练集合VOC输入到fpn深度学习网络进行训练。在本专利技术一实施例中,步骤S6中训练中,采用滑框模式进行待识别对象的识别。在本专利技术一实施例中,所述待识别对象为电力杆塔的小部件。在本专利技术一实施例中,所述电力杆塔的小部件包括螺母、螺帽、螺丝、垫片。相较于现有技术,本专利技术具有以下有益效果:本专利技术算法可以训练多个尺度,并且可以对大尺寸进行检测,并降低内存消耗。具体实施方式下面,对本专利技术的技术方案进行具体说明。本专利技术提供了一种深度学习大尺寸图片训练检测算法,包括如下步骤:步骤S1、在训练集合VOC中筛选出包含待识别对象的图片,以形成包含待识别对象的图片的图片集合,并保存到训练集合VOC中的对应目录中;步骤S2、包含待识别对象的图片的图片集合中的每一张图片均对应有相应的标签文件,每一个标签文件均包括待识别对象的类别信息、待识别对象在相应图片中的位置信息;遍历所有的标签文件获取对应的分类识别框,识别框用冒泡方式获取待识别对象的最大尺度(W1,H1),同时用冒泡法找出待识别对象的最小尺度(W0,H0);其中:W1或W0=xmax-xminH1或H0=ymax-ymin式中,(xmin,ymin)(xmax,ymax)分别为待识别对象在相应图片中的左上角坐标、右下角坐标;步骤S3、计算待识别对象在相应图片中的中心坐标((xmax-xmin)/2,(ymax-ymin)/2));步骤S4、以待识别对象在相应图片中的中心坐标为中心,根据最大尺度W1、H1从相应图片里面截取以W1、H1为最大长宽的图片;若截取出来的长宽落到原图外面,则落到原图外面部分补上空白;步骤S5、截取的图片以原图为参照,将待识别对象求出的新的xmin,ymin,xmax,ymax写到新的标签文件中,同时将截取的图片及对应的新的标签文件替换原图及原图对应的标签文件保存到训练集合VOC中的对应目录中;步骤S6、将步骤S5得到的训练集合VOC输入到fpn深度学习网络进行训练。步骤S6中训练中,采用滑框模式进行待识别对象的识别。所述待识别对象为电力杆塔的小部件。所述电力杆塔的小部件包括螺母、螺帽、螺丝、垫片。本专利技术算法相比于现有算法,其优点如下表1所示。表1以上是本专利技术的较佳实施例,凡依本专利技术技术方案所作的改变,所产生的功能作用未超出本专利技术技术方案的范围时,均属于本专利技术的保护范围。本文档来自技高网...

【技术保护点】
1.一种深度学习大尺寸图片训练检测算法,其特征在于,包括如下步骤:步骤S1、在训练集合VOC中筛选出包含待识别对象的图片,以形成包含待识别对象的图片的图片集合,并保存到训练集合VOC中的对应目录中;步骤S2、包含待识别对象的图片的图片集合中的每一张图片均对应有相应的标签文件,每一个标签文件均包括待识别对象的类别信息、待识别对象在相应图片中的位置信息;遍历所有的标签文件获取对应的分类识别框,识别框用冒泡方式获取待识别对象的最大尺度(W1,H1),同时用冒泡法找出待识别对象的最小尺度(W0,H0);其中:W1或W0=xmax‑xminH1或H0=ymax‑ymin式中,(xmin,ymin)(xmax,ymax)分别为待识别对象在相应图片中的左上角坐标、右下角坐标;步骤S3、计算待识别对象在相应图片中的中心坐标((xmax ‑xmin)/2,(ymax ‑ymin)/2));步骤S4、以待识别对象在相应图片中的中心坐标为中心,根据最大尺度 W1、H1从相应图片里面截取以W1、H1为最大长宽的图片;若截取出来的长宽落到原图外面,则落到原图外面部分补上空白;步骤S5、截取的图片以原图为参照,将待识别对象求出的新的xmin,ymin,xmax,ymax 写到新的标签文件中,同时将截取的图片及对应的新的标签文件替换原图及原图对应的标签文件保存到训练集合VOC中的对应目录中;步骤S6、将步骤S5得到的训练集合VOC输入到fpn深度学习网络进行训练。...

【技术特征摘要】
1.一种深度学习大尺寸图片训练检测算法,其特征在于,包括如下步骤:步骤S1、在训练集合VOC中筛选出包含待识别对象的图片,以形成包含待识别对象的图片的图片集合,并保存到训练集合VOC中的对应目录中;步骤S2、包含待识别对象的图片的图片集合中的每一张图片均对应有相应的标签文件,每一个标签文件均包括待识别对象的类别信息、待识别对象在相应图片中的位置信息;遍历所有的标签文件获取对应的分类识别框,识别框用冒泡方式获取待识别对象的最大尺度(W1,H1),同时用冒泡法找出待识别对象的最小尺度(W0,H0);其中:W1或W0=xmax-xminH1或H0=ymax-ymin式中,(xmin,ymin)(xmax,ymax)分别为待识别对象在相应图片中的左上角坐标、右下角坐标;步骤S3、计算待识别对象在相应图片中的中心坐标((xmax-xmin)/2,(ymax-ymin)/2));步骤S4、以待...

【专利技术属性】
技术研发人员:江南李怡然张海滨黄毅标孔令一黄超张贞纯赖必贵
申请(专利权)人:国网福建省电力有限公司福州供电公司国网福建省电力有限公司厦门亿力吉奥信息科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1