一种基于深度学习的目标检测方法技术

技术编号:34009808 阅读:48 留言:0更新日期:2022-07-02 14:18
本发明专利技术属于机器学习技术领域,具体涉及一种基于深度学习的目标检测方法,包括如下步骤,数据采集:采集COCO 2014检测数据集和PASCAL VOC 2007+2012数据集EMG完成原始数据集的构建,并对其类别进行标注,完成模型训练所需数据集的构建;数据预处理:对数据进行预处理,通过不同的数据分割方法对原始数据图片不同类型进行划分,保证模型训练效果;模型构建:采用低维卷积神经网络搭建识别分类模型,输入训练数据,完成参数模型的搭建,模型保存:当模型的损失函数不再降低之后,保存模型;模型评估:将测试数据输入保存好的网络模型中完成模型性能的评估。本发明专利技术提出了分类和定位任务分离的新范式(G

【技术实现步骤摘要】
一种基于深度学习的目标检测方法


[0001]本专利技术属于机器学习
,具体涉及一种基于深度学习的目标检测方法。

技术介绍

[0002]目前深度神经网络在1000类目标识别任务中取得了超人类水平的性能,但检测网络在80类目标识别任务中还没有取得与人类相当的性能,这说明识别与检测任务之间存在差距。目标检测需要强大的分类性能以及在无限个候选位置中精确定位一个目标的能力。
[0003]现有技术存在的问题或者缺陷:目前,目标检测模型利用共享的特征图来同时完成分类和定位任务,但只能通过比较原始快速RCNN和部分分离特征映射的RCNN的性能,且性能较差。

技术实现思路

[0004]基于此,本专利技术提供了一种基于深度学习的目标检测方法,收集来自COCO 2014检测数据集和PASCAL VOC 2007+2012数据集完成原始数据集的构建,并将COCO数据集中的图像按照像素大小进行类别划分。完成数据收集后,对数据进行预处理,预处理包括分割,归一化等。将预处理后的数据输入搭建好的G

RCN融合网络模型中进行网络模型的训练,待到模型损失函数不再下降,保存模型,完成模型构建,同时将测试数据输入保存的网络模型中完成模型的评价,识别模型的性能。
[0005]本申请公开的一种基于深度学习的目标检测方法,包括如下步骤,
[0006]S1、数据采集:采集COCO 2014检测数据集和PASCAL VOC 2007+2012数据集EMG完成原始数据集的构建,并对其类别进行标注,完成模型训练所需数据集的构建;
[0007]S2、数据预处理:对数据进行预处理,通过不同的数据分割方法对原始数据图片不同类型进行划分,保证模型训练效果;
[0008]S3、模型构建:采用低维卷积神经网络搭建识别分类模型,输入训练数据,完成参数模型的搭建;
[0009]S4、模型保存:当模型的损失函数不再降低之后,保存模型;
[0010]S5、模型评估:将测试数据输入保存好的网络模型中完成模型性能的评估。
[0011]进一步的,所述步骤S1中,将原始数据集中的图像用于模型的性能测试,并将COCO数据集中的图像按照像素大小进行类别划分,其划分依据为尺寸大小分别小于32*32、大于32*32、小于96*96、大于96*96,而PASCAL VOC数据集中包含训练集和测试集,将两个数据集进行整合构建适用于网络模型的训练和测试。
[0012]进一步的,所述步骤S2中:包括数据分割和图像缩放,所述数据分割将获取到的原始数据集进行分割,按照7:3划分为训练集和测试集,其中训练集用于模型的训练,而剩余的图像用于最终的模型性能评估;
[0013]所述图像缩放:在输入图像前将图像的像素大小统一为600
×
600。
[0014]进一步的,所述步骤S3中:构建基于缝隙优化区域的卷积网络在不添加任何额外
模块或信息的情况下实现最小纹理的识别,在具有ResNet101骨干的Faster R

CNN上采用G

RCN,ResNet101从conv4块的最后6个瓶颈开始分离,conv5块作为原始块在head中使用;conv4块中第一个瓶颈的第一卷积层原本的步幅为2,在本地化分支中修改为步幅为1,分类和本地化分支共享conv4块的前17个瓶颈的相同内核,conv5层将stride修改为1,而其中所使用的ResNet101中的conv5块的所有层作为头部,附加到RoI池化层,主干由前四个块中的所有层组成,并生成用于分类和定位的共享特征图。
[0015]进一步的,所述步骤S5中,通过使用AP、MPA评价指标,其公式如下:其中pii表示正确分类的像素数量;pij表示所有像素数量,i,j为序号;其中N为所有类别。
[0016]本专利技术与现有技术相比,具有的有益效果是:
[0017]本专利技术设计了一种基于深度学习的目标检测方法,基于区域的目标检测模型的分类和定位任务进行了分析,并分别研究了这两项任务的效果,得出分类和定位任务的高级特征共享是次优的,大跨距有利于分类,但不利于定位,全局上下文信息可以提高分类性能。在此基础上,提出了分类和定位任务分离的新范式(G

RCN),并优化两者之间的差距,实现性能的提升。
附图说明
[0018]图1为本专利技术的流程框图。
具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术专利技术进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]本申请公开的一种基于深度学习的目标检测方法,如图1所示,包括如下步骤,
[0021]S1、数据采集:采集COCO 2014检测数据集和PASCAL VOC 2007+2012数据集EMG完成原始数据集的构建,并对其类别进行标注,完成模型训练所需数据集的构建;
[0022]收集来自COCO 2014检测数据集和PASCAL VOC 2007+2012数据集完成原始数据集的构建,其中COCO数据集中包含80个类别,共包含83000张图像用于训练,40000张图像用于模型的性能测试,并将COCO数据集中的图像按照像素大小进行类别划分,其划分依据为尺寸大小分别小于32*32、大于32*32、小于96*96、大于96*96。而PASCAL VOC数据集中包含11000张训练集和5000张测试集,将两个数据集进行整合构建适用于本实验的专属数据集用于网络模型的训练和测试。
[0023]S2、数据预处理:对数据进行预处理,通过不同的数据分割方法对原始数据图片不同类型进行划分,保证模型训练效果;
[0024]数据归一化:对每条数据进行Min

Max归一化。
[0025]数据分割:将获取到的原始数据集进行分割,按照7:3划分为训练集和测试集,其中训练集用于模型的训练,而剩余的图像用于最终的模型性能评估。
[0026]图像缩放:由于原始数据中的图像来源方向不同,导致获取的图像尺度大小不一,为了满足训练模型的输入,在输入图像前将图像的像素大小统一为600
×
600,提高模型检测性能。
[0027]S3、模型构建具体方法为:采用低维卷积神经网络搭建识别分类模型,输入训练数据,完成参数模型的搭建;构建基于缝隙优化区域的卷积网络(Gap

optimized Region Based Convolutional Network,G

RCN),在不添加任何额外模块或信息的情况下实现最小纹理的识别,在具有ResNet101骨干的Faster R

CNN上采用了G

RCN,并提出了一种分离这两个任务的方法。Re本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的目标检测方法,其特征在于,包括如下步骤,S1、数据采集:采集COCO 2014检测数据集和PASCAL VOC 2007+2012数据集EMG完成原始数据集的构建,并对其类别进行标注,完成模型训练所需数据集的构建;S2、数据预处理:对数据进行预处理,通过不同的数据分割方法对原始数据图片不同类型进行划分,保证模型训练效果;S3、模型构建:采用低维卷积神经网络搭建识别分类模型,输入训练数据,完成参数模型的搭建;S4、模型保存:当模型的损失函数不再降低之后,保存模型;S5、模型评估:将测试数据输入保存好的网络模型中完成模型性能的评估。2.如权利要求1所述的一种基于深度学习的目标检测方法,其特征在于,所述步骤S1中,将原始数据集中的图像用于模型的性能测试,并将COCO数据集中的图像按照像素大小进行类别划分,其划分依据为尺寸大小分别小于32*32、大于32*32、小于96*96、大于96*96,而PASCALVOC数据集中包含训练集和测试集,将两个数据集进行整合构建适用于网络模型的训练和测试。3.如权利要求2所述的一种基于深度学习的目标检测方法,其特征在于,所述步骤S2中:包括数据分割和图像缩放,所述数据分割将获取到的原始数据集进行分割,按照7:3划分为训练集和测试集,...

【专利技术属性】
技术研发人员:潘晓光王小华陈亮张雅娜张娜姚珊珊
申请(专利权)人:山西三友和智慧信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1