一种基于深度学习的目标检测方法技术

技术编号:34609547 阅读:70 留言:0更新日期:2022-08-20 09:14
本发明专利技术涉及计算机技术领域,具体是一种基于深度学习的目标检测方法,使用目标嵌入的方法,将检测出的原始图像候选框的目标称为原始图像,和重构图像组合到一起,成为组合目标集;将训练集中检测iou低于0.2的失败图像作为扩展图像,使用组合目标集的图像替换系统中扩展图像中的部分组合为一个新的图像,获得一个更大的数据集,当原始数据集较小时会变的非常有效;由于神经网络对于这些已经检测成功的图像更敏感,将目标外的区域进行多次替换,使得模型进行目标检测时能够对目标候选框的区域定位更精准,对候选框的边界区分更分明,加强了定位能力;本发明专利技术只采用iou值大于0.5的锚框,并进行非最大值抑制,使得空间定位能力更强。使得空间定位能力更强。使得空间定位能力更强。

【技术实现步骤摘要】
一种基于深度学习的目标检测方法


[0001]本专利技术涉及计算机
,具体是一种基于深度学习的目标检测方法。

技术介绍

[0002]随着计算机技术的飞速发展,计算机视觉中目标检测被应用在越来越多的地方。目标检测算法是指通过输入一个或数个图像,经过卷积层及池化层等操作,能够获得检测出目标的矩形框,预测图中物体的算法。随着深度学习的广泛应用,目标检测算法也越来越多,大致分为两种,单阶段目标检测及两阶段目标检测两种。单阶段目标检测算法准确性较低,但速度较快,如Yolo、SSD类的算法,通过减少其中卷积神经网络的层数和候选区域来增加神经网络算法的运行速度。两阶段目标检测算法多是基于R

CNN进行优化,首先通过某种算法确定图片中的候选框,再通过空间金字塔、锚框、支持向量机等对其中的候选框进行分类与回归,来进行预测,通过给算法增加规模构建深层神经网络进行深度学习来增加算法预测的准确性。
[0003]无论是单阶段还是两阶段算法,总有或多或少的缺陷,单阶段算法速度虽然较快,但准确率较低,而两阶段算法耗时过长又会丢失数据的时效性,目标检测算法的精度难以得到提升,训练模型过久时往往出现与训练集过拟合的问题。

技术实现思路

[0004]本专利技术的目的在于提供一种基于深度学习的目标检测方法,以解决上述
技术介绍
中提出的问题。
[0005]本专利技术的技术方案是:一种基于深度学习的目标检测方法,包括以下步骤:
[0006]S1、创建训练集,初始化训练:包括模型初始化、初次训练和锚框优化;
[0007]S2、目标嵌入,重构训练集:包括图像增强和目标嵌入重组;
[0008]S3、训练模型,计算损失函数,更新模型的参数:包括对模型重新训练,计算损失函数,进行深度学习;
[0009]S4、重复S3。
[0010]优选的,S1中,创建训练集,初始化训练包括以下步骤:
[0011]S11、模型初始化:
[0012]使用moco

v2模型先随机初始化,输入最初始图像,数据集可以为PascalVOC、COCO等,学习率定为0.05,迭代10000次,锚框初步定为25个位置、纵横比、规模的矩形框;
[0013]初次训练的损失函数为:
[0014][0015]其中q为一个查询表示,k+为key样本的正样本,τ是一个温度超参数,N为样本数;
[0016]S12、优化锚,保存检测成功图片:
[0017]根据数据集中输入图片的groud

truth值,将其中Iou值大于0.5的锚框保留,舍弃
其余的锚框;Iou指的是两个区域重叠的部分除以两个区域的集合部分得出的结果
[0018][0019]Overlap代表重叠区域,Union代表两个区域的并集区域;
[0020]S13、提取目标:
[0021]将这些检测成功的图像的groud

truth中候选框的目标全部裁剪出来。
[0022]优选的,S2中,训练模型,计算损失函数,更新模型的参数包括以下步骤:
[0023]S21、图像增强:
[0024]S211、将裁剪出来的目标先进行一个翻转;
[0025]S212、进行色彩随机抖动,将每一个色彩信道中随机增加一个值;
[0026]S213、平均分为4或9等分,每一部分称为一个part,每一个
[0027]part随机旋转10
°
到30
°
位置打乱;
[0028]S214、使用编码器将每个部分的特征提取出来,再整合为一个,再将其合成为新的图像,称为重构图像;
[0029]S22、目标嵌入重组:将检测出的原始图像候选框的目标称为原始图像,和重构图像组合到一起,成为组合目标集,原始图像称为l,重构图像称为p。
[0030]优选的,S3中,将组合目标集的图像进行对比学习,所述图像包括原始图像和原始图像,原始图像和重构图像,重构图像和重构图像。
[0031]优选的,所述目标嵌入的对比损失函数包括以下四种:
[0032]原始图像和原始图像:
[0033]原始图像和重构图像:
[0034][0035]重构图像和重构图像:
[0036]本专利技术通过改进在此提供一种基于深度学习的目标检测方法,与现有技术相比,具有如下改进及优点:
[0037]本专利技术使用目标嵌入的方法,将检测出的原始图像候选框的目标称为原始图像,和重构图像组合到一起,成为组合目标集;将训练集中检测iou低于0.2的失败图像作为扩展图像,使用组合目标集的图像替换系统中扩展图像中的部分组合为一个新的图像,获得一个更大的数据集,当原始数据集较小时会变的非常有效;由于神经网络对于这些已经检测成功的图像更敏感,将目标外的区域进行多次替换,使得模型进行目标检测时能够对目标候选框的区域定位更精准,对候选框的边界区分更分明,加强了定位能力;本专利技术只采用iou值大于0.5的锚框,并进行非最大值抑制,使得空间定位能力更强。
附图说明
[0038]下面结合附图和实施例对本专利技术作进一步解释:
[0039]图1是本专利技术方法实施流程图;
[0040]图2是本专利技术的模型结构图。
具体实施方式
[0041]下面对本专利技术进行详细说明,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0042]本专利技术通过改进在此提供一种基于深度学习的目标检测方法,本专利技术的技术方案是:
[0043]如图1所示,一种基于深度学习的目标检测方法,包括以下步骤:
[0044]S1、创建训练集,初始化训练:包括模型初始化、初次训练和锚框优化;
[0045]具体的,包括以下步骤:
[0046]S11、模型初始化:
[0047]使用如图2所示的moco

v2模型先随机初始化,输入最初始图像,数据集可以为PascalVOC、COCO等,学习率定为0.05,迭代10000次,锚框初步定为25个位置、纵横比、规模的矩形框;图2所示的moco

v2模型先由数据集中的原始数据生成两组不同的图像,然后通过encoder编码器对图像进行处理然后提取图像中的特征,再合并两组数据生成损失函数loss;
[0048]初次训练的损失函数为:
[0049][0050]其中q为一个查询表示,k+为key样本的正样本,τ是一个温度超参数,N为样本数;
[0051]S12、优化锚,保存检测成功图片:
[0052]根据数据集中输入图片的groud

truth值,将其中Iou值大于0.5的锚框保留,舍弃其余的锚框;Iou指的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的目标检测方法,其特征在于:包括以下步骤:S1、创建训练集,初始化训练:包括模型初始化、初次训练和锚框优化;S2、目标嵌入,重构训练集:包括图像增强和目标嵌入重组;S3、训练模型,计算损失函数,更新模型的参数:包括对模型重新训练,计算损失函数,进行深度学习;S4、重复S3。2.根据权利要求1所述的一种基于深度学习的目标检测方法,其特征在于:S1中,创建训练集,初始化训练包括以下步骤:S11、模型初始化:使用moco

v2模型先随机初始化,输入最初始图像,数据集可以为PascalVOC、COCO等,学习率定为0.05,迭代10000次,锚框初步定为25个位置、纵横比、规模的矩形框;初次训练的损失函数为:其中q为一个查询表示,k+为key样本的正样本,τ是一个温度超参数,N为样本数;S12、优化锚,保存检测成功图片:根据数据集中输入图片的groud

truth值,将其中Iou值大于0.5的锚框保留,舍弃其余的锚框;Iou指的是两个区域重叠的部分除以两个区域的集合部分得出的结果Overlap代表重叠区域,Union代表两个区域的并集区域;S13、提取目标:将这些检测成功的图像的groud
‑...

【专利技术属性】
技术研发人员:王其张权倪世松
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1