当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于YOLOv3算法的果园行人检测方法技术

技术编号:21454580 阅读:35 留言:0更新日期:2019-06-26 04:58
本发明专利技术公开一种基于YOLOv3算法的果园行人检测方法。具体为:采集果园中行人图像;对采集的图像进行预处理,构建标准的行人检测数据集;将训练集放入修改过的Darknet‑53网络结构提取行人特征,通过K‑means聚类方法产生anchor box数来生成预测的行人边界框,使用二元交叉熵损失函数进行类别预测,并使用类似FPN网络进行多尺度融合预测;最后通过Soft‑NMS去除多余的预测边界框,输出最终的预测边界框和类别。本发明专利技术的行人检测准确率高,实时性好,针对果园环境下提出的Random Erasing等数据增广方法,增强训练模型对复杂背景的鲁棒性,采用的Soft‑NMS算法能提高检测的召回率,并且引进的组归一化Group Normalization能降低训练的模型对硬件的要求。

【技术实现步骤摘要】
一种基于YOLOv3算法的果园行人检测方法
本专利技术属于深度学习、行人检测
,具体涉及一种针对果园环境下智能机器人作业时基于YOLOv3算法的行人检测方法。
技术介绍
近年来,随着国家对现代农业产业园创建重视以及智能机器人的发展,利用智能无人农机对果园喷洒农药、采摘水果日渐兴起,在无人农机作业过程中,需要对周围障碍物实时检测,首要考虑的是对周围行人的检测,以确保行人和车安全。本文采取计算机视觉方法结合深度学习来检测行人。果园环境下影响行人检测发展制约因素包括果园环境光照强度不断变化;行人所处背景信息复杂;行人姿态、外形和服饰多种多样和遮挡性问题等。传统行人检测方法主要利用行人形状特征、纹理特征等来手工设计特征检测行人,如HOG、DPM等方法,然而人工设计的行人特征复杂、泛化性差。随着深度学习不断发展,基于深度学习的检测方法准确性大大超过传统方法。基于候选区域的深度学习检测方法,如R-CNN和FasterR-CNN等,由于将目标检测和和目标定位分步完成,检测速度慢,无法满足实时检测场景。
技术实现思路
为解决以上行人检测存在的问题以及实际中智能无人农机对检测的高精度要求,本专利技术提供一种基于YOLOv3算法的果园行人检测方法,将检测视作回归问题,直接利用卷积网络结构对整个图像进行处理,同时预测出检测的类别和位置。本专利技术基于YOLOv3算法的果园行人检测方法,包括以下步骤:步骤1:采集果园环境中行人图像;采集行人在深度摄像头下拍摄的各种姿势和所处果园位置的图像,其中,所述拍摄的行人包括躺、坐、蹲、行走、站立、跑步以及距离摄像头不同距离的行人和不同遮挡情况的行人;步骤2:对步骤1中采集的图像进行预处理,并构建标准的行人检测数据集;先对步骤1中获得的图像进行如下操作来扩充数据:其一、对图像进行水平和垂直翻转、随机裁剪、随机角度旋转、改变图像对比度和亮度;其二、用RandomErasing方法随机选择图像中的一个任意大小的矩形区域,擦除选定区域内的像素值并对擦除的像素值赋0至255之间的随机值。再对扩充后的数据集图像用标注工具生成对应的标注及标签信息,标注信息即样本中目标的位置信息,标签信息即样本中目标所属类别,类别为人标注为person,并将数据集分为训练集和测试集。步骤3:将步骤2中处理后制作的训练集放入卷积特征器特征提取行人特征,通过K-means聚类方法产生anchorbox数来生成预测的行人边界框,并使用类似FPN网络进行多尺度融合预测来提升边界框和类别预测的准确性:(3.1):先将步骤2中获得的训练集图像尺寸调整为608×608,并设置IOU阈值为0.6,置信度阈值为0.5;(3.2):再将输入的图像通过进过修改的Darknet-53网络结构提取特征;YOLOv3算法使用的特征提取网络结构为Darknet-53,它由53个卷积层和Residual结构组成,卷积核大小为3×3和1×1两种,每个卷积层均通过批归一化(BatchNormalization)和Leakyrelu激活函数操作。使用组归一化(GroupNormalization)替换批归一化来改善归一化操作。(3.3):接着通过类似FPN网络对行人进行多尺度融合预测,将第82层输出的19×19特征图、第94层输出的38×38特征图和第106层输出的76×76特征图分别划分为19×19个网格、38×38个网格和76×76个网格;使用K-means聚类方法对训练集的边界框做聚类,得到合适的anchorbox,并在每个网格上产生3个anchorbox数来生成预测的目标边界框以及使用二元交叉熵损失函数来预测类别。聚类使用的公式为d(box,centroid)=1-IOU(box,centroid)其中,box为先验框,centroid为聚类中心,IOU(box,centroid)为两个区域的交并比,当d(box,centroid)小于等于度量阈值时,确定anchorbox的宽高大小。预测边界框的公式为bx=σ(tx)+cxby=σ(ty)+cy其中,cx和cy为划分的单元格与图像左上角的横纵坐标的距离,pw、ph分别为预测前的边界框宽度和高度,tx和ty为预测中心相对参数,σ(tx)和σ(ty)分别是预测框中心偏离其所在单元格左上角的水平方向和垂直方向的距离,bx和by分别为预测的边界框中心的横、纵坐标,bw和bh分别为预测的边界框的宽度和高度。预测边界框的置信度公式为其中,Pr(object)为0或1,为0表示图像中没有目标,为1表示有目标;表示预测的边界框和实际的边界框之间的交并比,置信度(confidencescore)反映是否包含目标以及包含目标情况下预测位置的准确性。置信度阈值设为0.5,则当预测的边界框置信度小于0.5时,删除预测的边界框;预测的边界框置信度大于0.5时,保留预测的边界框。类别预测使用的二元交叉熵损失函数(binarycross-entropyloss)公式为其中,N是训练图片的总数量;yi取值为0或1,yi取值为1表示第i张输入的图片包含行人,yi取值为0则表示第i张输入的图片不包含行人;pi值为对第i张输入的图片是否包含行人的预测的概率,pi值在0至1之间;loss为对每个训练图片的对数损失的平均值,loss越小越好。理想情况下,yi值为1时,pi值为1;yi值为0时,pi值为0。进一步的改进,使用组归一化替代YOLOv3算法中所有卷积层上已有的批归一化。由于批归一化会受到批尺寸(batchsize)影响,当批尺寸小时,批归一化算出均值和方差偏大,显著增加模型误差,降低神经网络性能;当批尺寸大时,使用的显存可能不够用。组归一化计算的是通道方向上各组的均值和方差,和批尺寸没关系,可以解决批归一化对批尺寸依赖的影响,组归一化能够满足小批尺寸时实现快速的神经网络训练并能够大大降低对于硬件的需求。组归一化公式如下:yi=γxi+β其中,x是由层计算的特征,i=(iN,iC,iH,iW),i是以(N,C,H,W)顺序索引特征的矢量,其中N是batch轴,C是通道轴,H和W分别是空间高度和宽度轴,ε为一个小常数,ui为平均值,σi为标准差,Si为计算的平均值和标准差的像素集合,m是该集合的大小,yi是每个通道的线性变换,γ和β是可训练的尺度缩放值和移位值,iC和kC分别表示沿C轴的i和沿k轴的子索引;G是组的数量,它是预定义的超参数;C/G是每组的通道数,表示当每组通道沿C轴按顺序存储时,索引i和k在同一组通道中。组归一化沿(H,W)轴和沿着一组C/G通道计算μ和σ,同一组中的像素通过相同的μ和σ一起归一化。组归一化还学习每个通道的γ和β。步骤4:最后,使用Soft-NMS来改进NMS,根据预测的边界框与实际边界框的交并比(IOU)进行Soft-NMS操作,对预测的边界框的置信度小于给定的阈值进行边界框抑制,输出最终的预测边界框和类别;NMS将检测框按得分排序,然后只保留得分最高的框,同时删除与该框重叠面积大于一定比例的其它框;Soft-NMS思路是对不直接删除所有IOU大于阈值的检测框,而是降低其置信度Soft-NMS函数如下:其中,M为当前得分最高的边界框,bi为待处理框,当IOU小于阈值Nt(Nt=0.6)时,检测本文档来自技高网...

【技术保护点】
1.一种基于改进的YOLOv3算法的果园行人检测方法,其特征在于,包括以下步骤:步骤1:采集果园环境中行人图像;采集行人在深度摄像头下拍摄的各种姿势和所处果园位置的图像,其中,所述拍摄的行人包括躺、坐、蹲、行走、站立、跑步以及距离摄像头不同距离的行人和不同遮挡情况的行人。步骤2:对步骤1中采集的图像进行预处理,并构建标准的行人检测数据集;步骤3:将步骤2中处理后制作的训练集放入卷积特征器特征提取行人特征,通过K‑means聚类方法产生anchor box数来生成预测的行人边界框,并使用类似FPN网络进行多尺度融合预测来提升边界框和类别预测的准确性;步骤4:使用软化非极大值抑制Soft‑NMS算法来改进非极大值抑制NMS算法,根据预测的边界框与实际边界框的交并比IOU进行Soft‑NMS操作,对预测的边界框的置信度小于给定的阈值进行边界框抑制,输出最终的预测边界框和类别。

【技术特征摘要】
1.一种基于改进的YOLOv3算法的果园行人检测方法,其特征在于,包括以下步骤:步骤1:采集果园环境中行人图像;采集行人在深度摄像头下拍摄的各种姿势和所处果园位置的图像,其中,所述拍摄的行人包括躺、坐、蹲、行走、站立、跑步以及距离摄像头不同距离的行人和不同遮挡情况的行人。步骤2:对步骤1中采集的图像进行预处理,并构建标准的行人检测数据集;步骤3:将步骤2中处理后制作的训练集放入卷积特征器特征提取行人特征,通过K-means聚类方法产生anchorbox数来生成预测的行人边界框,并使用类似FPN网络进行多尺度融合预测来提升边界框和类别预测的准确性;步骤4:使用软化非极大值抑制Soft-NMS算法来改进非极大值抑制NMS算法,根据预测的边界框与实际边界框的交并比IOU进行Soft-NMS操作,对预测的边界框的置信度小于给定的阈值进行边界框抑制,输出最终的预测边界框和类别。2.根据权利要求1所述的一种基于改进的YOLOv3算法的果园行人检测方法,其特征在于:步骤2具体如下:先对步骤1中获得的图像进行如下操作来扩充数据:其一、对图像进行水平和垂直翻转、随机裁剪、随机角度旋转、改变图像对比度和亮度;其二、用RandomErasing方法随机选择图像中的一个任意大小的矩形区域,擦除选定区域内的像素值并对擦除的像素值赋0至255之间的随机值,再对扩充后的数据集图像用标注工具生成对应的标注及标签信息,标注信息即样本中目标的位置信息,标签信息即样本中目标所属类别,类别为人标注为person,并将数据集分为训练集和测试集。3.根据权利要求1所述的一种基于改进的YOLOv3算法的果园行人检测方法,其特征在于:步骤3具体如下:3.1:先将步骤2中获得的训练集进行图像尺寸调整,并设置IOU阈值以及置信度阈值;3.2:再将输入的图像通过经过修改的Darknet-53网络结构提取特征;Darknet-53网络结构由53个卷积层和Residual结构组成,卷积核大小为3×3和1×1两种,每个卷积层均通过批归一化BatchNormalization和Leakyrelu激活函数操作。使用组归一化GroupNormalization替换批归一化来改善归一化操作;3.3:接着通过类似FPN网络对行人进行多尺度融合预测,将第82层输出的19×19特征图、第94层输出的38×38特征图和第106层输出的76×76特征图分别划分为19×19个网格、38×38个网格和76×76个网格;使用K-means聚类方法对训练集的边界框做聚类,得到合适的anchorbox,并在每个网格上产生3个anchorbox数来生成预测的目标边界框以及使用二元交叉熵损失函数来预测类别;聚类使用的公式为d(box,centroid)=1-IOU(box,centroid)其中,box为先验框,centroid为聚类中心,IOU(box,centroid)为两个区域的交并比,当d(box,centroid)小于等于度量阈值时,确定anchorbox的宽高大小;预测边界框的公式为bx=σ(tx)+cxby=σ(ty)+cy其中,cx和cy为划分的单元格...

【专利技术属性】
技术研发人员:景亮吴边沈跃刘慧张礼帅张健罗晨晖
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1