【技术实现步骤摘要】
一种基于YOLOv3算法的果园行人检测方法
本专利技术属于深度学习、行人检测
,具体涉及一种针对果园环境下智能机器人作业时基于YOLOv3算法的行人检测方法。
技术介绍
近年来,随着国家对现代农业产业园创建重视以及智能机器人的发展,利用智能无人农机对果园喷洒农药、采摘水果日渐兴起,在无人农机作业过程中,需要对周围障碍物实时检测,首要考虑的是对周围行人的检测,以确保行人和车安全。本文采取计算机视觉方法结合深度学习来检测行人。果园环境下影响行人检测发展制约因素包括果园环境光照强度不断变化;行人所处背景信息复杂;行人姿态、外形和服饰多种多样和遮挡性问题等。传统行人检测方法主要利用行人形状特征、纹理特征等来手工设计特征检测行人,如HOG、DPM等方法,然而人工设计的行人特征复杂、泛化性差。随着深度学习不断发展,基于深度学习的检测方法准确性大大超过传统方法。基于候选区域的深度学习检测方法,如R-CNN和FasterR-CNN等,由于将目标检测和和目标定位分步完成,检测速度慢,无法满足实时检测场景。
技术实现思路
为解决以上行人检测存在的问题以及实际中智能无人农机对检测的高精度要求,本专利技术提供一种基于YOLOv3算法的果园行人检测方法,将检测视作回归问题,直接利用卷积网络结构对整个图像进行处理,同时预测出检测的类别和位置。本专利技术基于YOLOv3算法的果园行人检测方法,包括以下步骤:步骤1:采集果园环境中行人图像;采集行人在深度摄像头下拍摄的各种姿势和所处果园位置的图像,其中,所述拍摄的行人包括躺、坐、蹲、行走、站立、跑步以及距离摄像头不同距离的行人和不同遮挡 ...
【技术保护点】
1.一种基于改进的YOLOv3算法的果园行人检测方法,其特征在于,包括以下步骤:步骤1:采集果园环境中行人图像;采集行人在深度摄像头下拍摄的各种姿势和所处果园位置的图像,其中,所述拍摄的行人包括躺、坐、蹲、行走、站立、跑步以及距离摄像头不同距离的行人和不同遮挡情况的行人。步骤2:对步骤1中采集的图像进行预处理,并构建标准的行人检测数据集;步骤3:将步骤2中处理后制作的训练集放入卷积特征器特征提取行人特征,通过K‑means聚类方法产生anchor box数来生成预测的行人边界框,并使用类似FPN网络进行多尺度融合预测来提升边界框和类别预测的准确性;步骤4:使用软化非极大值抑制Soft‑NMS算法来改进非极大值抑制NMS算法,根据预测的边界框与实际边界框的交并比IOU进行Soft‑NMS操作,对预测的边界框的置信度小于给定的阈值进行边界框抑制,输出最终的预测边界框和类别。
【技术特征摘要】
1.一种基于改进的YOLOv3算法的果园行人检测方法,其特征在于,包括以下步骤:步骤1:采集果园环境中行人图像;采集行人在深度摄像头下拍摄的各种姿势和所处果园位置的图像,其中,所述拍摄的行人包括躺、坐、蹲、行走、站立、跑步以及距离摄像头不同距离的行人和不同遮挡情况的行人。步骤2:对步骤1中采集的图像进行预处理,并构建标准的行人检测数据集;步骤3:将步骤2中处理后制作的训练集放入卷积特征器特征提取行人特征,通过K-means聚类方法产生anchorbox数来生成预测的行人边界框,并使用类似FPN网络进行多尺度融合预测来提升边界框和类别预测的准确性;步骤4:使用软化非极大值抑制Soft-NMS算法来改进非极大值抑制NMS算法,根据预测的边界框与实际边界框的交并比IOU进行Soft-NMS操作,对预测的边界框的置信度小于给定的阈值进行边界框抑制,输出最终的预测边界框和类别。2.根据权利要求1所述的一种基于改进的YOLOv3算法的果园行人检测方法,其特征在于:步骤2具体如下:先对步骤1中获得的图像进行如下操作来扩充数据:其一、对图像进行水平和垂直翻转、随机裁剪、随机角度旋转、改变图像对比度和亮度;其二、用RandomErasing方法随机选择图像中的一个任意大小的矩形区域,擦除选定区域内的像素值并对擦除的像素值赋0至255之间的随机值,再对扩充后的数据集图像用标注工具生成对应的标注及标签信息,标注信息即样本中目标的位置信息,标签信息即样本中目标所属类别,类别为人标注为person,并将数据集分为训练集和测试集。3.根据权利要求1所述的一种基于改进的YOLOv3算法的果园行人检测方法,其特征在于:步骤3具体如下:3.1:先将步骤2中获得的训练集进行图像尺寸调整,并设置IOU阈值以及置信度阈值;3.2:再将输入的图像通过经过修改的Darknet-53网络结构提取特征;Darknet-53网络结构由53个卷积层和Residual结构组成,卷积核大小为3×3和1×1两种,每个卷积层均通过批归一化BatchNormalization和Leakyrelu激活函数操作。使用组归一化GroupNormalization替换批归一化来改善归一化操作;3.3:接着通过类似FPN网络对行人进行多尺度融合预测,将第82层输出的19×19特征图、第94层输出的38×38特征图和第106层输出的76×76特征图分别划分为19×19个网格、38×38个网格和76×76个网格;使用K-means聚类方法对训练集的边界框做聚类,得到合适的anchorbox,并在每个网格上产生3个anchorbox数来生成预测的目标边界框以及使用二元交叉熵损失函数来预测类别;聚类使用的公式为d(box,centroid)=1-IOU(box,centroid)其中,box为先验框,centroid为聚类中心,IOU(box,centroid)为两个区域的交并比,当d(box,centroid)小于等于度量阈值时,确定anchorbox的宽高大小;预测边界框的公式为bx=σ(tx)+cxby=σ(ty)+cy其中,cx和cy为划分的单元格...
【专利技术属性】
技术研发人员:景亮,吴边,沈跃,刘慧,张礼帅,张健,罗晨晖,
申请(专利权)人:江苏大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。