基于YOLO框架的图像目标检测方法技术

技术编号:21091031 阅读:53 留言:0更新日期:2019-05-11 10:29
本发明专利技术公开了一种基于YOLO框架的图像目标检测方法。该方法通过建立YOLO框架模型,将待测图像转换成固定尺寸大小的图像后输入YOLO框架模型得到多个预测张量值,每个预测张量值通过转换公式反向计算得到预测矩形框,将得到的多个预测矩形框通过非最大抑制算法处理,得到最可靠的矩形框,并将其转换到原图上即可得到目标的类别和位置,YOLO框架模型是在原有的YOLO框架基础上,对其进行改进,使得检测能力大大提升,使得原有检测不到的小目标能够检测到,并且能够准确识别目标是什么和目标的大致位置,同时相比较于传统的建模方法,减少了开发时间,大大提高了检测的准确度和速度,使得算法能够达到实时的能力。适合在数据处理技术领域推广应用。

Image Target Detection Based on YOLO Framework

【技术实现步骤摘要】
基于YOLO框架的图像目标检测方法
本专利技术涉及数据处理
,尤其是一种基于YOLO框架的图像目标检测方法。
技术介绍
目标检测的任务是找出图像中所有感兴趣的目标,并确定目标的位置和类别,这是计算机视觉中的核心问题之一。目标检测主要解决的问题是目标自身的疑问,“我是谁?”和“我在哪儿?”,即目标在图像中是什么和在什么位置的问题。图像中的小目标在现在的日常生活中所处可见,诸如普通相机拍摄远距离的物体时就会产生小目标;自动驾驶中车辆远距离识别前方的小的交通信号灯时;医学显微镜拍摄细胞图像时也会出现小目标等。小目标对于我们的日常生活紧密相连,息息相关,通过研究小目标可以让我们的生活更加美好,更加方便。小目标的具体定义有两种方式,一种是绝对尺寸定义,另一种是相对尺寸定义。绝对尺寸定义即图像中目标的像素小于32*32,即可认为是小目标。相对尺寸定义即为目标像素小于图像宽和高的十分之一,就可认为是小目标。在本专利的研究中,小目标都是绝对尺寸定义。在目标检测的发展史中,先是主要研究的是大的目标,即在一张图像中占据较多像素的目标。随着研究地不断进步,才开始逐渐地开始研究小目标,并且在最开始研究本文档来自技高网...

【技术保护点】
1.基于YOLO框架的图像目标检测方法,其特征在于包括以下步骤:1)、建立YOLO框架模型;所述YOLO框架模型的建立包括如下步骤:A、采集输电线路的图像建立数据集;B、对数据集中的每一张图像进行预处理,所述预处理包括图像裁剪,缩放,翻转,移位,旋转,亮度调整,加噪声;C、对经过步骤B处理的图像进行特征提取;所述特征提取的过程如下:将经过步骤B处理的每一张图像分别输入darknet53网络进行特征特征提取,得到三个大小分别为13*13,26*26,52*52的特征图;D、将每一张图像经过特征提取得到的三个特征图分别经过预测网络处理后得到三个张量值;具体过程如下所述:将13*13的特征图先通过5...

【技术特征摘要】
1.基于YOLO框架的图像目标检测方法,其特征在于包括以下步骤:1)、建立YOLO框架模型;所述YOLO框架模型的建立包括如下步骤:A、采集输电线路的图像建立数据集;B、对数据集中的每一张图像进行预处理,所述预处理包括图像裁剪,缩放,翻转,移位,旋转,亮度调整,加噪声;C、对经过步骤B处理的图像进行特征提取;所述特征提取的过程如下:将经过步骤B处理的每一张图像分别输入darknet53网络进行特征特征提取,得到三个大小分别为13*13,26*26,52*52的特征图;D、将每一张图像经过特征提取得到的三个特征图分别经过预测网络处理后得到三个张量值;具体过程如下所述:将13*13的特征图先通过5个转换的卷积层,之后通过2个预测卷积层,最后在每一个特征点上得到3*(4+1+数据集的类别数)的向量,再结合13*13特征图的大小,得到一个(batch_size,3,13,13,3*(4+1+数据集的类别数))的张量值;之后对13*13的特征图进行上采样得到26*26的特征图,与步骤C中得到的该张图像的26*26特征图相融合,得到一个新的特征图,对该新的特征图经过5个转换的卷积层和2个预测卷积层处理后在每一个特征点上得到同样大小的向量,再结合26*26特征图的大小,得到一个(batch_size,3,26,26,3*(4+1+数据集的类别数))的张量值;接着对26*26的特征图做上采样得到52*52的特征图,与步骤C中得到的该张图像的52*52特征图相融合,得到一个新的特征图,对该新的特征图经过5个转换的卷积层和2个预测卷积层处理后在每一个特征点上得到同样大小的向量,再结合52*52特征图的大小,得到一个(batch_size,3,52,52,3*(4+1+数据集的类别数))的张量值;其中数字3表示在该特征图上anchor的数量,数字4表示预测得到的预测结果的中心坐标值和宽高值,数字1表示预测框的置信度,类别数表示在该特征点上预测类别的概率;E、获取每一张图像的标签数据,所述标签数据包括中心坐标值bx,by、宽高值bw,bh和类别,并将获得的标签数据转换成训练数据,具体转换过程如下所述:将获得的标签数据的中心坐标值bx,by和宽高值bw,bh代入以下转换公式得到训练数据的中心坐标值tx,ty,宽高值tw,th以及置信度,训练数据的类别数与标签数据的...

【专利技术属性】
技术研发人员:王强
申请(专利权)人:成都思晗科技股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1