基于深度学习的高清图像内小目标的检测方法和装置制造方法及图纸

技术编号:37334805 阅读:24 留言:0更新日期:2023-04-21 23:13
本发明专利技术涉及基于深度学习的高清图像内小目标的检测方法和装置,方法包括步骤:A.对视频原图进行降采样等预处理;B.以预设的重叠比例将视频原图切为N张图像;C.由N路改进后的yolov7

【技术实现步骤摘要】
基于深度学习的高清图像内小目标的检测方法和装置


[0001]本专利技术涉及视频图像的处理方法和装置,具体是基于深度学习的高清图像内小目标的检测方法和装置。

技术介绍

[0002]随着人工智能技术与工业无人机行业的深度结合与蓬勃发展,通过无人机搭载各类载荷代替人工巡检与勘测,能有效节约人力成本并提高检测效率。并且,在一些精细化区域巡检场景,例如输电线路巡检、油气管线巡检等应用场景中,用户十分关注杆塔中销钉是否有松动、损坏等异常情况。因此,如果能结合深度学习的方法对杆塔进行智能化检测,对销钉状态进行智能化判断,便能够更大程度上提高无人机区域巡检的自动化程度。
[0003]要达到如此高精度的智能化、精细化巡检,首先是对成像单元的空间分辨率提出了严苛的要求。然而,仅有高分辨率的图像采集模块还不够,目前已有的一些目标检测网络对高分辨率输入处理速度慢,且深度模型随深度加深过程中不断的卷积操作,许多小目标易被模糊掉。
[0004]综上所述,传统的无人机区域巡检对精细化目标检测与识别关注较少,这主要受限于成像单元的视频数据分辨率较低、高分辨率中/小目标检测与识别的处理速度较慢。而日益增长的精细化区域巡检需求急需无人机搭载高分辨率图像采集模块,并提供一种更高效、更精确的超高清图像中/小目标检测与识别方法。从而可实时接收无人机巡检过程中的高分辨率视频监控画面,同时能对图像中的小目标(如电线杆塔的销钉)进行精准的智能化检测和识别,极大程度上提高无人机区域巡检的自动化程度和巡检效率。
[0005]为了解决无人机智能化、精细化区域巡检、监测等作业过程中对小目标检测识别难的问题,现有技术中,大多都是基于Yolov3模型对高清图像目标检测,但通过不断降采样后的特征图对小目标的检测精度也较低,对提高小目标检测的精度没有改进。
[0006]在输电线路巡检、油气管线巡检等应用场景中,基于续航时间等因素的考虑,工业无人机更适合此类作业场景,但工业无人机飞行高度较高、距离目标距离较远且机芯采集视频数据分辨率低导致小目标成像效果差。即使有了4K这样高分辨率的监控画面来提高小目标的成像效果,但其每帧有800多万像素,且目标在整幅图像中占比仍旧十分微小。因此,如何能提高小目标检测准确率并保持实时性仍具有较大的挑战。

技术实现思路

[0007]本专利技术提供了一种基于深度学习的高清图像内小目标的检测方法和装置,以实现实时返回无人机飞行的高分辨率监控画面,并提升处理速度实现无人机实时精细化区域巡检。
[0008]本专利技术基于深度学习的高清图像内小目标的检测方法,包括步骤:A. 对采集到的视频原图进行包括降采样在内的预处理;B. 以预设的重叠比例将预处理后的视频原图切分为N张等尺寸的图像,所述N为
大于1的自然数;C. 将所述N张图像分别传入目标检测模块中,通过N路改进后的yolov7

tiny

SiLU模型分别对应对N张输入的图像进行目标检测定位,分别检测出具有目标的区域,每路改进后的yolov7

tiny

SiLU模型的输出为中层和深层两路特征图;所述改进后的yolov7

tiny

SiLU模型为在原始yolov7

tiny

SiLU模型上裁剪掉小目标检测分支的yolov7

tiny

SiLU模型;D. 将每路改进后的yolov7

tiny

SiLU模型输出的中层和深层两路特征图作为一个特征图整体,将该特征图整体上采样为与N张图像中所对应图像相同的尺寸,然后级联具有目标语义信息的深度特征和具有局部细节信息的视频原图切分出的对应图像,将N路级联后的特征图整体输出到下一阶段;E. 提取N路输入中的所述目标语义信息包含的小目标的状态特征,结合N路输入中的中层和深层两路特征图,分别识别出N张图像中各小目标的状态信息;F. 对N张图像的检测识别结果进行合并,计算出N路检测识别结果合并后各小目标在视频原图上的目标框像素位置,最后可视化输出最终检测结果。
[0009]本专利技术通过多个模型分别检测目标的大致区域和目标的细节状态,实现了在高分辨图像中兼并高精度与高实时性的精细化区域巡检任务,并且在确定目标大致区域时,将yolov7

tiny

SiLU模型作为主干网络,其速度能够满足实时性要求。如果直接对视频原图的数据进行检测,虽然准确率也较高,但是处理速度较低;如果直接对视频原图降采样后进行识别检测,小目标会被降采样为更少的像素或几乎消失,这样很难区分小目标与背景的差异以至于难以准确识别出目标类别。因此本专利技术通过降采样、上采样和级联原图等多种方式相结合,同时实现了有效提高对小目标识别的精度和处理速度。
[0010]其中,步骤C中所述yolov7

tiny

SiLU模型的小目标检测分支,是yolov7

tiny

SiLU模型的一部分,yolov7

tiny

SiLU模型的主干网中的特征图金字塔P3、P4、P5,分辨率分别为输入图像的1/8、1/16、1/32,分别用于检测小、中、大三种面积的目标。这里所述的小目标分支就是指从yolov7

tiny

SiLU模型的主干网的P3特征图金字塔引出的网络分支。所述小目标的定义是根据相对尺寸定义的,即在整幅图像中目标相对面积小于0.12%左右的目标。
[0011]进一步的,步骤A所述预处理包括:A1. 通过视频解码器对视频原图中单帧码流进行解码,并将视频原图的YUV图像(一种图像编码方式)转为RGB图像(红绿蓝图像);A2. 将转为RGB图像的视频原图降采样为预设尺寸,降采样时图像保持与视频原图相同的长宽比,再将降采样后的视频原图的像素值由[0, 255]调整到[0, 1],并按RGB通道分别对像素采用均值和方差归一化以消除光照影响。
[0012]由于视频原图是高分辨率的图像,而高分辨率图像如果直接进行传输和检测识别,则对硬件中的显存要求较高,即使显存条件满足,但在相同硬件条件下分辨率越高图像的帧率越低,即数据处理的实时性较差,因此在能满足帧率要求的情况下将视频原图降采样到选择合适的预设尺寸。
[0013]一种具体的方式为,步骤B所述重叠比例的预设方式为:根据对应的应用场景中待检测目标的尺寸范围进行确定,通过视频原图切分后的相邻图像之间的重叠比例,在切分
后的图像中仍包含完整的待检测目标,而不会将本身尺寸小的待检测目标切分到不同的图像中。
[0014]服务器中通常配置有多个GPU(图形处理器),多个GPU可并行处理图像,因此将视频原图切分的目的是为了能充分调用多GPU并行处理输入数据的能力,图像的具体切分张数可根据硬件条件在兼并显存处理能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度学习的高清图像内小目标的检测方法,其特征为,包括步骤:A. 对采集到的视频原图进行包括降采样在内的预处理;B. 以预设的重叠比例将预处理后的视频原图切分为N张等尺寸的图像,所述N为大于1的自然数;C. 将所述N张图像分别传入目标检测模块中,通过N路改进后的yolov7

tiny

SiLU模型分别对应对N张输入的图像进行目标检测定位,分别检测出具有目标的区域,每路改进后的yolov7

tiny

SiLU模型的输出为中层和深层两路特征图;所述改进后的yolov7

tiny

SiLU模型为在原始yolov7

tiny

SiLU模型上裁剪掉小目标检测分支的yolov7

tiny

SiLU模型;D. 将每路改进后的yolov7

tiny

SiLU模型输出的中层和深层两路特征图作为一个特征图整体,将该特征图整体上采样为与N张图像中所对应图像相同的尺寸,然后级联具有目标语义信息的深度特征和具有局部细节信息的视频原图切分出的对应图像,将N路级联后的特征图整体输出到下一阶段;E. 提取N路输入中的所述目标语义信息包含的小目标的状态特征,结合N路输入中的中层和深层两路特征图,分别识别出N张图像中各小目标的状态信息;F. 对N张图像的检测识别结果进行合并,计算出N路检测识别结果合并后各小目标在视频原图上的目标框像素位置,最后可视化输出最终检测结果。2.如权利要求1所述的基于深度学习的高清图像内小目标的检测方法,其特征为:步骤A所述预处理包括:A1. 通过视频解码器对视频原图中单帧码流进行解码,并将视频原图的YUV图像转为RGB图像;A2. 将转为RGB图像的视频原图降采样为预设尺寸,降采样时图像保持与视频原图相同的长宽比,再将降采样后的视频原图的像素值由[0, 255]调整到[0, 1],并按RGB通道分别对像素采用均值和方差归一化以消除光照影响。3.如权利要求1所述的基于深度学习的高清图像内小目标的检测方法,其特征为:步骤B所述重叠比例的预设方式为:根据对应的应用场景中待检测目标的尺寸范围进行确定,通过视频原图切分后的相邻图像之间的重叠比例,在切分后的图像中仍包含完整的待检测目标,而不会将本身尺寸小的待检测目标切分到不同的图像中。4.如权利要求1所述的基于深度学习的高清图像内小目标的检测方法,其特征为:步骤C中所述改进后的yolov7

tiny<...

【专利技术属性】
技术研发人员:汪虹余王陈曹治锦孙婷婷
申请(专利权)人:成都纵横自动化技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1