一种基于深度学习的无人机关键部件实时视频语义分割方法技术

技术编号:36039742 阅读:49 留言:0更新日期:2022-12-21 10:45
本发明专利技术公开了一种基于深度学习的无人机关键部件实时视频语义分割方法,属于图像的语义分割技术领域。本发明专利技术通过收集网络上所有出现无人机的场景,并对连续多帧进行拆分,标注关键帧后进行数据增强,得到无人机视频语义分割数据集,使用多分支特征提取网络,对视频帧进行特征学习,将多分支特征融合补充,达到深层网络特征提取效果,以达到相同精度下提升网络速度的效果;使用光流信息将分割阶段的低级特征对称融合到后续卷积阶段,保证边缘细节不在卷积网络中丢失,保证了边缘分割到精度,为后续利用边缘信息的中心点计算提供保证。本发明专利技术根据视频语义分割识别结果,基于像素替换和二值化处理等获取目标部件轮廓及中心点,提升了易用性。了易用性。了易用性。

【技术实现步骤摘要】
一种基于深度学习的无人机关键部件实时视频语义分割方法


[0001]本专利技术涉及图像的语义分割
,尤其是一种基于深度学习无人机关键部件实时视频语义分割方法。

技术介绍

[0002]图像的分割任务分为三种:语义分割、实例分割和全景分割。其中通常说的分割指的是语义分割,是对图片中所有像素点的分类任务。实例分割是指对具体对象的分割,具体的对象也就是实例,不仅对图片中的像素进行分割,还要对其做进一步的分类,即在语义分割中人是同一种分类,在实例分割中,人会分为多个类。全景分割是将语义分割和实例分割的合成,对图中所有物品都进行分类分割。语义分割是计算机视觉和模式识别领域的关键技术,它与目标检测和图像分类一起构成了环境感知的三大任务。2014年,Shelhamer等人提出了一种基于全卷积神经网络的语义方法FCN,这项工作在语义方面取得了重大进展。它不仅回答了CNN如何实现有限训练和有限训练的语义分离的问题,而且有效地解决了如何生成语义预测输出任意输入大小的像素。
[0003]随着图片语义分割的发展,在精度上到达瓶颈之后,研究者将目光关注到了语义分割的速度上,但是由于深层次的语义信息往往需要高昂的代价去获取,例如更深的网络,更加有效的特征提取方法,这样也限制了语义分割的处理速度。并且在视频中动态物体的质量以及姿态会比静态图片的质量低很多,比如视频中物体的快速运动导致的物体模糊,以及遮挡情况等等。视频语义分割的概念被提出,视频语义分割是自动驾驶常用的方法,由于自动驾驶对于实时性要求较高,其处理速度大约为15FPS
>‑
30FPS(Frames Per Second),视频语义分割网络与图像语义分割网络的主要区别就在于加入了时间维度信息的运用。

技术实现思路

[0004]本专利技术的目的在于:本专利技术提供了一种基于深度学习无人机关键部件实时视频语义分割方法,解决现有神经网络对无人机关键部件分割的场景处理的缺失以及边缘处理精度不高、处理速度慢的问题。
[0005]本专利技术采用的技术方案如下:
[0006]一种基于深度学习无人机关键部件实时视频语义分割方法,包括如下步骤:
[0007]步骤1,建立数据集:
[0008]基于网络资源对所有无人机出现的场景图像进行采集,并对采集的图像进行目标部件的图像标注和数据增强后,获得若干个以连续指定帧数的图像作为一个场景片段的视频语义分割数据集;
[0009]步骤2,构建并训练视频语义分割网络:
[0010]所述视频语义分割网络包括M条特征提取网络支路,每条特征提取网络支路包括多层卷积层和用于光流对齐处理并上采样的光流传播模块,将M条特征提取支路的输出特征图进行拼接融合,再经编码网络和注意力模块后输入带Softmax函数的全连接层,以输出
各目标部件的概率信息;
[0011]基于视频语义分割数据集对视频语义分割网络进行训练,完成训练后取得最优模型;
[0012]步骤3,将待识别的视频序列输入步骤2得到的最优模型,基于其输出得到识别结果,其中待识别的视频序列长度与视频语义分割数据集的场景片段的帧数相同;
[0013]对识别结果进行关键点处理:对识别结果进行像素替换,保留目标部件,再进行二值化处理后基于轮廓获取处理得到目标部件的轮廓;基于目标部件的轮廓计算图像中心矩得到目标部件的中心点并可视化输出。
[0014]优选地,所述步骤1中,目标部件的图像标注具体为:对无人机的目标部件(例如无人机的旋翼、主体、负载)用连续的点进行框选,对不同类别的目标部件采用不同标位的像素值。
[0015]优选的,所述步骤1中,数据增强包括:图像翻转、旋转、缩放比例、裁剪和移位。
[0016]优选地,所述步骤2中,每条特征提取网络支路具体设置为:
[0017]第一层卷积层包含一个3*3的卷积和一个3*3的残差结构(bottleneck),输出通道数为16;
[0018]第二层卷积层卷积核大小为3*3的2个残差结构和一个卷积核为5*5的残差结构,输出通道个数为40;
[0019]第三层卷积层为卷积核大小为5*5的五个残差结构组成,输出通道为96;
[0020]第四层卷积核的大小为5*5的2个残差结构,输出通道个数为96;
[0021]第五层为3*3的池化层;
[0022]第五层网络后接入金字塔池化网络(PPM网络),并将第三层网络与金字塔池化网络的输出进行光流对齐处理并上采样得到第六层,以及将第二层网络与第六层输出进行光流对齐处理并上采样得到第七层,再将第一层网络与第七层网络输出进行光流对起处理并上采样后再融合第六层和第七层的光流对齐处理结果,得到特征提取网络支路的输出特征图。
[0023]优选地,所述步骤2中,训练视频语义分割网络时,利用反向传播算法和梯度下降法训练,通过计算无人机每一类的交并比(IoU)值对网络的每一层权重值进行调整,反复迭代直到得到最大的交并比值。
[0024]优选地,所述步骤3中,对识别结果进行关键点处理具体包括:
[0025]基于识别结果利用像素替换,对目标部件进行筛选;
[0026]基于识别结果对单个物体使用最大联通域算法,筛选最大目标,防止识别结果影响中心点计算;
[0027]基于识别结果进行二值化得到目标部件的轮廓;
[0028]基于目标部件的轮廓计算图像中心矩得到目标部件的中心点并可视化输出。
[0029]本专利技术提供的技术方案至少带来如下有益效果:
[0030](1)本专利技术通过收集网络上所有出现无人机的场景,并对指定的连续帧进行拆分,标注关键帧后进行数据增强,得到无人机视频语义分割数据集,使用多分支特征提取网络,对视频帧进行特征学习,将多分支特征融合补充,达到深层网络特征提取效果,以达到相同精度下提升网络速度的效果;
[0031](2)本专利技术由于无人机飞行场景多在空中,背景和目标之间的边缘难以辨别,影响语义分割效果。本专利技术在特征提取分割网络中使用光流信息将分割阶段的低级特征对称融合到后续卷积阶段,保证边缘细节不在卷积网络中丢失,保证了边缘分割到精度,为后续利用边缘信息的中心点计算提供保证。
[0032](3)本专利技术的视频语义分割网络架构,使用了时间维度信息,保证无人机在飞行过程中的多尺度变化可以有效的分割处理,提高了视频中常见遮挡、运动撕裂、背景同质化情况的识别精度;
[0033](4)本专利技术根据视频语义分割识别结果,对图片进行像素替换,只保留目标部件,再进行二值化,使用相应函数得到轮廓,在进一步使用计算图像中心矩得到中心点,使该专利技术更有易用性.
附图说明
[0034]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0035]图1为本专利技术实施例提供的基本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的无人机关键部件实时视频语义分割方法,其特征在于,包括如下步骤:步骤1,建立数据集:基于网络资源对所有无人机出现的场景图像进行采集,并对采集的图像进行目标部件的图像标注和数据增强后,获得若干个以连续指定帧数的图像作为一个场景片段的视频语义分割数据集;步骤2,构建并训练视频语义分割网络:所述视频语义分割网络包括M条特征提取网络支路,每条特征提取网络支路包括多层卷积层和用于光流对齐处理并上采样的光流传播模块,将M条特征提取支路的输出特征图进行拼接融合,再经编码网络和注意力模块后输入带Softmax函数的全连接层,以输出各目标部件的概率信息;基于视频语义分割数据集对视频语义分割网络进行训练,完成训练后取得最优模型;步骤3,将待识别的视频序列输入步骤2得到的最优模型,基于其输出得到识别结果,其中待识别的视频序列长度与视频语义分割数据集的场景片段的帧数相同;对识别结果进行关键点处理:对识别结果进行像素替换,保留目标部件,再进行二值化处理后基于轮廓获取处理得到目标部件的轮廓;基于目标部件的轮廓计算图像中心矩得到目标部件的中心点并可视化输出。2.如权利要求1所述的方法,其特征在于,所述步骤1中,目标部件的图像标注具体为:对无人机的目标部件用连续的点进行框选,对不同类别的目标部件采用不同标位的像素值。3.如权利要求1所述的方法,其特征在于,所述步骤1中,数据增强包括:图像翻转、旋转、缩放比例、裁剪和移位。4.如权利要求1所述的方...

【专利技术属性】
技术研发人员:邓建华李龙王静雅赵建恒陈昱辰代铮何佳霓杨杰秦琪怡陶泊昊郑凯文苟晓攀
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1