一种基于航拍数据集的地物图像分类方法技术

技术编号：40797206 阅读：5 留言：0更新日期：2024-03-28 19:24

本发明专利技术公开了一种基于航拍数据集的地物图像分类方法，该方法能够解决航拍数据图像分类存在的低效率、低准确性以及难以应对大规模数据的难点问题，设计的模型与VGG16相比，准确率提升了16％，训练时间减少了约50％，推理速度是原来的4倍且参数量降低了35％；与现有的分类性能较好的轻量级网络EfficientNet‑B3相比，本文提出的模型将Top1准确率提高了5％，训练时间减少了18％。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及航拍信息感知，具体是指一种基于航拍数据集的地物图像分类方法。

技术介绍

1、随着深度学习神经网络和计算机视觉技术的发展，越来越多的基于卷积神经网络的计算机视觉模型和框架被用于各行各业，深度学习技术与人们的生产生活联系更加紧密。与此同时，无人机技术日益成熟，并且无人机具有起飞降落场地受限小、易转场、航拍成本低等优点，因此无人机进行航拍愈来愈受到大众欢迎。通过对获得的航拍图像进行地物图像分类，可以为城市规划、土地利用、环境监测等领域提供有效支持，进而获得经济效益。

2、航拍数据包含了大量的地物图像，其中蕴含着丰富的地理信息，因此航拍数据经过一定方式处理后，可被应用于城市规划、自然资源管理、自然灾害监测、地理信息系统应用等领域，且十分具有现实意义。然而，航拍数据集数量庞大、图像间质量存在较大差异、类别数目繁多，对航拍数据集中的地物图像进行自动分类的工作仍然十分具有挑战性。此外，传统的地物图像分类任务主要基于手工提取特征和人工规则设计，这种方法存在低效率、低准确性以及难以应对大规模数据等不足。

3、基于卷积神经网络的图像分类模型在近年来被广泛提出，这些模型在一定条件下能够对数据集图像进行有效分类，alexnet网络模型是首个将深度卷积神经网络应用于图像分类的模型，但是该模型参数较多，需要较大的计算资源，且容易过拟合；vgg网络模型由牛津大学的karen simonyan等人于2014年提出，其具有较小的参数量和更好的泛化能力，但是计算复杂度较高，容易过拟合；googlenet网络模型由google团

4、综合以上，图像分类网络模型要在不断提高分类精度和效率的同时，降低参数量与计算量，从而满足更多实际应用需求基于航拍数据集的地物图像分类任务。因此本方法提出一种基于航拍数据集的地物分类方法，从而对航拍数据进行更高效的图像分类，为自动化地物分类提供了新的解决方案。

技术实现思路

1、针对上述情况，为了克服以上网络模型在图像分类上的技术问题，本专利技术的目的在于提供一种基于航拍数据集的地物图像分类方法，能够解决航拍数据图像分类存在的低效率、低准确性以及难以应对大规模数据的难点问题。

2、为解决上述技术问题，本专利技术的技术方案为：一种基于航拍数据集的地物图像分类方法，包括基于卷积神经网络的图像分类模型，该模型同时考虑宽度方向因子、深度方向因子以及倍率因子，从而提升网络分类准确率，此外通过使用较小尺寸的卷积核，避免因为网络深度增加引起的参数量暴涨问题；

3、所述图像分类模型的卷积神经网络共有8层且使用了new-mbconv模块，第一层为普通的3×3卷积，堆叠次数为1；第二至七层均对new-mbconv模块进行了重复堆叠，堆叠次数从2渐增至15，使用的卷积核尺寸均为3×3；最后一层由一个普通的1×1卷积，后接平均池化操作，最后由卷积层代替的全连接层构成。

4、进一步地，所述new-mbconv模块分为主分支与捷径分支，在主分支上，首先是一个尺寸为1×1的卷积层，用于对模块的输入数据的特征矩阵进行升维，之后进行批归一化处理与swish激活函数将输出数据传入depwise conv，数据经过该层处理后特征矩阵的维度不发生变化，继而再次进行批归一化处理与swish激活函数后传入se模块；由se模块输出的数据传入下一个卷积层，对数据的特征矩阵进行降维操作后进行dropout操作，之后与捷径分支的数据进行相加的到new-mbconv模块的输出。

5、进一步地，所述se模块由主分支与捷径分支构成，主分支上由一个全局平均池化和两个卷积核尺寸为1×1的卷积层组成，在两个卷积层后分别进行了swish激活操作与sigmoid激活操作。

6、进一步地，所述图像分类模型的卷积神经网络共有8层，第一层是普通卷积层、swish激活函数、批归一化的组合，该层中模块不进行重复堆叠；第二层将new-mbconv模块重复堆叠两次，在模块内部，主分支上第一个卷积所使用的扩展因子倍率等于1，步距为1；第三至五层中，分别将new-mbconv模块重复堆叠4次、4次和6次，模块内卷积核使用的步距均为2，扩展因子倍率为4；第六、七层中，new-mbconv模块分别堆叠了9次和15次，模块内卷积核的步距分别为1和2，扩展因子倍率为6；第八层由卷积、平均池化、卷积操作组成，卷积操作均使用步距为2的普通1×1卷积，除第八层外，其余层次中所使用的卷积核尺寸均为3×3。

7、进一步地，在new-mbconv模块中，对于主分支上的第一个升维卷积层而言，其卷积核个数等于输入new-mbconv模块的数据的特征矩阵通道数与扩展因子之积；数据经过第一层卷积后输入depwise conv，特征矩阵维度在该层卷积中不发生改变，随后经过se模块继而传入下一层卷积，该层中卷积核的个数与本层new-mbconv模块的输出特征矩阵的通道数一致；最后，当new-mbconv模块中捷径分支有效时，数据通过dropout层将数据输入下一个new-mbconv模块，该层参考了stochastic depth方法，由多组残差结构依次连接构成，每个残差结构同样由主分支与捷径分支组成，主分支上将对输入残差结构的数据通过特定函数进行处理，每个残差结构的主分支会以一定的概率进行丢弃，即输入数据不进行任何处理直接进入下一层残差结构，此外关于new-mbconv模块中的捷径分支，仅当输入该模块的特征矩阵与从该模块输出的特征矩阵尺寸完全相同时才存在。

8、一种基于航拍数据集的地物图像分类方法，还包括通过pycharm平台设计的可视化界面，将每次测试输入网络的数据的分类结果进行可视化输出，可视化界面由文字部分和输入图像两部分构成，文字部分显示出该图像通过网络模型预测出的类别与对应的概率，可视化界面使分类结果可视化从而更直接的感受到模型的分类性能。

9、本专利技术与现有技术相比优点在于：无人机航拍愈来愈受到大众欢迎，通过对获得的航拍图像进行地物图像分类，可以为城市规划、土地利用、环境监测等领域提供有效支持，进而获得经济效益。本专利技术的一种基于航拍数据集的地物图像分类方法，搭建了较深层次的网络，在网络训练的前向传播过程中，通过使用较小尺寸的卷积核来避免出现因网络层次加深引起的计算量暴涨的问题，还使用小尺寸的卷积代替全连接操作，从而使网络能够接收任意尺度的输入图像。在测试阶段，在三组不同的地物图像分类任务数据集上进行方法精准度测试，能够准确地对航拍地物图像进行分类，具有很强的泛化本文档来自技高网...

【技术保护点】

1.一种基于航拍数据集的地物图像分类方法，其特征在于：包括基于卷积神经网络的图像分类模型，该模型同时考虑宽度方向因子、深度方向因子以及倍率因子，从而提升网络分类准确率，此外通过使用较小尺寸的卷积核，避免因为网络深度增加引起的参数量暴涨问题；

2.根据权利要求1所述的一种基于航拍数据集的地物图像分类方法，其特征在于：所述New-MBConv模块分为主分支与捷径分支，在主分支上，首先是一个尺寸为1×1的卷积层，用于对模块的输入数据的特征矩阵进行升维，之后进行批归一化处理与Swish激活函数将输出数据传入Depwise Conv，数据经过该层处理后特征矩阵的维度不发生变化，继而再次进行批归一化处理与Swish激活函数后传入SE模块；由SE模块输出的数据传入下一个卷积层，对数据的特征矩阵进行降维操作后进行Dropout操作，之后与捷径分支的数据进行相加的到New-MBConv模块的输出。

3.根据权利要求2所述的一种基于航拍数据集的地物图像分类方法，其特征在于：所述SE模块由主分支与捷径分支构成，主分支上由一个全局平均池化和两个卷积核尺寸为1×1的卷积层组成，在两

4.根据权利要求1所述的一种基于航拍数据集的地物图像分类方法，其特征在于：所述图像分类模型的卷积神经网络共有8层，第一层是普通卷积层、Swish激活函数、批归一化的组合，该层中模块不进行重复堆叠；第二层将New-MBConv模块重复堆叠两次，在模块内部，主分支上第一个卷积所使用的扩展因子倍率等于1，步距为1；第三至五层中，分别将New-MBConv模块重复堆叠4次、4次和6次，模块内卷积核使用的步距均为2，扩展因子倍率为4；第六、七层中，New-MBConv模块分别堆叠了9次和15次，模块内卷积核的步距分别为1和2，扩展因子倍率为6；第八层由卷积、平均池化、卷积操作组成，卷积操作均使用步距为2的普通1×1卷积，除第八层外，其余层次中所使用的卷积核尺寸均为3×3。

5.根据权利要求2所述的一种基于航拍数据集的地物图像分类方法，其特征在于：在New-MBConv模块中，对于主分支上的第一个升维卷积层而言，其卷积核个数等于输入New-MBConv模块的数据的特征矩阵通道数与扩展因子之积；数据经过第一层卷积后输入Depwise Conv，特征矩阵维度在该层卷积中不发生改变，随后经过SE模块继而传入下一层卷积，该层中卷积核的个数与本层New-MBConv模块的输出特征矩阵的通道数一致；最后，当New-MBConv模块中捷径分支有效时，数据通过Dropout层将数据输入下一个New-MBConv模块，该层参考了Stochastic Depth方法，由多组残差结构依次连接构成，每个残差结构同样由主分支与捷径分支组成，主分支上将对输入残差结构的数据通过特定函数进行处理，每个残差结构的主分支会以一定的概率进行丢弃，即输入数据不进行任何处理直接进入下一层残差结构，此外关于New-MBConv模块中的捷径分支，仅当输入该模块的特征矩阵与从该模块输出的特征矩阵尺寸完全相同时才存在。

6.根据权利要求1所述的一种基于航拍数据集的地物图像分类方法，其特征在于：还包括通过PyCharm平台设计的可视化界面，将每次测试输入网络的数据的分类结果进行可视化输出，可视化界面由文字部分和输入图像两部分构成，文字部分显示出该图像通过网络模型预测出的类别与对应的概率，可视化界面使分类结果可视化从而更直接的感受到模型的分类性能。

...

【技术特征摘要】

2.根据权利要求1所述的一种基于航拍数据集的地物图像分类方法，其特征在于：所述new-mbconv模块分为主分支与捷径分支，在主分支上，首先是一个尺寸为1×1的卷积层，用于对模块的输入数据的特征矩阵进行升维，之后进行批归一化处理与swish激活函数将输出数据传入depwise conv，数据经过该层处理后特征矩阵的维度不发生变化，继而再次进行批归一化处理与swish激活函数后传入se模块；由se模块输出的数据传入下一个卷积层，对数据的特征矩阵进行降维操作后进行dropout操作，之后与捷径分支的数据进行相加的到new-mbconv模块的输出。

3.根据权利要求2所述的一种基于航拍数据集的地物图像分类方法，其特征在于：所述se模块由主分支与捷径分支构成，主分支上由一个全局平均池化和两个卷积核尺寸为1×1的卷积层组成，在两个卷积层后分别进行了swish激活操作与sigmoid激活操作。

4.根据权利要求1所述的一种基于航拍数据集的地物图像分类方法，其特征在于：所述图像分类模型的卷积神经网络共有8层，第一层是普通卷积层、swish激活函数、批归一化的组合，该层中模块不进行重复堆叠；第二层将new-mbconv模块重复堆叠两次，在模块内部，主分支上第一个卷积所使用的扩展因子倍率等于1，步距为1；第三至五层中，分别将new-mbconv模块重复堆叠4次、4次和6次，模块内卷积核使用的步距均为2，扩展因子倍率为4；第六、...

【专利技术属性】
技术研发人员：宋永超，王璇，毕季平，刘兆伟，胡小林，王莹洁，孙丽俊，王傲然，齐泉智，文志东，
申请(专利权)人：烟台大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人