当前位置: 首页 > 专利查询>南京大学专利>正文

一种用于覆冰图像细粒度分类的图像特征提取方法和装置制造方法及图纸

技术编号:21362712 阅读:25 留言:0更新日期:2019-06-15 09:36
本发明专利技术公开了一种用于覆冰图像细粒度分类的图像特征提取方法和装置,所述方法包括如下步骤:步骤1,对输入图像进行预处理;步骤2,对预处理的图像进行特征提取。本发明专利技术在图像细粒度分类时考虑充分建模各层之间的信息传递,有效地提取图像特征,能对包含相近类别物体的图像进行更准确分类。

An Image Feature Extraction Method and Device for Fine-grained Classification of Ice-covered Images

The invention discloses an image feature extraction method and device for fine-grained classification of ice-covered images. The method comprises the following steps: step 1, preprocessing the input image; step 2, feature extraction of the preprocessed image. In fine-grained image classification, the invention considers fully modelling the information transmission between layers, effectively extracts image features, and can more accurately classify images containing similar categories of objects.

【技术实现步骤摘要】
一种用于覆冰图像细粒度分类的图像特征提取方法和装置
本专利技术涉及深度学习
,尤其涉及一种用于覆冰图像细粒度分类的图像特征提取方法的装置。
技术介绍
近年来,随着全球气温逐渐变暖,极端天气的不断增多,电网系统面临巨大的挑战。当前,我国电力系统在应对极端天气方面还存在很多技术欠缺,如果不能及时对可能出现的极端天气进行有效的预测和干预,可能造成灾难性的后果。冰风灾害是供电系统面临的一大难题。世界各地都曾出现过不同程度的冰风灾害,我国电网系统也发生过多次冰风灾害,而且这种灾害的发生频率呈现上升趋势。2008年年初,我国南方部分省市遭受了前所未有的低温雨雪冰冻灾害,冰冻灾害造成国家电网公司的直接财产损失达到104.5亿元,而灾后的电网恢复重建和改造投入资金达390亿元,经济损失巨大。巨大的经济损失和社会影响警示我们,开展电力系统防灾研究、保障电力系统在冰风灾害时的安全稳定运行是当前刻不容缓的挑战和艰巨的任务。在应对冰风灾害时除了采取防覆冰技术、融冰技术和除冰技术之外,对冰风灾害进行有效的识别和预测也具有十分重要的意义,而利用视觉图片判断电力设施是否覆冰是一个非常有效的方法。图像细粒度分类是在相同大类中更细致的区分不同小类,如区分覆冰与非覆冰图像。因为大类物体下不同小类的物体具有相近的结构,这导致了区分不同小类物体图像的难度大幅度上升,使得准确区分相同大类下的不同小类物体具有挑战性。此外由于环境光照、拍摄设备、物体角度、运动状态、拍摄距离等条件的不同导致图像质量不同,物体在图像中展现的姿态也不同,使得图像细粒度分类的问题更加复杂。在覆冰与非覆冰两种图像中物体的外观具有很高的相似性,在雨雪天气中拍摄的图像则更加容易与覆冰图像混淆,这使得区分覆冰与非覆冰图像的难度大幅提升。目前存在的图像细粒度检测识别方法大多基于图像的纹理、空间信息。有人提出了提前标注训练图像中待识别物体的位置来过滤背景因素的影响以达到更好的分类结果,但是这需要大量的人工标注,对训练数据集需要更高的要求。还有人通过将训练图像缩放,在多个不同尺度图像上分类训练模型,最后通过投票的方式决定物体类别,但是这种方法受需要额外的时间和空间来训练模型。有人提出利用自主学习的方式让模型选择放大图像中的哪些部分以达到更好的结果,但是如果训练数据中物体的位置多种多样将导致结果变差。上述方法在某些前提假设下有较好的分类结果,但对于较为一般的图像分类结果有所下降,因此需要一种对数据集要求更少的方法提取图像的特征并与其他类别区分开。
技术实现思路
针对现有技术的不足,本专利技术提供了一种用于覆冰图像细粒度分类的图像特征提取方法和装置,其中所述方法包括如下步骤:步骤1,对输入的覆冰图像进行预处理;步骤2,对预处理的图像进行特征提取。步骤1包括:对输入的覆冰图像进行缩放(缩放到256*256像素大小的图像),裁剪(保留中心224*224像素大小的图像区域)、归一化(减去均值后除以标准差,此处均值及标准差均为ImageNet数据集的均值和标准差,可以参考:http://image-net.org/index)的预处理,得到预设分辨率的图像,并将其按照三原色RGB三通道的顺序组成输入矩阵。步骤2包括:对预处理后的图像即步骤1得到的输入矩阵进行卷积(可以参考:https://pytorch.org/docs/stable/nn.html#conv2d)、注意力机制模块Attention和池化Pooling操作得到输出特征图,具体包括如下步骤:步骤2-1,对预处理后的图像依次进行一次卷积和池化Pooling操作,卷积核尺寸为7*7,步长为2,Pooling操作类型为最大池化maxpool(可以参考:https://pytorch.org/docs/stable/nn.html#maxpool2d),核尺寸为3*3,步长为2,并输出特征图;步骤2-2,步骤2-1输出的特征图经过第一个混和链路块MixedLinkBlock计算特征图,该混和链路块MixedLinkBlock包括6个混合层MixLayer,其中上一个混合层MixLayer的输出特征图作为下一个混合层MixLayer的输入特征图;对第一个混和链路块MixedLinkBlock的输出特征图依次进行卷积和池化Pooling操作,卷积核尺寸为1*1,步长为1,池化Pooling操作类型为平均池化avgpool(可以参考:https://pytorch.org/docs/stable/nn.html#avg-pool2d),核尺寸为2*2,步长为2,并输出特征图;步骤2-3,步骤2-2输出的特征图经过第二个混和链路块MixedLinkBlock计算特征图,该混和链路块MixedLinkBlock包括12个混合层MixLayer,其中上一个混合层MixLayer的输出特征图作为下一个混合层MixLayer的输入特征图;对第二个混和链路块MixedLinkBlock的输出特征图依次进行卷积、注意力机制模块Attention和池化Pooling操作,卷积核尺寸为1*1,步长为1,池化Pooling操作类型为avgpool,核尺寸为2*2,步长为2,并输出特征图;步骤2-4,步骤2-3输出的特征图经过第三个混和链路块MixedLinkBlock计算特征图,该混和链路块MixedLinkBlock包括20个混合层MixLayer,其中上一个混合层MixLayer的输出特征图作为下一个混合层MixLayer的输入特征图;对第三个混和链路块MixedLinkBlock的输出特征图依次进行卷积、注意力机制模块Attention和池化Pooling操作,三种操作与步骤2-2中第二个混和链路块MixedLinkBlock后接的操作相同,并输出特征图;步骤2-5,步骤2-4输出的特征图经过第四个混和链路块MixedLinkBlock计算特征图,该混和链路块MixedLinkBlock包括12个混合层MixLayer,其中上一个混合层MixLayer的输出特征图作为下一个混合层MixLayer的输入特征图;对第四个混和链路块MixedLinkBlock的输出特征图进行注意力机制模块Attention操作,并输出特征图;步骤2-6,对步骤2-5输出的特征图进行全局平均池化globalaveragepool(可以参考:https://pytorch.org/docs/stable/nn.html#avg-pool2d)操作,核尺寸为7*7,操作后的特征图经过一个1000维的全连接层得到一个1000维的向量,作为原图像的图像特征。所述混合层MixLayer为:每个混合层MixLayer包括两条计算路径,一条为内连接,另一条为外连接,两个连接分别对输入特征图进行两次卷积操作,第一个卷积核尺寸为1*1,步长为1,第二个卷积核尺寸为3*3,步长为1;将内连接计算的特征图与混合层MixLayer的输入特征图后k1个通道进行矩阵加法,即将两个相同维度的矩阵相应位置元素相加得到结果矩阵,在结果特征矩阵后面拼接外连接计算的特征矩阵得到该混合层MixLayer的输出特征图。所述注意力机制模块Attention操作为:注意力机制模块Attention操作对输入特征图进行一本文档来自技高网
...

【技术保护点】
1.一种用于覆冰图像细粒度分类的图像特征提取方法,其特征在于,包括如下步骤:步骤1,对输入的覆冰图像进行预处理;步骤2,对预处理的图像进行特征提取。

【技术特征摘要】
1.一种用于覆冰图像细粒度分类的图像特征提取方法,其特征在于,包括如下步骤:步骤1,对输入的覆冰图像进行预处理;步骤2,对预处理的图像进行特征提取。2.根据权利要求1所述的方法,其特征在于,步骤1包括:对输入的覆冰图像进行缩放,裁剪、归一化的预处理,得到预设分辨率的图像,并将其按照三原色RGB三通道的顺序组成输入矩阵。3.根据权利要求1所述的方法,其特征在于,步骤2包括:对预处理后的图像即步骤1得到的输入矩阵进行卷积、注意力机制模块Attention和池化Pooling操作得到输出特征图,具体包括如下步骤:步骤2-1,对预处理后的图像依次进行一次卷积和池化Pooling操作,卷积核尺寸为7*7,步长为2,Pooling操作类型为最大池化maxpool,核尺寸为3*3,步长为2,并输出特征图;步骤2-2,步骤2-1输出的特征图经过第一个混和链路块MixedLinkBlock计算特征图,该混和链路块MixedLinkBlock包括6个混合层MixLayer,其中上一个混合层MixLayer的输出特征图作为下一个混合层MixLayer的输入特征图;对第一个混和链路块MixedLinkBlock的输出特征图依次进行卷积和池化Pooling操作,卷积核尺寸为1*1,步长为1,池化Pooling操作类型为平均池化avgpool,核尺寸为2*2,步长为2,并输出特征图;步骤2-3,步骤2-2输出的特征图经过第二个混和链路块MixedLinkBlock计算特征图,该混和链路块MixedLinkBlock包括12个混合层MixLayer,其中上一个混合层MixLayer的输出特征图作为下一个混合层MixLayer的输入特征图;对第二个混和链路块MixedLinkBlock的输出特征图依次进行卷积、注意力机制模块Attention和池化Pooling操作,卷积核尺寸为1*1,步长为1,池化Pooling操作类型为avgpool,核尺寸为2*2,步长为2,并输出特征图;步骤2-4,步骤2-3输出的特征图经过第三个混和链路块MixedLinkBlock计算特征图,该混和链路块MixedLinkBlock包括20个混合层MixLayer,其中上一个混合层MixLayer的输出特征图作为下一个混合层MixLayer的输入特征图;对第三个混和链路块MixedLinkBlock的输出特征图依次进行卷积、注意力机制模块Attention和池化Pooling操作,三种操作与步骤2-2中第二个混和链路块MixedLinkBlock后接的操作相同,并输出特征图;步骤2-5,步骤2-4输出的特...

【专利技术属性】
技术研发人员:路通管文杰袁明磊岳圣凯孔震
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1