【技术实现步骤摘要】
自适应数量的辨别性区域定位与表示方法
[0001]本专利技术属于计算机视觉
,具体涉及一种自适应数量的辨别性区域定位与表示方法,用于细粒度图像识别,可以准确定位辨别性区域。
技术介绍
[0002]与通用的图像识别任务不同,细粒度图像识别任务要求区分的类别更加细致,具体到某一个大类下子类的识别,如鸟类的细分类、飞机类型的细分类、商品类别的细分类等等。由于其任务定义要求的识别类别更加细致,在现实场景中有着更广泛的应用和需求,一直是学术界和产业界的重点关注领域。
[0003]对细粒度图像识别而言,主要难点来自于三个方面。一是类间差别很小,一类图像可能仅有几个细微的物体部位和其他类别不同。二是类内方差很大,同类样本之间的差距有可能很大,例如鸟的不同姿态、植物的不同生长阶段等,都会使得样本的外表发生很大的变化。三是标注数据匮乏,对图像进行细粒度标注要求有很高的领域知识,这使得数据标注十分困难,难以构建大规模数据集支撑模型的训练。
[0004]为了应对这些难点,现有细粒度图像识别方法中往往包含了辨别性区域定位的过程 ...
【技术保护点】
【技术特征摘要】
1.一种自适应数量的辨别性区域定位与表示方法,其特征在于包括如下步骤:步骤1.提取输入图像的深度特征;步骤2.对深度特征使用自注意力机制获得自注意力图;步骤3.对深度特征提取类别激活图;步骤4.对自注意力图和类别激活图进行融合,得到用于定位辨别性区域的显著性图;步骤5.对显著性图进行滑窗得到候选极值点,将候选极值点扩展为辨别性区域,提取辨别性特征;步骤6.获取细粒度图像识别结果。2.如权利要求1所述的自适应数量的辨别性区域定位与表示方法,其特征在于:所述步骤1具体如下:1)对输入图像进行随机水平翻转、尺度变换、随机裁剪这些图像变换;2)将变换后的图像输入卷积神经网络ResNet
‑
50,获得输出特征图,大小为c*n*n,其中c≥1,为特征的通道数,n≥1,为特征图的大小。3.如权利要求2所述的自适应数量的辨别性区域定位与表示方法,其特征在于:所述步骤2具体如下:1)首先对特征图进行尺度变换,由c*n*n变为c*n2;2)将转换后的自注意力图进行转置,再与自身进行矩阵相乘,得到长度为n2的向量;3)将该向量变形,得到大小为n*n的自注意力图。4.如权利要求3所述的自适应数量的辨别性区域定位与表示方法,其特征在于:所述步骤3具体如下:1)将特征图进行全局均值池化得到特征向量,输入分类器中得到预测结果;2)提取分类器中对...
【专利技术属性】
技术研发人员:王蕊,邹聪,李太豪,裴冠雄,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。