【技术实现步骤摘要】
一种基于区域池化和特征融合的深度学习图像多标记分类方法
本专利技术属于计算机图像处理
,涉及到一种基于区域池化和特征融合的深度学习图像多标记分类方法。
技术介绍
图像多标记分类是图像处理的基础性任务,目的是识别出来图像中包含哪几类物体。图像分类和图像多标记分类是两个任务,图像分类是图像多分类任务的一种特殊情况,即图像中只含有一种物体。今年来,由于深度学习的快速发展,图像分类任务也取得了长足进步,基于卷积神经网络的图像分类更是达到了与人类相当的水平。然后图像的多标记分类由于要识别出图像中的多个物体,其任务更加复杂,效果还有待提高。然而在实际的应用中,多标记图像分类有很多的应用场景。目前图像多标记任务在研究和应用上存在以下的问题:一方面,图像多标记分类由于要识别出多个种类的物体,因此场景往往相对复杂,物体与物体之间有时候还会有重叠,增加了识别的难度。另一方面,多标记分类在一定程度上要求标记与标记之间有一定的联系性,使用深度学习模型会捕捉到标记与标记之间的关联,模型在训练时会趋于收敛然而实际场景中,标记与标记之间可能会存在较小的关联性。还有一方面,图像分类任务需要 ...
【技术保护点】
1.一种基于区域池化和特征融合的深度学习图像多标记分类方法,其特征在于,包含以下步骤:步骤1):对待处理图像进行候选区域提取;利用候选框算法从图片中提取出若干不同尺寸的候选区域P∈N×W
【技术特征摘要】
1.一种基于区域池化和特征融合的深度学习图像多标记分类方法,其特征在于,包含以下步骤:步骤1):对待处理图像进行候选区域提取;利用候选框算法从图片中提取出若干不同尺寸的候选区域P∈N×Wl×Hl(l=1,2....N),供后续步骤处理;其中N是候选区域的数量,Wl和Hl分别是候选区域的长度和宽度,每个候选区域的尺度不同;步骤2):根据步骤1)得到的候选区域P∈N×Wl×Hl(l=1,2....N),进入预训练好的卷积神经网络的卷积部分,生成不同尺度的多通道感兴趣特征图F∈N×C×wl×hl(l=1,2....N);其中N是感兴趣特征图数量,C为感兴趣特征图通道数,wl和hl分别是单个特征通道的长度和宽度;可采用预训练卷积神经网络,对候选区域进行特征提取,生成具有高度抽象特征的感兴趣特征图;步骤3):根据步骤2)得到的感兴趣特征图F∈N×C×wl×hl(l=1,2....N)进行区域池化,生成尺度相同的感兴趣特征图;wl×hl表示每个感兴趣特征图的长度和宽度,将其所有的感兴趣特征图的尺寸归一化为w′×h′,归一化后的感兴趣特征图为:F∈N×C×w′×h′;步骤4):根据步骤3)得到的若干归一化的感兴趣特征图F∈N×C×w′×h′进行特征融合,生成一个具有高度特征抽象的特征向量,V∈T;其中T表示物体的种类数;步骤5):根据步骤4)得到的特征向量,进入分类器分类,预测出标记向量p∈T;预测向量p的每一个位置pi表示含有物体i的概率;设定阈值θ,pi若超过阈值θ即含有物体i。2.根据权利要求1所述的一种基于区域池化和特征融合的深度学习图像多标记分类方法,其特征在于,所述步骤1)提到的候选区域提取算法,包括但不限于SelectiveSearch,EdgeBoxes等候选区域提取算法。3.根据权利要求1所述的一种基于区域池化和特征融合的深度学习图像多标记分类方法,其特征在于,所述步骤2)提到的通过卷积神经网络提取感兴趣特征图的方法,包括但不限于Alexnet,VGG,Res...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。