一种图像特征金字塔的自适应加权融合方法技术

技术编号:25186751 阅读:77 留言:0更新日期:2020-08-07 21:14
本发明专利技术公开了一种图像特征金字塔的自适应加权融合方法。本发明专利技术步骤:1.首先在计算机视觉有名的超大规模数据库ImageNet上预训练神经网络模型;2.将二次训练用的训练集数据输入预训练神经网络模型;3.针对训练集中的目标检测任务,重复步骤4‑8继续训练神经网络模型,直至网络能够准确的检测训练集中的图片;4.使用步骤(1)预训练后的神经网络模型提取图片的特征图;5.把获得的特征图按分辨率建立特征图金字塔模型;6.计算每一层特征图在整个金字塔模型中的重要程度;7.根据特征图在金字塔模型中的重要程度,对每一层特征图分配不同的权重;8.对特征图按照所分配的权重进行融合,然后进行检测。本发明专利技术提高目标定位和分类的准确性。

【技术实现步骤摘要】
一种图像特征金字塔的自适应加权融合方法
本专利技术设计特征融合方法,具体来讲是一种图像特征金字塔的自适应加权融合方法,属于计算机视觉图像处理

技术介绍
目标检测作为计算机视觉的基本问题之一,是许多其他计算机视觉任务的基础,如实例分割、图像字幕、对象跟踪等。从应用程序的角度来看,目标检测可以被分为两个研究主题“通用目标检测”和“特定目标检测”,前者旨在探索在统一的框架下检测不同类型物体的方法,以模拟人类的视觉和认知;后者是指特定应用场景下的检测,如行人检测、人脸检测、文本检测等。近年来,随着深度学习技术的快速发展,为目标检测注入了新的血液,取得了显著的突破,将其推向了一个前所未有的研究热点。目前,目标检测已广泛应用于自主驾驶、机器人视觉、视频监控等领域。
技术实现思路
本专利技术主要是为了处理同一图像中多种尺度的目标而提出来的一种图像特征金字塔的自适应加权融合方法。为实现以上的技术目的,本专利技术将采用以下的技术方案:步骤(1)首先在计算机视觉有名的超大规模数据库ImageNet上预训练神经网络模型,数据库ImageNet包含超过1400万张图像,涵盖20000个类别;步骤(2)将二次训练用的训练集数据输入预训练神经网络模型;步骤(3)针对训练集中的目标检测任务,重复步骤(4)到(8)继续训练神经网络模型,直至网络能够准确的检测训练集中的图片;步骤(4)使用步骤(1)预训练后的神经网络模型提取图片的特征图;步骤(5)把获得的特征图按分辨率建立特征图金字塔模型;步骤(6)计算每一层特征图在整个金字塔模型中的重要程度;步骤(7)根据特征图在金字塔模型中的重要程度,对每一层特征图分配不同的权重;步骤(8)对特征图按照所分配的权重进行融合,然后进行检测。进一步的,所述的神经网络模型采用的是深度残差网络ResnetNet-101,具体实现如下:2-1.深度残差网络ResnetNet-101是通过给非线性的卷积层增加直连边的方式来提高信息的传播效率。深度残差网络ResnetNet-101包含4组残差块,共101层卷积层。2-2.深度残差网络ResnetNet-101中卷积计算使用卷积公式:其中kernel_size表示使用的卷积核大小,pad表示边缘填充位数,stride表示卷积核每次移动位数。深度残差网络ResnetNet-101中使用kernel_size=3,pad=1,stride=2,根据公式可知conv层不会改变图片大小;2-3.每个卷积层后的激活(relu)层负责将前一个卷积层的输出映射到后一个卷积层的输入;2-4.将每组残差块的最后一个卷积层的输出通过激活层映射到两个池化层,池化层最终输出特征图;其中,池化层中kernel_size=2,stride=2,池化层会让输出图片是输入图片的1/2;2-5.经过步骤2-2到2-4的特征提取后,图片大小会随着卷积次数的增多而变小,且特征图的数目会随着使用卷积核的数目变化,将所得的不同分别率的特征图组建初步特征图金字塔。例如在本方法中输入一张大小为1000*600的图片,一次卷积后提取到的特征图为500*300*128,表示特征图的大小为500*300,数量为128…以此类推我们可以得到250*150*256、125*75*512、64*37*1024、32*18*2048五张不同尺寸(分辨率)的特征图;进一步的,所述的步骤(4)使用步骤(1)预训练后的神经网络模型提取图片的特征图;其特征在于具体实现如下:由深度残差网络ResnetNet-101创建初步特征图金字塔中,自下而上的使用该组特征图C2、C3、C4和C5;特征图C2、C3、C4和C5重新构建特征图金字塔Ⅰ;特征图C2、C3、C4和C5分别对应于深度残差网络ResnetNet-101中conv2、conv3、conv4和conv5层输出的特征图;相对于输入图像,特征图C2、C3、C4和C5通过因子4、8、16和32下采样。由于内存占用量大,金字塔中不包含conv1层的特征图。在特征图中,C2是最高分辨率但语义最少的特征图,而C5是最低分辨率但语义最多的特征图。进一步的,所述的步骤(5)把获得的特征图按分辨率建立特征图金字塔模型,其特征在于具体实现如下:对特征图金字塔Ⅰ自上而下通过上采样的路径,生成一组特征图P5、P4、P3和P2;特征图P5、P4、P3和P2重新构建特征图金字塔Ⅱ;使用每层2个上采样的因子,自上而下路径的该组特征图P5、P4、P3和P2与自下而上路径的特征图C2、C3、C4和C5相同。进一步的,所述的步骤(6)(7)具体实现如下:第i层融合特征图的元素由下式计算:其中,Ci表示特征图金字塔Ⅰ中第i层的特征图;Pi+1表示特征图金字塔Ⅱ中第i+1层的特征图;和分别表示第i层特征图在特征图金字塔Ⅰ和特征图金字塔Ⅱ中的权重;i的取值为2,3,4;权重和由特征图C2、C3、C4和C5通过以下Softmax函数确定:其中,Softmax函数的目的是将矩阵的乘积映射到(0,1)的值;n取值为2,3,4,5;进一步的,所述的步骤(8)对特征图按照所分配的权重进行融合,然后进行检测,具体实现如下:针对第i层特征图根据特征图金字塔Ⅰ和特征图金字塔Ⅱ中的相应权重进行融合;将融合后的特征图输入步骤(1)预训练好的神经网络模型进行检测和定位;使用神经网络模型中的分类器检测获得融合后的特征图被识别为某一特定类别的概率,然后对于属于某一类别的候选框,用神经网络模型中的定位器进一步获得目标的坐标位置。本专利技术由于采取以上的技术方案,具有如下优点:本专利技术利用自适应权重融合具有不同分辨率的多个特征图,以提高目标定位和分类的准确性。在所提出的称为自适应权重融合的方法中,从训练数据集中学习特征图融合的权重。该机制可以看作是对象规模和语义级别上的关注机制,这种方法对多尺度的目标检测有很好的鲁棒性和自适应能力。附图说明图1是本专利技术的整体实施流程图;图2是本专利技术使用的卷积神经网络结构图;图3是本专利技术使用的权重计算方法图;图4是一张待检测的图片;图5是一张使用本专利技术检测后的图片;图6为本专利技术使用的卷积神经网络结构图生成另一金字塔的示意图。具体实施方式附图非限制性地公开了本专利技术所涉及优选实例的流程示意图;以下将结合附图详细地说明本专利技术的技术方案。如图1-6所示,一种图像特征金字塔的自适应加权融合方法,按照如下步骤进行:步骤(1)首先在计算机视觉有名的超大规模数据库ImageNet上预训练神经网络模型,数据库ImageNet包含超过1400万张图像,涵盖20000个类别;步骤(2)将二次训练用的训练集数据输入预训练神经网络模型;步骤(3)针对训练集中的目标检测任务,重复步骤(本文档来自技高网...

【技术保护点】
1.一种图像特征金字塔的自适应加权融合方法,其特征在于包括如下步骤:/n步骤(1)首先在计算机视觉有名的超大规模数据库ImageNet上预训练神经网络模型,数据库ImageNet包含超过1400万张图像,涵盖20000个类别;/n步骤(2)将二次训练用的训练集数据输入预训练神经网络模型;/n步骤(3)针对训练集中的目标检测任务,重复步骤(4)到(8)继续训练神经网络模型,直至网络能够准确的检测训练集中的图片;/n步骤(4)使用步骤(1)预训练后的神经网络模型提取图片的特征图;/n步骤(5)把获得的特征图按分辨率建立特征图金字塔模型;/n步骤(6)计算每一层特征图在整个金字塔模型中的重要程度;/n步骤(7)根据特征图在金字塔模型中的重要程度,对每一层特征图分配不同的权重;/n步骤(8)对特征图按照所分配的权重进行融合,然后进行检测。/n

【技术特征摘要】
1.一种图像特征金字塔的自适应加权融合方法,其特征在于包括如下步骤:
步骤(1)首先在计算机视觉有名的超大规模数据库ImageNet上预训练神经网络模型,数据库ImageNet包含超过1400万张图像,涵盖20000个类别;
步骤(2)将二次训练用的训练集数据输入预训练神经网络模型;
步骤(3)针对训练集中的目标检测任务,重复步骤(4)到(8)继续训练神经网络模型,直至网络能够准确的检测训练集中的图片;
步骤(4)使用步骤(1)预训练后的神经网络模型提取图片的特征图;
步骤(5)把获得的特征图按分辨率建立特征图金字塔模型;
步骤(6)计算每一层特征图在整个金字塔模型中的重要程度;
步骤(7)根据特征图在金字塔模型中的重要程度,对每一层特征图分配不同的权重;
步骤(8)对特征图按照所分配的权重进行融合,然后进行检测。


2.根据权利要求1所述的图像特征金字塔的自适应加权融合方法,其特征在于所述的神经网络模型采用的是深度残差网络ResnetNet-101,具体实现如下:
2-1.深度残差网络ResnetNet-101是通过给非线性的卷积层增加直连边的方式来提高信息的传播效率;深度残差网络ResnetNet-101包含4组残差块,共101层卷积层;
2-2.深度残差网络ResnetNet-101中卷积计算使用卷积公式:



其中kernel_size表示使用的卷积核大小,pad表示边缘填充位数,stride表示卷积核每次移动位数;深度残差网络ResnetNet-101中使用kernel_size=3,pad=1,stride=2,根据公式可知conv层不会改变图片大小;
2-3.每个卷积层后的激活层负责将前一个卷积层的输出映射到后一个卷积层的输入;
2-4.将每组残差块的最后一个卷积层的输出通过激活层映射到两个池化层,池化层最终输出特征图;其中,池化层中kernel_size=2,stride=2,池化层会让输出图片是输入图片的1/2;
2-5.经过步骤2-2到2-4的特征提取后,图片大小会随着卷积次数的增多而变小,且特征图的数目会随着使用卷积核的数目变化,将所得的不同分别率的特征图组建初步特征图金字塔。


3.根据权利要求2所述的图像...

【专利技术属性】
技术研发人员:姜明何利飞张旻李鹏飞汤景凡
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1