使用多尺度特征图调整CNN参数的学习方法和学习装置及使用其的测试方法和测试装置制造方法及图纸

技术编号:20944968 阅读:25 留言:0更新日期:2019-04-24 02:35
提供了一种用于通过使用CNN从多尺度特征图获取与训练图像中的对象相对应的边界框的学习方法。所述学习方法包括以下步骤:(a)允许N路RPN获取至少两个特定特征图,并且允许N路RPN对至少两个特定特征图应用特定运算;(b)允许N路池化层通过对至少两个特定特征图上的各个区域应用池化运算来生成多个池化特征图;以及(c)(i)允许FC层获取关于边界框的像素数据的信息,以及(ii)允许损失层获取第一比较数据,从而在反向传播过程期间通过使用第一比较数据调整CNN的至少一个参数。

Learning method and learning device for adjusting CNN parameters by using multi-scale feature map and testing method and testing device using it

A learning method is provided for obtaining boundary frames corresponding to objects in training images by using CNN from multi-scale feature maps. The learning method includes the following steps: (a) allowing N-way RPN to obtain at least two specific feature maps, and allowing N-way RPN to apply specific operations to at least two specific feature maps; (b) allowing N-way pooling layer to generate multiple pooling feature maps by applying pooling operations to each region of at least two specific feature maps; and (c) (i) allowing FC layer to obtain pixel data about boundary boxes. The information and (ii) allow the loss layer to obtain the first comparison data, thereby adjusting at least one parameter of CNN during the reverse propagation process by using the first comparison data.

【技术实现步骤摘要】
使用多尺度特征图调整CNN参数的学习方法和学习装置及使用其的测试方法和测试装置
本专利技术涉及一种用于通过使用多尺度(multi-scale)特征图调整CNN的参数的学习方法和学习装置以及使用该学习方法和学习装置的测试方法和测试装置,更具体地,涉及包括以下步骤的学习方法:(a)如果作为对训练图像应用卷积运算的结果生成了多尺度特征图,则允许区域建议网络(RPN)获取多尺度特征图中的至少两个特定特征图作为输入,然后允许RPN对至少两个特定特征图应用特定运算,以生成预定数量的建议框;(b)允许池化层通过对至少两个特定特征图上的与预定数量的建议框的各个区域相对应的各个区域应用池化运算来生成多个池化特征图;以及(c)执行以下过程:(i)允许FC层通过对多个池化特征图应用回归运算来获取关于边界框的像素数据的信息,以及(ii)允许损失层通过比较关于训练图像中的边界框的像素数据的信息与关于GT图像中的边界框的像素数据的信息来获取第一比较数据,从而在反向传播过程期间通过使用第一比较数据来调整CNN的至少一个参数;还涉及使用该学习方法的学习装置、测试方法和测试装置。
技术介绍
在机器学习中,卷积神经网络(CNN或ConvNet)是一类已经成功地应用于视觉表象的分析的深度前馈人工神经网络。图1是示意性地示出了根据现有技术的常规CNN的学习过程的图。具体地,图1示出了将通过学习装置预测或估计的边界框与地面真值(GT)边界框进行比较的过程。参照图1,将描述常规的学习装置通过将预测边界框与GT边界框进行比较获取损失的的过程。这里,损失代表预测边界框和GT边界框之间的差异,并且在图1中被表示为dxc,dyc,dw,dh。首先,如图1所示,学习装置可以获取RGB图像作为输入以馈送到卷积块中包含的多个卷积层,即卷积滤波器。在通道的数量随着RGB图像通过多个卷积层而增加的同时,RGB图像的大小(例如,宽度和高度)在宽度和高度方面变得越来越小。如图1所示,学习装置允许区域建议网络(RPN)从卷积块输出的最终特征图生成建议框,并允许池化层(例如ROI池化层)通过对与建议框对应的特征图上的区域的像素数据应用最大池化运算(或平均池化运算)将与建议框对应的特征图上的区域的大小调整到预定大小,例如2×2的大小。结果,获取了池化特征图。在本文中,最大池化运算是这样的运算,通过该运算,从用于池化运算的区域划分的每个子区域中的最大值被选择作为各个子区域的各个代表值,如图1的右下角所示。接着,可以允许将池化特征图馈送到全连接(FC)层。此外,学习装置可以允许FC层识别RGB图像中的对象的类型或类别。作为参考,池化特征图也可以被称为特征向量。此外,RGB图像中的预测边界框可以通过FC层获取,并且损失也可以通过比较预测边界框和地面真值(GT)边界框来获取。在本文中,GT边界框表示精确围绕RGB图像中的对象的边界框,通常可以由人准备。最后,图1中的学习装置可以在反向传播过程期间调整FC层、RPN或多个卷积层中包含的参数中的至少一个,以减小损失。在调整参数之后,测试装置可以随后获取围绕测试图像中的对象的边界框。然而,包括具有经过调整的参数的CNN的测试装置可能没有获取精确围绕测试图像中的对象的边界框。由于通常使用作为对测试图像多次应用卷积运算的结果生成的最小尺寸的特征图,所以用最小尺寸的特征图来表示对象是不够的。因此,本专利技术的申请人提出一种用于从多个多尺度特征图获取具有高精度的边界框的学习方法和学习装置,并且本文还公开了使用该学习方法的测试方法和测试装置。
技术实现思路
本专利技术的一个目的是解决上述问题。本专利技术的另一个目的是允许池化层通过对具有不同尺度的多个特征图中的至少两个特定特征图上的与由N路(N-way)RPN生成的预定数量的建议框的各个区域相对应的各个区域应用池化运算来生成多个池化特征图。本专利技术的又另一个目的是允许FC层通过对基于多个池化特征图生成的连接的特征向量应用回归运算来更精确地获取边界框,并且允许损失层通过比较获取的边界框和GT图像中的边界框来获取损失,以便在反向传播过程期间调整参数。本专利技术的再另一个目的是通过使用经过调整的参数在后续获得具有高精度的围绕测试图像中的对象的边界框。根据本专利技术的一个方面,提供了一种学习方法,用于通过使用CNN从多尺度特征图获取与训练图像中的对象相对应的边界框,所述学习方法包括以下步骤:(a)如果作为对所述训练图像应用卷积运算的结果生成了所述多尺度特征图,则学习装置允许N路区域建议网络(RPN)获取所述多尺度特征图中的至少两个特定特征图作为输入,然后允许所述N路RPN对所述至少两个特定特征图应用特定运算以生成预定数量的建议框;(b)所述学习装置允许N路池化层通过对所述至少两个特定特征图上的与所述预定数量的建议框的各个区域相对应的各个区域应用池化运算来生成多个池化特征图;以及(c)所述学习装置执行以下过程:(i)允许FC层通过对所述多个池化特征图应用回归运算来获取关于所述边界框的像素数据的信息,以及(ii)允许损失层通过比较关于所述训练图像中的所述边界框的像素数据的信息与关于GT图像中的GT边界框的像素数据的信息来获取第一比较数据,从而在反向传播过程期间通过使用所述第一比较数据来调整所述CNN的至少一个参数。根据本专利技术的另一个方面,提供了一种测试方法,用于通过使用测试装置中的CNN从用于测试的多尺度特征图获取与测试图像中的用于测试的对象相对应的用于测试的边界框,所述测试方法包括以下步骤:(a)在已经执行了如下过程的条件下,如果作为对所述测试图像应用卷积运算的结果生成了所述用于测试的多尺度特征图,则所述测试装置允许N路区域建议网络(RPN)获取所述用于测试的多尺度特征图中的用于测试的至少两个特定特征图作为输入,然后允许所述N路RPN对所述用于测试的至少两个特定特征图应用特定运算以生成用于测试的预定数量的建议框,所述过程包括:(1)如果作为通过多个卷积层对训练图像应用卷积运算的结果生成了用于训练的多尺度特征图,则学习装置允许N路RPN获取所述用于训练的多尺度特征图中的用于训练的至少两个特定特征图作为输入,然后允许所述N路RPN对所述用于训练的至少两个特定特征图应用特定运算以生成用于训练的预定数量的建议框,(2)所述学习装置允许N路池化层通过对所述用于训练的至少两个特定特征图上的与所述预定数量的建议框的各个区域相对应的各个区域应用池化运算来生成用于训练的多个池化特征图,以及(3)所述学习装置允许FC层通过对所述用于训练的多个池化特征图应用回归运算来获取关于用于训练的边界框的像素数据的信息,并且所述学习装置允许损失层通过比较关于所述用于训练的边界框的像素数据的信息与关于GT图像中的边界框的像素数据的信息来获取比较数据,从而在反向传播过程期间通过使用所述比较数据来调整所述CNN的至少一个参数;(b)所述测试装置允许所述N路池化层通过对所述用于测试的至少两个特定特征图上的与所述用于测试的预定数量的建议框相对应的各个区域应用池化运算来生成用于测试的多个池化特征图;以及(c)所述测试装置允许所述FC层通过对所述用于测试的多个池化特征图应用回归运算来获取关于所述用于测试的边界框的像素数据的信息。根据本专利技术的又另一个方面,提供了一种学习装本文档来自技高网
...

【技术保护点】
1.一种学习方法,用于通过使用CNN从多尺度特征图获取与训练图像中的对象相对应的边界框,所述学习方法包括以下步骤:(a)如果作为对所述训练图像应用卷积运算的结果生成了所述多尺度特征图,则学习装置允许N路区域建议网络获取所述多尺度特征图中的至少两个特定特征图作为输入,N路区域建议网络即N路RPN,然后允许所述N路RPN对所述至少两个特定特征图应用特定运算以生成预定数量的建议框;(b)所述学习装置允许N路池化层通过对所述至少两个特定特征图上的与所述预定数量的建议框的各个区域相对应的各个区域应用池化运算来生成多个池化特征图;以及(c)所述学习装置执行以下过程:(i)允许FC层通过对所述多个池化特征图应用回归运算来获取关于所述边界框的像素数据的信息,以及(ii)允许损失层通过比较关于所述训练图像中的所述边界框的像素数据的信息与关于GT图像中的GT边界框的像素数据的信息来获取第一比较数据,从而在反向传播过程期间通过使用所述第一比较数据来调整所述CNN的至少一个参数。

【技术特征摘要】
2017.10.16 US 15/784,2721.一种学习方法,用于通过使用CNN从多尺度特征图获取与训练图像中的对象相对应的边界框,所述学习方法包括以下步骤:(a)如果作为对所述训练图像应用卷积运算的结果生成了所述多尺度特征图,则学习装置允许N路区域建议网络获取所述多尺度特征图中的至少两个特定特征图作为输入,N路区域建议网络即N路RPN,然后允许所述N路RPN对所述至少两个特定特征图应用特定运算以生成预定数量的建议框;(b)所述学习装置允许N路池化层通过对所述至少两个特定特征图上的与所述预定数量的建议框的各个区域相对应的各个区域应用池化运算来生成多个池化特征图;以及(c)所述学习装置执行以下过程:(i)允许FC层通过对所述多个池化特征图应用回归运算来获取关于所述边界框的像素数据的信息,以及(ii)允许损失层通过比较关于所述训练图像中的所述边界框的像素数据的信息与关于GT图像中的GT边界框的像素数据的信息来获取第一比较数据,从而在反向传播过程期间通过使用所述第一比较数据来调整所述CNN的至少一个参数。2.根据权利要求1所述的学习方法,其中,在步骤(c)中,所述学习装置执行以下过程:(i)允许所述N路池化层通过连接所述多个池化特征图来获取特征向量,(ii)允许所述FC层通过对所述特征向量应用回归运算来获取关于所述边界框的像素数据的信息,以及(iii)允许所述损失层通过比较关于所述边界框的像素数据的信息与关于所述GT边界框的像素数据的信息来获取所述第一比较数据,从而在反向传播过程期间通过使用所述第一比较数据来调整所述CNN的至少一个参数。3.根据权利要求1所述的学习方法,其中,在步骤(a)中,当获取从所述多尺度特征图中的所述至少两个特定特征图生成的全部锚框中的所述预定数量的建议框时,所述学习装置通过参考所述GT边界框获得作为分别指示所述全部锚框中的每一个是否包括至少一个对象的概率值的分数,并且允许所述N路RPN通过参考所述分数来获取所述预定数量的建议框。4.根据权利要求3所述的学习方法,其中,所述分数中的每一个是通过参考(i)与所述GT边界框的面积和所述全部锚框中的每一个的面积的交集相对应的面积和(ii)与所述GT边界框的面积和所述全部锚框中的每一个的面积的并集相对应的面积之比确定的值。5.根据权利要求3所述的学习方法,其中,所述N路RPN包括RPN特定卷积滤波器和NMS单元,并且其中,所述N路RPN允许所述多尺度特征图中的所述至少两个特定特征图被供应到与所述至少两个特定特征图中的每一个相对应的所述RPN特定卷积滤波器中的每一个,以通过所述RPN特定卷积滤波器的预定运算获取关于所述全部锚框的所述分数的信息或者关于其坐标的信息。6.根据权利要求3所述的学习方法,其中,所述N路RPN包括RPN特定卷积滤波器和NMS单元,并且其中,所述N路RPN允许所述NMS单元选择分数为所述全部锚框的所述分数中的前K个分数的所述预定数量的建议框。7.根据权利要求1所述的学习方法,其中,在多个卷积层至少包括第k层和第(k+1)层并且所述第(k+1)层是设置在所述第k层之后的层的条件下,包含在从对第(k+1)池化特征图执行运算的所述FC层获取的第(k+1)边界框的区域中的像素数据的数量大于或等于包含在从对第k池化特征图应用相同运算的所述FC层获取的第k边界框的区域中的像素数据的数量,并且其中,k是大于或等于1且小于或等于n的整数,n是大于或等于2的整数。8.根据权利要求7所述的学习方法,其中,(i)如果与所述训练图像中的对象相对应的GT图像中的对象的区域中的像素数据的数量小于第一阈值,则从设置在第一预设卷积滤波器之前的卷积滤波器中的至少一部分获取作为所述N路RPN的输入的所述至少两个特定特征图;并且(ii)如果与所述训练图像中的对象相对应的所述GT图像中的对象的区域中的像素数据的数量大于或等于所述第一阈值,则从设置在所述第一预设卷积滤波器之后的卷积滤波器中的至少一部分或从所述第一预设卷积滤波器获取作为所述N路RPN的输入的所述至少两个特定特征图。9.根据权利要求7所述的学习方法,其中,如果与所述训练图像中的对象相对应的所述GT图像中的对象的区域中的像素数据的数量小于第二阈值,则所述卷积运算一直执行到所述多个卷积滤波器中的第二预设卷积滤波器之前的卷积滤波器,从而获取所述多尺度特征图。10.根据权利要求1所述的学习方法,其中,在步骤(c)中,所述学习装置执行以下过程:(i)允许所述FC层通过分类运算获取关于所述训练图像中的对象的类型的信息;以及(ii)允许所述损失层通过比较关于所述训练图像中的对象的类型的信息和关于所述GT图像中的对象的类型的信息来获取第二比较数据,从而在反向传播过程期间通过使用所述第二比较数据来调整所述CNN的至少一个参数。11.一种测试方法,用于通过使用测试装置中的CNN从用于测试的多尺度特征图获取与测试图像中的用于测试的对象相对应的用于测试的边界框,所述测试方法包括以下步骤:(a)在已经执行了如下过程的条件下,如果作为对所述测试图像应用卷积运算的结果生成了所述用于测试的多尺度特征图,则所述测试装置允许N路区域建议网络获取所述用于测试的多尺度特征图中的用于测试的至少两个特定特征图作为输入,N路区域建议网络即N路RPN,然后允许所述N路RPN对所述用于测试的至少两个特定特征图应用特定运算以生成用于测试的预定数量的建议框,所述过程包括:(1)如果作为通过多个卷积层对训练图像应用卷积运算的结果生成了用于训练的多尺度特征图,则学习装置允许所述N路RPN获取所述用于训练的多尺度特征图中的用于训练的至少两个特定特征图作为输入,然后允许所述N路RPN对所述用于训练的至少两个特定特征图应用特定运算以生成用于训练的预定数量的建议框,(2)所述学习装置允许N路池化层通过对所述用于训练的至少两个特定特征图上的与所述预定数量的建议框的各个区域相对应的各个区域应用池化运算来生成用于训练的多个池化特征图,以及(3)所述学习装置允许FC层通过对所述用于训练的多个池化特征图应用回归运算来获取关于用于训练的边界框的像素数据的信息,并且所述学习装置允许损失层通过比较关于所述用于训练的边界框的像素数据的信息与关于GT图像中的边界框的像素数据的信息来获取比较数据,从而在反向传播过程期间通过使用所述比较数据来调整所述CNN的至少一个参数;(b)所述测试装置允许所述N路池化层通过对所述用于测试的至少两个特定特征图上的与所述用于测试的预定数量的建议框相对应的各个区域应用池化运算来生成用于测试的多个池化特征图;以及(c)所述测试装置允许所述FC层通过对所述用于测试的多个池化特征图应用回归运算来获取关于所述用于测试的边界框的像素数据的信息。12.根据权利要求11所述的方法,其中,在步骤(c)中,所述测试装置执行以下过程:(i)允许所述N路池化层通过连接所述用于测试的多个池化特征图来获取用于测试的特征向量,以及(ii)允许所述FC层通过对所述用于测试的特征向量应用回归运算来获取关于所述用于测试的边界框的像素数据的信息。13.根据权利要求11所述的方法,其中,在步骤(a)中,当获取从所述用于测试的至少两个特定特征图生成的用于测试的全部锚框中的所述用于测试的预定数量的建议框时,所述测试装置通过参考所述GT边界框获得作为分别指示所述用于测试的全部锚框中的每一个是否包括至少一个对象的概率值的分数,并且允许所述N路RPN通过参考所述分数来获取所述用于测试的预定数量的建议框。14.根据权利要求13所述的方法,其中,所述N路RPN包括RPN特定卷积滤波器和NMS单元,并且其中,所述N路RPN允许所述用于测试的至少两个特定特征图被供应到与所述用于测试的至少两个特定特征图中的每一个相对应的所述RPN特定卷积滤波器中的每一个,以通过所述RPN特定卷积滤波器的预定运算获取关于所述用于测试的全部锚框的所述分数的信息或者关于其坐标的信息。15.根据权利要求13所述的方法,其中,所述N路RPN包括RPN特定卷积滤波器和NMS单元,并且其中,所述N路RPN允许所述NMS单元选择分数为所述用于测试的全部锚框的所述分数中的前K个分数的所述用于测试的预定数量的建...

【专利技术属性】
技术研发人员:金镕重南云铉夫硕焄成明哲吕东勋柳宇宙张泰雄郑景中诸泓模赵浩辰
申请(专利权)人:斯特拉德视觉公司
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1