A learning method is provided for obtaining boundary frames corresponding to objects in training images by using CNN from multi-scale feature maps. The learning method includes the following steps: (a) allowing N-way RPN to obtain at least two specific feature maps, and allowing N-way RPN to apply specific operations to at least two specific feature maps; (b) allowing N-way pooling layer to generate multiple pooling feature maps by applying pooling operations to each region of at least two specific feature maps; and (c) (i) allowing FC layer to obtain pixel data about boundary boxes. The information and (ii) allow the loss layer to obtain the first comparison data, thereby adjusting at least one parameter of CNN during the reverse propagation process by using the first comparison data.
【技术实现步骤摘要】
使用多尺度特征图调整CNN参数的学习方法和学习装置及使用其的测试方法和测试装置
本专利技术涉及一种用于通过使用多尺度(multi-scale)特征图调整CNN的参数的学习方法和学习装置以及使用该学习方法和学习装置的测试方法和测试装置,更具体地,涉及包括以下步骤的学习方法:(a)如果作为对训练图像应用卷积运算的结果生成了多尺度特征图,则允许区域建议网络(RPN)获取多尺度特征图中的至少两个特定特征图作为输入,然后允许RPN对至少两个特定特征图应用特定运算,以生成预定数量的建议框;(b)允许池化层通过对至少两个特定特征图上的与预定数量的建议框的各个区域相对应的各个区域应用池化运算来生成多个池化特征图;以及(c)执行以下过程:(i)允许FC层通过对多个池化特征图应用回归运算来获取关于边界框的像素数据的信息,以及(ii)允许损失层通过比较关于训练图像中的边界框的像素数据的信息与关于GT图像中的边界框的像素数据的信息来获取第一比较数据,从而在反向传播过程期间通过使用第一比较数据来调整CNN的至少一个参数;还涉及使用该学习方法的学习装置、测试方法和测试装置。
技术介绍
在机器学习中,卷积神经网络(CNN或ConvNet)是一类已经成功地应用于视觉表象的分析的深度前馈人工神经网络。图1是示意性地示出了根据现有技术的常规CNN的学习过程的图。具体地,图1示出了将通过学习装置预测或估计的边界框与地面真值(GT)边界框进行比较的过程。参照图1,将描述常规的学习装置通过将预测边界框与GT边界框进行比较获取损失的的过程。这里,损失代表预测边界框和GT边界框之间的差异,并且在图1中 ...
【技术保护点】
1.一种学习方法,用于通过使用CNN从多尺度特征图获取与训练图像中的对象相对应的边界框,所述学习方法包括以下步骤:(a)如果作为对所述训练图像应用卷积运算的结果生成了所述多尺度特征图,则学习装置允许N路区域建议网络获取所述多尺度特征图中的至少两个特定特征图作为输入,N路区域建议网络即N路RPN,然后允许所述N路RPN对所述至少两个特定特征图应用特定运算以生成预定数量的建议框;(b)所述学习装置允许N路池化层通过对所述至少两个特定特征图上的与所述预定数量的建议框的各个区域相对应的各个区域应用池化运算来生成多个池化特征图;以及(c)所述学习装置执行以下过程:(i)允许FC层通过对所述多个池化特征图应用回归运算来获取关于所述边界框的像素数据的信息,以及(ii)允许损失层通过比较关于所述训练图像中的所述边界框的像素数据的信息与关于GT图像中的GT边界框的像素数据的信息来获取第一比较数据,从而在反向传播过程期间通过使用所述第一比较数据来调整所述CNN的至少一个参数。
【技术特征摘要】
2017.10.16 US 15/784,2721.一种学习方法,用于通过使用CNN从多尺度特征图获取与训练图像中的对象相对应的边界框,所述学习方法包括以下步骤:(a)如果作为对所述训练图像应用卷积运算的结果生成了所述多尺度特征图,则学习装置允许N路区域建议网络获取所述多尺度特征图中的至少两个特定特征图作为输入,N路区域建议网络即N路RPN,然后允许所述N路RPN对所述至少两个特定特征图应用特定运算以生成预定数量的建议框;(b)所述学习装置允许N路池化层通过对所述至少两个特定特征图上的与所述预定数量的建议框的各个区域相对应的各个区域应用池化运算来生成多个池化特征图;以及(c)所述学习装置执行以下过程:(i)允许FC层通过对所述多个池化特征图应用回归运算来获取关于所述边界框的像素数据的信息,以及(ii)允许损失层通过比较关于所述训练图像中的所述边界框的像素数据的信息与关于GT图像中的GT边界框的像素数据的信息来获取第一比较数据,从而在反向传播过程期间通过使用所述第一比较数据来调整所述CNN的至少一个参数。2.根据权利要求1所述的学习方法,其中,在步骤(c)中,所述学习装置执行以下过程:(i)允许所述N路池化层通过连接所述多个池化特征图来获取特征向量,(ii)允许所述FC层通过对所述特征向量应用回归运算来获取关于所述边界框的像素数据的信息,以及(iii)允许所述损失层通过比较关于所述边界框的像素数据的信息与关于所述GT边界框的像素数据的信息来获取所述第一比较数据,从而在反向传播过程期间通过使用所述第一比较数据来调整所述CNN的至少一个参数。3.根据权利要求1所述的学习方法,其中,在步骤(a)中,当获取从所述多尺度特征图中的所述至少两个特定特征图生成的全部锚框中的所述预定数量的建议框时,所述学习装置通过参考所述GT边界框获得作为分别指示所述全部锚框中的每一个是否包括至少一个对象的概率值的分数,并且允许所述N路RPN通过参考所述分数来获取所述预定数量的建议框。4.根据权利要求3所述的学习方法,其中,所述分数中的每一个是通过参考(i)与所述GT边界框的面积和所述全部锚框中的每一个的面积的交集相对应的面积和(ii)与所述GT边界框的面积和所述全部锚框中的每一个的面积的并集相对应的面积之比确定的值。5.根据权利要求3所述的学习方法,其中,所述N路RPN包括RPN特定卷积滤波器和NMS单元,并且其中,所述N路RPN允许所述多尺度特征图中的所述至少两个特定特征图被供应到与所述至少两个特定特征图中的每一个相对应的所述RPN特定卷积滤波器中的每一个,以通过所述RPN特定卷积滤波器的预定运算获取关于所述全部锚框的所述分数的信息或者关于其坐标的信息。6.根据权利要求3所述的学习方法,其中,所述N路RPN包括RPN特定卷积滤波器和NMS单元,并且其中,所述N路RPN允许所述NMS单元选择分数为所述全部锚框的所述分数中的前K个分数的所述预定数量的建议框。7.根据权利要求1所述的学习方法,其中,在多个卷积层至少包括第k层和第(k+1)层并且所述第(k+1)层是设置在所述第k层之后的层的条件下,包含在从对第(k+1)池化特征图执行运算的所述FC层获取的第(k+1)边界框的区域中的像素数据的数量大于或等于包含在从对第k池化特征图应用相同运算的所述FC层获取的第k边界框的区域中的像素数据的数量,并且其中,k是大于或等于1且小于或等于n的整数,n是大于或等于2的整数。8.根据权利要求7所述的学习方法,其中,(i)如果与所述训练图像中的对象相对应的GT图像中的对象的区域中的像素数据的数量小于第一阈值,则从设置在第一预设卷积滤波器之前的卷积滤波器中的至少一部分获取作为所述N路RPN的输入的所述至少两个特定特征图;并且(ii)如果与所述训练图像中的对象相对应的所述GT图像中的对象的区域中的像素数据的数量大于或等于所述第一阈值,则从设置在所述第一预设卷积滤波器之后的卷积滤波器中的至少一部分或从所述第一预设卷积滤波器获取作为所述N路RPN的输入的所述至少两个特定特征图。9.根据权利要求7所述的学习方法,其中,如果与所述训练图像中的对象相对应的所述GT图像中的对象的区域中的像素数据的数量小于第二阈值,则所述卷积运算一直执行到所述多个卷积滤波器中的第二预设卷积滤波器之前的卷积滤波器,从而获取所述多尺度特征图。10.根据权利要求1所述的学习方法,其中,在步骤(c)中,所述学习装置执行以下过程:(i)允许所述FC层通过分类运算获取关于所述训练图像中的对象的类型的信息;以及(ii)允许所述损失层通过比较关于所述训练图像中的对象的类型的信息和关于所述GT图像中的对象的类型的信息来获取第二比较数据,从而在反向传播过程期间通过使用所述第二比较数据来调整所述CNN的至少一个参数。11.一种测试方法,用于通过使用测试装置中的CNN从用于测试的多尺度特征图获取与测试图像中的用于测试的对象相对应的用于测试的边界框,所述测试方法包括以下步骤:(a)在已经执行了如下过程的条件下,如果作为对所述测试图像应用卷积运算的结果生成了所述用于测试的多尺度特征图,则所述测试装置允许N路区域建议网络获取所述用于测试的多尺度特征图中的用于测试的至少两个特定特征图作为输入,N路区域建议网络即N路RPN,然后允许所述N路RPN对所述用于测试的至少两个特定特征图应用特定运算以生成用于测试的预定数量的建议框,所述过程包括:(1)如果作为通过多个卷积层对训练图像应用卷积运算的结果生成了用于训练的多尺度特征图,则学习装置允许所述N路RPN获取所述用于训练的多尺度特征图中的用于训练的至少两个特定特征图作为输入,然后允许所述N路RPN对所述用于训练的至少两个特定特征图应用特定运算以生成用于训练的预定数量的建议框,(2)所述学习装置允许N路池化层通过对所述用于训练的至少两个特定特征图上的与所述预定数量的建议框的各个区域相对应的各个区域应用池化运算来生成用于训练的多个池化特征图,以及(3)所述学习装置允许FC层通过对所述用于训练的多个池化特征图应用回归运算来获取关于用于训练的边界框的像素数据的信息,并且所述学习装置允许损失层通过比较关于所述用于训练的边界框的像素数据的信息与关于GT图像中的边界框的像素数据的信息来获取比较数据,从而在反向传播过程期间通过使用所述比较数据来调整所述CNN的至少一个参数;(b)所述测试装置允许所述N路池化层通过对所述用于测试的至少两个特定特征图上的与所述用于测试的预定数量的建议框相对应的各个区域应用池化运算来生成用于测试的多个池化特征图;以及(c)所述测试装置允许所述FC层通过对所述用于测试的多个池化特征图应用回归运算来获取关于所述用于测试的边界框的像素数据的信息。12.根据权利要求11所述的方法,其中,在步骤(c)中,所述测试装置执行以下过程:(i)允许所述N路池化层通过连接所述用于测试的多个池化特征图来获取用于测试的特征向量,以及(ii)允许所述FC层通过对所述用于测试的特征向量应用回归运算来获取关于所述用于测试的边界框的像素数据的信息。13.根据权利要求11所述的方法,其中,在步骤(a)中,当获取从所述用于测试的至少两个特定特征图生成的用于测试的全部锚框中的所述用于测试的预定数量的建议框时,所述测试装置通过参考所述GT边界框获得作为分别指示所述用于测试的全部锚框中的每一个是否包括至少一个对象的概率值的分数,并且允许所述N路RPN通过参考所述分数来获取所述用于测试的预定数量的建议框。14.根据权利要求13所述的方法,其中,所述N路RPN包括RPN特定卷积滤波器和NMS单元,并且其中,所述N路RPN允许所述用于测试的至少两个特定特征图被供应到与所述用于测试的至少两个特定特征图中的每一个相对应的所述RPN特定卷积滤波器中的每一个,以通过所述RPN特定卷积滤波器的预定运算获取关于所述用于测试的全部锚框的所述分数的信息或者关于其坐标的信息。15.根据权利要求13所述的方法,其中,所述N路RPN包括RPN特定卷积滤波器和NMS单元,并且其中,所述N路RPN允许所述NMS单元选择分数为所述用于测试的全部锚框的所述分数中的前K个分数的所述用于测试的预定数量的建...
【专利技术属性】
技术研发人员:金镕重,南云铉,夫硕焄,成明哲,吕东勋,柳宇宙,张泰雄,郑景中,诸泓模,赵浩辰,
申请(专利权)人:斯特拉德视觉公司,
类型:发明
国别省市:韩国,KR
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。