The invention discloses a method and system for enabling CNN with full connection layer to accept indefinite shape input. The invention adds a variable step pooling layer including a new feature map with fixed size after adding coordinate channels to the feature map and a variable step pooling layer composed of multiple full connection layers and a softmax function after the convolution pooling of the existing CNN network with full connection layer. The coordinate prediction network consisting of layers determines the probability distribution vectors of the center coordinates (X, Y) of the feature blocks containing the effective pixel regions through the coordinate prediction network, and processes them differently according to the transverse size W and the longitudinal size H of the feature map, so that the network can accept the indefinite shape input finally. The invention can effectively solve the defect of not accepting indefinite shape input in CNN with full connection layer, and can make a given CNN with full connection layer accepting only fixed shape input can accept indefinite shape input, and other requirements remain unchanged, and has the advantages of good compatibility.
【技术实现步骤摘要】
可使具有全连接层的CNN接受不定形状输入的方法及系统
本专利技术属于深度学习的模型设计领域,具体而言涉及一种可使给定的只可接受固定形状输入的具有全连接层的CNN能接受不定形状输入的方法及系统。
技术介绍
在实际生活中,我们所能接触的图片是千姿百态多种多样的,有的是长条形,有的是正方形,有的分辨率高,有的分辨率很低。这些数量庞大、种类繁多的图片促进了以卷积神经网络(convolutionneuralnetwork,简称CNN)为基础的计算机视觉技术的发展。基于CNN的计算机视觉技术在图像分类、目标检测和许多其他识别任务,甚至是非识别任务中展现出了巨大的潜能,因此对CNN中的基本算子的发展就显得更为必要和有意义。当前许多的CNN的结构都由两部分组成,卷积部分和其后的全连接部分。卷积部分最基本的操作是卷积和池化。卷积通过一个参数可学习的卷积核采用窗口滑动方式对图片计算加权和,得到一个变换后的特征图。特征图是一个三维矩阵,除了横向和纵向两个维度的尺寸外,还有第三个通道方向的维度,这个维度上是相互独立的特征矩阵,这些矩阵在该维度上堆叠成完整的特征图。池化是通过一个参数固定的 ...
【技术保护点】
1.一种可使具有全连接层的CNN接受不定形状输入的方法,其特征在于实施步骤包括:1)输入指定范围内的任意尺寸的图片;2)将图片通过卷积池化处理得到特征图;3)针对步骤2)得到的特征图的横向尺寸W与纵向尺寸H,如果特征图的横向尺寸W与纵向尺寸H不相等则跳转执行下一步;否则,跳转执行步骤10);4)对特征图添加坐标通道后进行变步池化处理输出固定尺寸的新特征图;5)根据新特征图,通过多个全连接层和一个softmax函数层构成的坐标预测网络确定包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量,其中坐标预测网络的全连接层根据卷积池化处理得到特征图的最大的横向尺寸WMAX ...
【技术特征摘要】
1.一种可使具有全连接层的CNN接受不定形状输入的方法,其特征在于实施步骤包括:1)输入指定范围内的任意尺寸的图片;2)将图片通过卷积池化处理得到特征图;3)针对步骤2)得到的特征图的横向尺寸W与纵向尺寸H,如果特征图的横向尺寸W与纵向尺寸H不相等则跳转执行下一步;否则,跳转执行步骤10);4)对特征图添加坐标通道后进行变步池化处理输出固定尺寸的新特征图;5)根据新特征图,通过多个全连接层和一个softmax函数层构成的坐标预测网络确定包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量,其中坐标预测网络的全连接层根据卷积池化处理得到特征图的最大的横向尺寸WMAX、最大的纵向尺寸HMAX和变步池化层输出的新特征图拉直后的长度进行设计;6)根据包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量获取K对坐标,根据K对坐标分别剪切出正方形特征图块并通过变步池化变成尺寸相同的K个特征图有效信息区域,将K个特征图有效信息区域分别通过全连接层、softmax函数层变换得到K个概率分布向量,并通过损失函数层输出K个损失值,找出最小的损失值作为最小预测损失值lossmin及其对应的坐标(XMIN、YMIN);8)将坐标(XMIN、YMIN)作为标签和包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量计算两个坐标的交叉熵并求和得到交叉熵损失值lossXY;9)获取交叉熵损失值lossXY、最小预测损失值lossmin之和作为总损失值loss1,且以总损失值loss1对总的损失函数求导,开启反向传播反向逐层计算出各层参数的梯度值,然后根据各层参数梯度更新这些参数,完成本轮迭代,然后退出或者进入下一轮迭代过程;10)将特征图整体直接经过变步池化处理得到一个特征图有效信息区域,将该特征图有效信息区域通过全连接层、softmax函数层缩放为一个概率分布向量,并通过预设的损失函数计算输出一个损失值loss2;以该损失值loss2对总的损失函数求导,开启反向传播反向逐层计算出各层参数的梯度值,然后根据各层参数梯度更新这些参数,完成本轮迭代,然后退出或者进入下一轮迭代过程。2.根据权利要求1所述的可使具有全连接层的CNN接受不定形状输入的方法,其特征在于,步骤4)中对特征图添加坐标通道的具体步骤包括:在其通道方向添加特征图元素在横纵方向上的X、Y两个坐标通道信息,X、Y坐标均以特征图左上角为原点,从0开始取整数值,特征图当前所有通道中相同位置的元素坐标值相同,X、Y两个坐标通道依次堆叠到现有通道的后面。3.根据权利要求1所述的可使具有全连接层的CNN接受不定形状输入的方法,其特征在于,步骤4)中进行变步池化处理输出固定尺寸的新特征图的详细步骤包括:4.1)设定对输入的特征图横向和纵向固定分区的数量,在通道方向不做处理,保留所有通道;4.2)设定对每个分区进行池化的池化核的大小,核的尺寸可以大于、小于和等于分区的尺寸;4.3)设定池化方式,可选的方式包括最大池化、平均池化和最小池化;4.4)根据固定数量的分区,对每个分区按照设定池化方式进行池化;初始时池化核左上角与分区的左上角对齐,按先横向后纵向的顺序,逐行地对每个分区执行一次池化操作:a)当核的尺寸小于分区的尺寸时,分区内未被池化核覆盖的区域则不作处理而被丢弃;b)当核的尺寸等于分区时,特征图的每个元素刚好均被池化核覆盖一遍;c)当核的尺寸大于分区的尺寸时,核超出的部分将覆盖到其他分区,则池化范围扩大为池化核覆盖的范围;如果池化核覆盖区域超出下边界,则将池化核的下边界自动被调整为特征图的下边界;如果池化核覆盖区域超出右边界,则将池化核的右边界自动被调整为特征图的右边界;4.5)每个分区池化出的元素根据原来的分区位置进行拼接组装,得到一个尺寸为设定的横纵方向上分区的数量的特征图。4.根据权利要求1所述的可使具有全连接层的CNN接受不定形状输入的方法,其特征在于,步骤5)特征图的最大的横向尺寸WMAX、最大的纵向尺寸HMAX的获取步骤包括:针对图片数据集分别迭代输入任意形状的图片,将图片通过卷积池化处理得到特征图,并记录特征图...
【专利技术属性】
技术研发人员:卢宇彤,瞿毅力,陈志广,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。