一种基于相机投影模型的物品检测网络方法技术

技术编号:23446504 阅读:46 留言:0更新日期:2020-02-28 20:30
本发明专利技术公开一种基于相机投影模型的物品检测网络方法,包括:输入图像,设计并计算输入图像的锚框:主干网络:将图像输入到主干网络,经过多个特征层后输出;设计Razor模块;先对Ground truth进行编码,再进行预测;负样本筛选;训练遴选样本,设计损失函数,进行训练,得到训练模型;模型的运用;当训练完毕,用得到的函数参数,进行模型推导,对得到的每一个锚框的估计,得到该锚框下存在目标的概率

An object detection network method based on camera projection model

【技术实现步骤摘要】
一种基于相机投影模型的物品检测网络方法
本专利技术涉及网络物品检测领域,更具体地,涉及一种基于相机投影模型的物品检测网络方法及系统。
技术介绍
卷积神经网络(CNN),作为图像识别与检测非常流行的载体,已经获得了非常大的成功,基于这个技术,已经衍生出了非常多的应用网络,VGG,ResNet,DenseNet,Yolo等OneStage网络。但这些用于识别的端到端(EndtoEnd)网络有非常多的实际问题:第一,这些网络需要极大的运算量,导致无法实际的落地。不能落地包括两个层面,一个是巨大的运算量导致更高的GPU的使用,从而提高了部署成本,第二个层面,是巨大的运算量使得计算难以达到实时,为了达成实时运算,往往需要部署更多的计算设备,在提高成本的同时,造成资源的浪费。第二,直接使用这些经典网络的简化网络模型,并不能够很好的达到网络的性能。第三,一些性能还不错的网络,并没有针对相机的投影模型进行网络设计,而是更偏向于基于图像本身的网络设计,这样的设计更通用,但并不高效。
技术实现思路
为了克服现有技术的不足,本专利技术提出一种基于本文档来自技高网...

【技术保护点】
1.一种基于相机投影模型的物品检测网络方法,其特征在于,包括:/nS1、输入图像,设计并计算输入图像的锚框;/nS2、主干网络:将图像输入到主干网络,经过多个特征层后输出;/nS3、Razor模块:为了配合步骤S1所设计的锚框,网络设计上,设计Razor模块;设到输入层的网络尺寸表示为

【技术特征摘要】
1.一种基于相机投影模型的物品检测网络方法,其特征在于,包括:
S1、输入图像,设计并计算输入图像的锚框;
S2、主干网络:将图像输入到主干网络,经过多个特征层后输出;
S3、Razor模块:为了配合步骤S1所设计的锚框,网络设计上,设计Razor模块;设到输入层的网络尺寸表示为,其中n表示输入图像的数量,h表示主干网络特征层的高度,表示主干网络特征层的宽度,表示主干网络特征层的通道数;网络通过两次transpose和一次reshape变换输出为;则锚框和输出的网络结构达成一致,再次经过几个自定义的常规卷积操作,便能对Groundtruth的结果进行预测;
S4、预测:先对Groundtruth进行编码,再进行预测;
S5、样本选择,指负样本筛选;依赖于两个部分:一个是GroundTruth是否被指派到锚框,另一个是有指派到目标的锚框,是否有达到足够的宽度维度上的交并比IOU;两者有一个不满足需求,便被认为是负样本;
S6、训练遴选样本:为了提高训练质量,设计了样本遴选机制;在训练时,算法推导出的预测中,选择与GroundTruth判断差距最大的有限选择为训练目标;
S7、设计损失函数,进行训练,得到训练模型;
S8、模型的运用;当训练完毕,用得到的函数参数,进行模型推导,对得到的每一个锚框的估计,得到该锚框下存在目标的概率,当概率达到设定阈值,则将推理出来的offset结果,通过反函数,求出在实际图像中的真实位置。


2.根据权利要求1所述的方法,其特征在于,所述步骤S1计算锚框的方式为:锚框用表示,表示锚框中心点在图像中横纵坐标的位置,表示在这个位置所延伸的宽度和高度;
反函数公式;是指每一个输出层的特征图的宽度分量的分辨率;是指输出层的每一个像素的编号,;是指从输入图像到该输出层的分辨率,输出层每一个像素所代表的原图的像素的尺寸;,表示框总是从整个图像顶部到底部的范围。


3.根据权利要求2所述的方法,其特征在于,所述通过两次transpose和一次reshape变换具体方式为:首先通过第一次transpose,将矩阵转换为,然后将矩阵进行reshape,转化为,最后经过transpose,将矩阵转化为。


4.根据权利要求3所述的方法,其特征在于,所述步骤S4先对Groundtruth进行编码再进行预测的具体过程为:
对GroundTruth进行编码的方式如下:如同步骤S1的锚框设计,将每一个Groundtruth指派到相对应的输出层作为学习目标,对它的位置,先转化为,以指派的输出层的每一个锚框的偏移量,及宽高的比例,这使得每一个合适的GroundTruth,对应到一个与之对应的锚框,进行相对坐标的估计,使网络在训练时能实现收敛。


5.根据权利...

【专利技术属性】
技术研发人员:肖刚王逸飞
申请(专利权)人:江西高创保安服务技术有限公司
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1