【技术实现步骤摘要】
基于深度学习的物体识别和全景漫游方法
[0001]本专利技术涉及计算机视觉技术和全景漫游领域。
技术介绍
[0002]随着近几年深度学习算法的高速发展,计算机视觉得到了非常快速的发展。物体识别是计算机视觉领域中的一项基础研究,它的任务是识别出图像中有什么物体,并报告出这个物体在图像表示的场景中的位置和方向。现如今工业上的人机交互应用,如AR、机器人等,首要的问题是正确地认识所处的环境,而物体识别就是这些应用理解环境的核心关键。
[0003]传统的物体识别方法通常是通过提取图像中的一些鲁棒性特征,例如Haar、SIFT、HOG等,使用DPM模型,用滑动窗口的方式来预测具有较高置信度的边界框,最后送入如SVM等类型的分类器中进行分类。这种方法的缺点是它采用单一的模板去定义物体,如果只专注于人脸检测的话,效果是不错的,但是对于多元的物体检测,尤其是背景较为复杂的情况下,精度急剧下降。
[0004]深度学习算法让使得物体识别的技术得到了高速发展。传统的方法需要人为地根据场景和目标去设计合适的图像特征。例如对物体的外观进行建模,就需要基于梯度特征来描述轮廓,同时还需要对梯度信息进行筛选、量化,得到相对稳定的表达。而所有的这些工作,都需要有专门的领域知识去设计和调优。然而特征学习正是深度学习所擅长的部分,它把相关场景和目标的特征学习,转变为网络结构的定义和参数的学习,从而免去领域专家去设计特征这一环节。这样就极大简化了为目标设计合适特征的过程,只需要把原始图片和标注提供给网络,定义好网络结构,就可以自动学习出多层 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的物体识别和全景漫游方法,其特征是,包括步骤步骤1、应用场景数据可通过人工采集或者使用开源的数据集;步骤2、构建物体识别特征提取网络,利用步骤1中所采集的数据集或者所用开源的数据集来训练物体识别网络;首先对所采集的数据集都缩放到416*416的大小,然后进行人工的标注,标记图片中所含物体的四个边界框的坐标信息和所属类别,同时记录数据集的总类别数为classes;然后把数据集输入到DarkNet-53模型中;对DarkNet-53进行改造:将网络末尾的全连接层去掉,同时建立三个尺度的输出,最大的尺度是原始图像的32倍下采样,中等尺度是原始图像的16倍下采样,小尺度是原始图像的8倍下采样;三个尺度是不独立的,为了融合高低层网络的特征,将大尺度特征上采样后与中尺度进行张量拼接(concat),接着对中尺度特征进行上采样后与小尺度特征进行张量拼接;将三个尺度的输出最后送入检测层进行识别;步骤3、构建最终检测层:步骤3.1,要先对边界框进行预测;边界框预测算法借鉴了Faster R-CNN中锚框机制;锚框的大小与比例是人为选定的,采用的锚框的大小和比例是根据数据集的边界框数据进行维度聚类得到的;对步骤2中标定过的数据集进行K-mean聚类来得到最接近真实边界框的锚框;对于边界框,采用如式(2.1)所示的距离度量,其中box为锚框,centroid为真实边界框,d为锚框和真实边界框的距离度量,IOU为交并比;d(box,centroid)=1-IOU(box,centroid)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2.1)将要预测的宽和高分别与锚框的宽和高绑定,经过多次训练后,每个边界框就学习到了如何选择合适形状的边界框;上述所提到的绑定关系为:了如何选择合适形状的边界框;上述所提到的绑定关系为:其中a
w
和a
h
分别为锚框的宽和高,t
w
和t
h
为边框回归直接预测出来的宽与高,b
w
和b
h
为经过公式转换后所预测的宽和高,也就是网络最后输出的宽和高;从公式(2.2)和(2.3)中可以看到,损失函数经过求导后还保留有t
w
以及t
h
这两个参数;接下来就是最后输出的边界框的中心位置(b
x
,b
y
)的计算公式,如公式(2.4)和(2.5)所示:b
x
=σ(t
x
)+c
x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2.4)b
y
=σ(t
y
)+c
y
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2.5)其中c
x
和c
y
是网格左上角点相对整张图片的坐标,σ(t)是sigmoid激活函数;边框回归预测的t
x
和t
y
是相对网格而言的,是相对坐标,为了得到绝对坐标,使用式(2.4)和(2.5)来转化;sigmoid激活函数是为了把t
x
和t
y
映射到(0,1)区间,让模型更快收敛;得到了边框回归所输出的四个值b
x
,b
y
,b
w
,b
h
;在训练中,将真实边界框的四个参数用公式(2.2),(2.3),(2.4),(2.5)的逆运算转化为与t
x
,t
y
,t
w
,t
h
相对应的g
x
,g
y
,g
w
,g
h
,然后进行误差计算,最后计算经过...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。