当前位置: 首页 > 专利查询>同济大学专利>正文

基于深度学习的物体识别和全景漫游方法技术

技术编号:27104327 阅读:13 留言:0更新日期:2021-01-25 18:52
一种基于深度学习的物体识别和全景漫游方法,涉及计算机视觉技术和全景漫游领域。本发明专利技术考虑解决现有技术中所存在技术方面的问题,尤其是信息采集与全景漫游构建的相互分离问题。采用高效的物体检测模型,同时结合可用于多平台部署插件来构建具有丰富物体信息的全景漫游模型。采用端到端的设计方案,只要输入所拍摄的全景图,就可以直接得到最终模型,省去了采集、标定信息的繁琐步骤。由于目前智能手机自带全景拍摄功能,本发明专利技术可以让大众参与全景漫游模型的构建。结合地图和定位,人们可以分享自己所构建的全景模型,打造一个共享的三维地图模型。的三维地图模型。的三维地图模型。

【技术实现步骤摘要】
基于深度学习的物体识别和全景漫游方法


[0001]本专利技术涉及计算机视觉技术和全景漫游领域。

技术介绍

[0002]随着近几年深度学习算法的高速发展,计算机视觉得到了非常快速的发展。物体识别是计算机视觉领域中的一项基础研究,它的任务是识别出图像中有什么物体,并报告出这个物体在图像表示的场景中的位置和方向。现如今工业上的人机交互应用,如AR、机器人等,首要的问题是正确地认识所处的环境,而物体识别就是这些应用理解环境的核心关键。
[0003]传统的物体识别方法通常是通过提取图像中的一些鲁棒性特征,例如Haar、SIFT、HOG等,使用DPM模型,用滑动窗口的方式来预测具有较高置信度的边界框,最后送入如SVM等类型的分类器中进行分类。这种方法的缺点是它采用单一的模板去定义物体,如果只专注于人脸检测的话,效果是不错的,但是对于多元的物体检测,尤其是背景较为复杂的情况下,精度急剧下降。
[0004]深度学习算法让使得物体识别的技术得到了高速发展。传统的方法需要人为地根据场景和目标去设计合适的图像特征。例如对物体的外观进行建模,就需要基于梯度特征来描述轮廓,同时还需要对梯度信息进行筛选、量化,得到相对稳定的表达。而所有的这些工作,都需要有专门的领域知识去设计和调优。然而特征学习正是深度学习所擅长的部分,它把相关场景和目标的特征学习,转变为网络结构的定义和参数的学习,从而免去领域专家去设计特征这一环节。这样就极大简化了为目标设计合适特征的过程,只需要把原始图片和标注提供给网络,定义好网络结构,就可以自动学习出多层次的特征表达和分类器。
[0005]目前物体检测分为两个类别,一类是两阶段检测器,将物体识别和物体定位分为两个步骤,分别完成,这一类的典型代表是R-CNN,Fast R-CNN,Faster-RCNN系列。其识别错误率低,漏识别率也较低,但速度较慢,不能满足实时检测场景。另一类为单阶段检测器,典型代表是YOLO系列,SSD等。他们识别速度很快,可以达到实时性要求,虽然早期的单阶段检测器准确度不够,尤其对于小目标的识别效果差,但是随着算法的进步,其准确率也接近了两阶段检测器的水平。而且由于单阶段检测器的耗费的资源低,在一些不那么追求高精度的应用场景下,使用单阶段检测器可以节省许多经费。
[0006]同时全景技术在近几年高速发展,尤其全景漫游由于其高度可视化的优点,在各行各业都能看到全景的应用,尤其是在名胜古迹的展示上面,让人足不出户就能感受到身临其境的氛围。像基于Web的三维图形全景漫游技术由于其方便性和可交互性,迅速得到人们的认可。但是早期的三维图形技术,比如Flash等技术有着许多缺点,例如占用资源多、性能低且无法跨平台等问题。随着互联网三维技术的快速发展,诞生了WebGL这一技术。WebGL不依赖任何浏览器插件,它使用JavaScript脚本来绘制图像,利用底层硬件进行加速,并且拥有可以进行全平台部署的接口。因此解决了传统技术存在的占用资源多、性能低且无法跨平台等问题。WebGL有丰富的第三方开源框架,例如three.js、CubicVR等,这些框架对底
层的结构进行了很好的封装,通过简单地调用接口就能快速实现三维场景渲染。
[0007]“一种多场景漫游生成方法及装置”(专利申请号:201610520963.3)采用Krpano全景展示插件,结合线上3D加装平台来生成全景展示图,使用预设的平台生成家装全景图中的房间数据来精确定位不同场景中进行连接的热点。这个方法结合了平台数据来进行多全景漫游,虽然较手工标定数据有一定优势,但是仍然存在许多不足。比如所用数据取决于平台数据库,一旦在数据库外就得人为标定,延展性明显不足。
[0008]“一种基于全景影像的界桩信息管理方法”(专利申请号:201710372837.2)采用PTGui软件以及Krpano全景插件来构建全景图,采用photoshop软件将界桩信息处理为透明然后添加到全景图中,可在界桩全景图中表达界桩的属性信息。这个方法将Krpano插件中的动态热点系统与ps软件得到界桩信息相结合,可以动态展示界桩周围的地物信息,具有一定的应用性。但是其采用的全景构建方式需要PTGui软件来合成平面全景图,这对于非拍摄专业人士来说实用性很差。再者使用Photoshop来标定信息,这种人工的方式效率很低。
[0009]再如“一种企业三维数字地图管理系统”(专利申请号:201020554517.2)是将人工收集的地理位置相关的信息放入数据库,与地图相结合,构建三维地图,通过集合数据库中的各种信息,构造出多用途的三维数字地图。这个方法采集各种信息构建全景漫游图,且与地图相结合,可视化程度较高。但是该方案是将信息采集与全景漫游构建相分离,需要耗费大量人力物力来采集数据并标定在全景图上,显然这种方式是的效率较低。

技术实现思路

[0010]专利技术目的
[0011]本专利技术考虑解决现有技术中所存在技术方面的问题,尤其是信息采集与全景漫游构建的相互分离问题。采用高效的物体检测模型,同时结合可用于多平台部署插件来构建具有丰富物体信息的全景漫游模型。采用端到端的设计方案,只要输入所拍摄的全景图,就可以直接得到最终模型,省去了采集、标定信息的繁琐步骤。由于目前智能手机自带全景拍摄功能,本专利技术可以让大众参与全景漫游模型的构建。结合地图和定位,人们可以分享自己所构建的全景模型,打造一个共享的三维地图模型。
[0012]技术方案
[0013]一种基于深度学习的物体识别和全景漫游方法,其特征是,包括如下步骤:
[0014]步骤1、应用场景数据采集
[0015]采集数据集的过程可以通过人工来采集也直接使用开源的数据集。
[0016]步骤2、构建物体识别特征提取网络(图3所示)
[0017]利用步骤1中所采集的数据集或者所用开源的数据集来训练物体识别网络。
[0018]首先对所采集的数据集都缩放到416*416的大小,然后进行人工的标注,标记图片中所含物体的四个边界框的坐标信息和所属类别,同时记录数据集的总类别数为classes。
[0019]然后把数据集输入到DarkNet-53模型中,为了能在各个尺度都有着良好的性能,这里对DarkNet-53进行改造:将网络末尾的全连接层去掉,同时建立三个尺度的输出(如图2所示),最大的尺度是原始图像的32倍下采样,中等尺度是原始图像的16倍下采样,小尺度是原始图像的8倍下采样。三个尺度是不独立的,为了融合高低层网络的特征,将大尺度特征上采样后与中尺度进行张量拼接(concat),接着对中尺度特征进行上采样后与小尺度特
征进行张量拼接。将三个尺度的输出最后送入检测层进行识别。
[0020]步骤3、构建最终检测层
[0021]首先对边界框进行预测。这里使用的边界框预测算法借鉴了Faster R-CNN中锚框机制。锚框的思想就是反向思维,从顶层先假定每个网格负责的锚框是由原图中某些区域变换而来的,通过增加每个网格的锚框数量就可以解决传统算法中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的物体识别和全景漫游方法,其特征是,包括步骤步骤1、应用场景数据可通过人工采集或者使用开源的数据集;步骤2、构建物体识别特征提取网络,利用步骤1中所采集的数据集或者所用开源的数据集来训练物体识别网络;首先对所采集的数据集都缩放到416*416的大小,然后进行人工的标注,标记图片中所含物体的四个边界框的坐标信息和所属类别,同时记录数据集的总类别数为classes;然后把数据集输入到DarkNet-53模型中;对DarkNet-53进行改造:将网络末尾的全连接层去掉,同时建立三个尺度的输出,最大的尺度是原始图像的32倍下采样,中等尺度是原始图像的16倍下采样,小尺度是原始图像的8倍下采样;三个尺度是不独立的,为了融合高低层网络的特征,将大尺度特征上采样后与中尺度进行张量拼接(concat),接着对中尺度特征进行上采样后与小尺度特征进行张量拼接;将三个尺度的输出最后送入检测层进行识别;步骤3、构建最终检测层:步骤3.1,要先对边界框进行预测;边界框预测算法借鉴了Faster R-CNN中锚框机制;锚框的大小与比例是人为选定的,采用的锚框的大小和比例是根据数据集的边界框数据进行维度聚类得到的;对步骤2中标定过的数据集进行K-mean聚类来得到最接近真实边界框的锚框;对于边界框,采用如式(2.1)所示的距离度量,其中box为锚框,centroid为真实边界框,d为锚框和真实边界框的距离度量,IOU为交并比;d(box,centroid)=1-IOU(box,centroid)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2.1)将要预测的宽和高分别与锚框的宽和高绑定,经过多次训练后,每个边界框就学习到了如何选择合适形状的边界框;上述所提到的绑定关系为:了如何选择合适形状的边界框;上述所提到的绑定关系为:其中a
w
和a
h
分别为锚框的宽和高,t
w
和t
h
为边框回归直接预测出来的宽与高,b
w
和b
h
为经过公式转换后所预测的宽和高,也就是网络最后输出的宽和高;从公式(2.2)和(2.3)中可以看到,损失函数经过求导后还保留有t
w
以及t
h
这两个参数;接下来就是最后输出的边界框的中心位置(b
x
,b
y
)的计算公式,如公式(2.4)和(2.5)所示:b
x
=σ(t
x
)+c
x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2.4)b
y
=σ(t
y
)+c
y
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2.5)其中c
x
和c
y
是网格左上角点相对整张图片的坐标,σ(t)是sigmoid激活函数;边框回归预测的t
x
和t
y
是相对网格而言的,是相对坐标,为了得到绝对坐标,使用式(2.4)和(2.5)来转化;sigmoid激活函数是为了把t
x
和t
y
映射到(0,1)区间,让模型更快收敛;得到了边框回归所输出的四个值b
x
,b
y
,b
w
,b
h
;在训练中,将真实边界框的四个参数用公式(2.2),(2.3),(2.4),(2.5)的逆运算转化为与t
x
,t
y
,t
w
,t
h
相对应的g
x
,g
y
,g
w
,g
h
,然后进行误差计算,最后计算经过...

【专利技术属性】
技术研发人员:刘儿兀陈铭毅
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1