一种基于SSD与双摄像头的多目标识别与定位方法技术

技术编号:21894678 阅读:18 留言:0更新日期:2019-08-17 15:36
本发明专利技术提供一种基于SSD与双摄像头的多目标识别与定位方法,包括:基于张氏标定法的相机标定,利用内参使用EPnP算法和Levenberg‑Marquardt算法计算得到精确相机位姿;利用深度学习目标检测框架SSD训练多目标检测模型,可以精准识别双摄像头视线内的多目标;利用SIFT特征把左右摄像机检测出的目标匹配,根据得到的相机位姿,求解目标在现实世界中的位置,实现目标的定位。本发明专利技术在室内定位导航中利用深度学习训练模型对多目标进行检测,识别的目标可以包括但不限于行人、狗、车等;既能够实现双摄像头在远距离情况下的定位,又利用了深度学习识别目标的鲁棒性,实现双摄像头多目标快速识别和定位。

A Multi-target Recognition and Location Method Based on SSD and Dual Camera

【技术实现步骤摘要】
一种基于SSD与双摄像头的多目标识别与定位方法
本专利技术属于计算机视觉领域,尤其涉及一种基于SSD与双摄像头的多目标识别与定位方法,实现多目标以及两摄像头距离较远情况下的定位。
技术介绍
实现室内外定位导航一直是人类追求的目标,如今,室内定位导航已经得到了快速的发展,然而,室内导航定位技术的发展并没有满足人类的正常需要,定位准确性、实时性以及多目标性在很大程度上制约着相关应用的发展以及推广。随着城市化和经济社会发展,如何实现快速高效的室内定位,成为提高我国经济发展的制约因素。然而,楼宇内情况信息复杂,信号的传递、目标的定位与跟踪显得尤为困难。为了提高定位的高效性和准确性,需要加强对定位技术的发展力度。现有的定位导航技术包括超声波定位导航、红外线定位导航、激光定位导航以及视觉定位导航,其中视觉定位导航通过几个位于物体不同方位的视觉传感器对物体成像,通过视差恢复深度信息,并将其余传感器的实际位置联系起来,完成定位。其中双目立体视觉技术通过左、右摄像头提供的图像信息能够比较准确地恢复视场的三维信息,相比于超声、激光、红外等主动法测距传感器,视觉传感器具有信息丰富、探测范围广等诸多优点,目前,两摄像头距离较近的定位已经实现,然而,较远距离的双摄像头定位还没有实现,且现有的技术大都是单目标的定位,尚没有多目标的双摄像头定位方法。
技术实现思路
基于上述现有技术存在的缺陷,本专利技术提出一种基于SSD与双摄像头的多目标识别与定位方法,快速实现目标的定位。为实现本专利技术的目的,本专利技术采用如下技术方案:一种基于SSD与双摄像头的多目标识别与定位方法,包括以下步骤:S1,基于张氏标定法的相机内参标定;利用EPnP算法和Levenberg-Marquardt算法计算得到精确的相机位姿;S2,使用双摄像头对多目标进行数据采集,利用SSD训练多目标检测模型,得到目标以及目标在图像上的位置;S3,利用SIFT特征把双摄像头检测出的多目标匹配,根据得到的相机位姿,求解目标在现实世界中的位置,实现多目标的定位。进一步地,步骤1中,标定时,棋盘格标定板处于左右两个摄像头的成像范围内,左右两个摄像头间隔一定距离。进一步地,步骤S1具体为:S11:使用4个非共面的虚拟控制点来表示场景点,令表示世界坐标系下的4个虚拟控制点,表示世界坐标系下的场景点集,表示相机坐标系下的4个虚拟控制点,表示相机坐标系下的场景点集,根据场景点和对应的图像点求解控制点在相机坐标下的坐标,继而求出相机位姿;S12:将粗匹配得到的相机位姿作为迭代初始值,使用Levenberg-Marquardt算法获得精确的相机位姿。进一步地,步骤S2中:所述SSD的网络结构包括基础网络VGG16和特征提取网络,在特征提取成功的基础上处理得到不同尺度的featuremap,生成多组defaultbox进行预测分类和位置调整信息。进一步地,步骤S2中,利用SSD训练多目标检测模型具体为:S21:在预测阶段,通过SSD对每层的featuremap做卷积操作,对每个defaultbox生成一个分类标签以及位置坐标的调整;S22:对比SSD网络的defaultbox与标记好的groundtruth,按照置信度进行排序;如果满足标准,则该defaultbox为positive样本,否则即为negative样本;S23:进行网络训练,网络的总损失函数为:其中,g是地面实况标签,l是预测的框,N是默认匹配框的数量,c表示搜索框,Lconf和Lloc分表表示类别损失函数和位置损失函数,x的值为{0,1},α是定位网络的权重;位置损失函数为:其中,i属于positive;d是defaultbox的w,h;g是groundtruth的w,h;w,h分别代表框的宽和高。smoothL1的计算方法如下:类别损失函数为:类别损失函数考虑正样本和负样本;其中x为1表明两者match;当defaultbox与本张图像中任一groundtruthbox的交并比超过一个阈值(默认为0.5),便设为候选正样本,其他为候选负样本。对于候选正样本集:选择类别loss最高的m个priorbox与候选正样本集匹配,匹配不成功则删除这个正样本;对于候选负样本集:选择类别loss最高的m个priorbox与候选负样本集匹配,匹配成功的则留下来作为最后的负样本,不成功剔除出候选负样本。正样本时,选取交并比最大的且超过阈值的groundtruthbox的label作为该defaultbox的标签,之后与卷积计算出来的该defaultbox的标签进行crossentropy;负样本时,将0作为该defaultbox的标签与featuremap计算出的标签进行crossentropy;S24:训练完成后,双摄像头获取的图片输入到模型,即可得到多个被框图框住的目标。进一步地,步骤S3具体为:S31:双摄像头获取的图片输入到SSD训练好的模型中,检测出多目标,目标被框图所标记;使用SIFT算法对左右两个摄像头中的多目标进行特征提取,对提取的特征向量进行匹配;目标在图像上的坐标即为框图的中心点坐标;S32:根据摄像头坐标与世界坐标系之间的关系可得:X1=R1XW+t1X2=R2XW+t2X2=RX1+T其中XW是世界坐标,X1、X2分别是左右摄像头系坐标,R1,R2,t1,t2是左右摄像头的旋转平移矩阵,由上式可得:求得左右摄像头系的旋转矩阵R和平移矩阵T:S33:根据摄像头坐标与世界坐标系之间的关系,求得目标的世界坐标,从而实现目标的定位:假设目标P的坐标为(X,Y,Z),P的左右图像坐标分别是(u1,v1),(u2,v2),它们的投影矩阵分别是M1和M2,可得:消去Zc1和Zc2,并转换成矩阵形式,然后用最小二乘法可以求得目标的世界坐标,从而实现目标定位。相对于现有技术,本专利技术具有以下优点:本专利技术在室内定位导航中对多目标进行检测定位,利用深度神经网络训练模型对多目标进行检测,并结合图像坐标系和世界坐标系之间的关系,快速实现目标的定位。识别的目标可以包括但不限于行人、狗、车等,充分利用深度学习识别目标的鲁棒性,实现双摄像头多目标快速识别以及定位。附图说明为了更清楚地说明本专利技术实施例或现有技术的技术方案,下面将对实施例或现有技术描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是SSD网络结构图。图2是双视觉成像原理图。具体实施方式为了使本领域技术人员更好地理解本专利技术的技术方案,下面将结合具体的实施方式,对本专利技术进行详细地介绍说明。本专利技术所述双摄像头室内多目标识别与定位方法,包括以下步骤:S1,基于张氏标定法的相机内参标定;利用EPnP算法和Levenberg-Marquardt算法计算得到精确相机位姿;S2,使用双摄像头对多目标进行数据采集,利用SSD(SingleShotMultiBoxDetector)训练多目标检测模型,得到目标以及目标在图像上的位置;S3,利用SIFT特征把左右摄像头检测出的目标匹配,根据得到的相机位姿,求解目标在现实世界中的位置,实现目标的定位。本实施例中,标定时,棋盘格标定板需要本文档来自技高网...

【技术保护点】
1.一种基于SSD与双摄像头的多目标识别与定位方法,其特征在于,包括以下步骤:S1,基于张氏标定法的相机内参标定;利用EPnP算法和Levenberg‑Marquardt算法计算得到精确的相机位姿;S2,使用双摄像头对多目标进行数据采集,利用SSD训练多目标检测模型,得到目标以及目标在图像上的位置;S3,利用SIFT特征把双摄像头检测出的多目标匹配,根据得到的相机位姿,求解目标在现实世界中的位置,实现多目标的定位。

【技术特征摘要】
1.一种基于SSD与双摄像头的多目标识别与定位方法,其特征在于,包括以下步骤:S1,基于张氏标定法的相机内参标定;利用EPnP算法和Levenberg-Marquardt算法计算得到精确的相机位姿;S2,使用双摄像头对多目标进行数据采集,利用SSD训练多目标检测模型,得到目标以及目标在图像上的位置;S3,利用SIFT特征把双摄像头检测出的多目标匹配,根据得到的相机位姿,求解目标在现实世界中的位置,实现多目标的定位。2.如权利要求1所述的方法,其特征在于,步骤1中,标定时,棋盘格标定板处于左右两个摄像头的成像范围内,左右两个摄像头间隔一定距离。3.如权利要求2所述的方法,其特征在于,步骤S1具体为:S11:使用4个非共面的虚拟控制点来表示场景点,令表示世界坐标系下的4个虚拟控制点,表示世界坐标系下的场景点集,表示相机坐标系下的4个虚拟控制点,表示相机坐标系下的场景点集,根据场景点和对应的图像点求解控制点在相机坐标下的坐标,继而求出相机位姿;S12:将粗匹配得到的相机位姿作为迭代初始值,使用Levenberg-Marquardt算法获得精确的相机位姿。4.如权利要求3所述的方法,其特征在于,步骤S2中:所述SSD的网络结构包括基础网络VGG16和特征提取网络,在特征提取成功的基础上处理得到不同尺度的featuremap,生成多组defaultbox进行预测分类和位置调整信息。5.如权利要求4所述的方法,其特征在于,步骤S2中,利用SSD训练多目标检测模型具体为:S21:在预测阶段,通过SSD对每层的featuremap做卷积操作,对每个defaultbox生成一个分类标签以及位置坐标的调整;S22:对比SSD网络的defaultbox与标记好的groundtruth,按照置信度进行排序;如果满足标准,则该defaultbox为positive样本,否则即为negative样本;S23:进行网络训练,网络的总损失函数为:其中,g是地面实况标签,l是预测的框,N是默认匹配框的数量,c表示搜索框,Lconf和Lloc分表表示类别损失函数和位置损失函数,x的值为{0,1},α是定位网络的权重;位置损失函数为:...

【专利技术属性】
技术研发人员:郭春生韩鹏举应娜陈华华杨萌章建武
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1