本发明专利技术提出了一种基于立体视觉的行人检测与测距方法,具体实现步骤如下:(1)获取立体视觉图像;(2)构建卷积神经网络;(3)计算立体视觉左图像的预测值;(4)判断预测值是否大于0.5;(5)对预测值做去归一化处理;(6)计算匹配代价值;(7)选择最优视差值;(8)计算行人离摄像头的距离;(9)输出行人离摄像头的距离。本发明专利技术采用卷积神经网络对立体视觉图像做行人检测,并且通过立体视觉图像的视差计算获得行人到双目摄像头的距离,能够有效提高图像行人检测的运算速度,对行人相互靠近的图像具有更好的检测准确率,可以获得图像中行人到双目摄像头的距离。
【技术实现步骤摘要】
基于立体视觉的行人检测与测距方法
本专利技术属于图像处理
,更进一步涉及计算机视觉
中的一种基于立体视觉的行人检测与测距的方法。本专利技术可以对双目摄像头拍摄的立体视觉图像做行人检测,并且通过立体视觉图像的视差计算获得行人到双目摄像头的距离。
技术介绍
行人检测与测距使用双目摄像头拍摄得到立体视觉图像,然后对立体视觉图像做行人检测,并且通过立体视觉图像的视差计算获得行人到双目摄像头的距离。浙江大学在其申请的专利文献“一种基于视觉的快速行人检测方法”(专利申请号201310132965.1,公开号103177248B)中公开了一种行人检测方法。该方法首先通过安装在车辆上的摄像头获取车辆前进道路上的视频图像,然后采用类哈尔特征作为行人描述特征,构建多尺度级联分类器作为行人检测器,采用串联级联策略实现快速的实时行人与非行人的分类识别,最后用非极大值抑制算法确定与行人特征最匹配的滑动窗口,确定行人的位置。该方法存在的不足之处是,该方法使用滑动窗口对图像的每个位置做特征提取和分类识别,滑动窗口需要计算一幅图像中的大量窗口,因此算法复杂度高,运算耗时大。Redmon,Joseph,etal.在其发表的论文"Youonlylookonce:Unified,real-timeobjectdetection."(ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2016.)中提出了一种行人检测的方法。该方法使用一个单一的卷积神经网络Fast-YOLO,将图像均匀分割成7×7的正方形区域,实现对图像中行人目标的检测。该方法存在的不足之处是,该方法将图像分割成7×7的正方形区域,每个正方形区域只能检测一个行人目标,因此对行人相互靠近的图像的检测准确率较低。
技术实现思路
本专利技术的目的在于克服上述现有技术中的不足,提出一种基于立体视觉的行人检测与测距的方法,能够有效提高图像行人检测的运算速度,对行人相互靠近的图像具有更好的检测准确率,可以获得图像中行人到双目摄像头的距离。为实现上述目的,本专利技术具体实现步骤包括如下:(1)获取立体视觉图像:使用双目摄像头拍摄待检测与测距的包含行人通过的监控场景,得到该场景的立体视觉左图像和立体视觉右图像;(2)构建卷积神经网络:构建一个包含8个卷积层、5个抽取层和1个全连接层的卷积神经网络;(3)计算立体视觉左图像的预测值:(3a)将立体视觉左图像输入到卷积神经网络中,输出尺寸为980×1个像素的特征向量;(3b)将立体视觉左图像均匀划分为14×14个正方形区域;(3c)将卷积神经网络输出的980×1个像素的特征向量中的所有的向量元素,均匀分配给立体视觉左图像的每个正方形区域,每个正方形区域得到5个向量元素;将每个正方形区域的5个向量元素,依次作为该区域的行人存在概率预测值、行人横坐标预测值、行人纵坐标预测值、行人宽度预测值、行人高度预测值;(4)判断立体视觉左图像的每个正方形区域的行人存在概率预测值是否大于0.5,若是,则认为该区域存在行人,执行步骤(5);否则,认为该区域不存在行人,执行步骤(6);(5)对预测值做去归一化处理:将存在行人的正方形区域的行人横坐标预测值、行人纵坐标预测值、行人宽度预测值、行人高度预测值分别做去归一化处理,得到用于确定行人位置的横坐标值和纵坐标值、行人的宽度值和行人的高度值;(6)计算匹配代价值:(6a)将立体视觉左图像中每个像素点的视差值的取值范围设置为0到255个灰度值;(6b)按照下式,计算立体视觉左图像中每个像素点分别取0到255灰度值范围内的每个视差值的匹配代价值:其中,Cp表示立体视觉左图像中每个像素点分别取0到255灰度值范围内的各个视差值的匹配代价值,dp表示立体视觉左图像中第p个像素点的视差值,∑表示求和操作,u表示立体视觉左图像中第p个像素点的5×5个像素邻域中的像素点,∈表示属于符号,N表示立体视觉左图像中第p个像素点的5×5个像素的邻域,|·|表示取绝对值操作,IL表示立体视觉左图像,xu表示立体视觉左图像中第p个像素点的5×5个像素邻域中的像素点u的横坐标值,yu表示立体视觉左图像中第p个像素点的5×5个像素邻域中的像素点u的纵坐标值,IR表示立体视觉右图像;(7)选择最优视差值:对立体视觉左图像中每个像素点,从0到255灰度值范围内的各个视差值中,选择使该像素点的匹配代价值最小时的视差值作为最优视差值;(8)按照下式,计算立体视觉左图像中存在行人的区域中行人离摄像头的距离:其中,Zi表示存在行人的第i个区域中行人离摄像头的距离,f表示双目摄像头的焦距,×表示相乘操作,T表示双目摄像头的中心距,Di表示存在行人的第i个区域中行人位置像素点的最优视差值;(9)输出立体视觉左图像中存在行人的区域中的行人离摄像头的距离。本专利技术与现有的技术相比具有以下优点:第1、由于本专利技术使用卷积神经网络的方法对图像做行人检测,克服了现有技术中滑动窗口重复计算图像的大量候选区域导致运算复杂度高的问题,使得本专利技术提高了行人检测的运算速度。第2、由于本专利技术使用的卷积神经网络将图像分割成14×14的正方形区域,克服了现有技术中Fast-YOLO将图像分割成7×7的正方形区域导致行人检测分辨度较低的问题,使得本专利技术提高了对行人相互靠近的图像的检测准确率。附图说明图1是本专利技术的流程图;图2是本专利技术的仿真图。具体实施方式下面结合附图对本专利技术做进一步的描述。参照图1,对本专利技术的具体步骤做进一步的描述。步骤1,获取立体视觉图像。使用双目摄像头拍摄待检测与测距的包含行人通过的监控场景,得到该场景的立体视觉左图像和立体视觉右图像。步骤2,构建卷积神经网络。构建一个包含8个卷积层、5个抽取层和1个全连接层的卷积神经网络。构建的包含8个卷积层、5个抽取层和1个全连接层的卷积神经网络的14层网络层连接关系是,按照第1个卷积层、第1个抽取层、第2个卷积层、第2个抽取层、第3个卷积层、第3个抽取层、第4个卷积层、第4个抽取层、第5个卷积层、第5个抽取层、第6个卷积层、第7个卷积层、第8个卷积层、全连接层的次序依次相连。14层网络层中每层的具体参数设置如下:第1个卷积层的输入图像大小为448×448×3个像素,卷积核尺寸为3×3×16个像素,边界填充尺寸为1个像素,步长为1个像素。第1个抽取层,抽取核尺寸为2×2个像素,步长为2个像素。第2个卷积层:卷积核尺寸为3×3×32个像素,边界填充尺寸为1个像素,步长为1个像素。第2个抽取层:抽取核尺寸为2×2个像素,步长为2个像素。第3个卷积层:卷积核尺寸为3×3×64个像素,边界填充尺寸为1个像素,步长为1个像素。第3个抽取层:抽取核尺寸为2×2个像素,步长为2个像素。第4个卷积层:卷积核尺寸为3×3×128个像素,边界填充尺寸为1个像素,步长为1个像素。第4个抽取层:抽取核尺寸为2×2个像素,步长为2个像素。第5个卷积层:卷积核尺寸为3×3×256个像素,边界填充尺寸为1个像素,步长为1个像素。第5个抽取层:抽取核尺寸为2×2个像素,步长为2个像素。第6个卷积层:卷积核尺寸为3×3×512个像素,边界填充尺寸为1个像素,步长为1个像素。第7个卷本文档来自技高网...

【技术保护点】
一种基于立体视觉的行人检测与测距方法,包括如下步骤:(1)获取立体视觉图像:使用双目摄像头拍摄待检测与测距的包含行人通过的监控场景,得到该场景的立体视觉左图像和立体视觉右图像;(2)构建卷积神经网络:构建一个包含8个卷积层、5个抽取层和1个全连接层的卷积神经网络;(3)计算立体视觉左图像的预测值:(3a)将立体视觉左图像输入到卷积神经网络中,输出尺寸为980×1个像素的特征向量;(3b)将立体视觉左图像均匀划分为14×14个正方形区域;(3c)将卷积神经网络输出的980×1个像素的特征向量中的所有的向量元素,均匀分配给立体视觉左图像的每个正方形区域,每个正方形区域得到5个向量元素;将每个正方形区域的5个向量元素,依次作为该区域的行人存在概率预测值、行人横坐标预测值、行人纵坐标预测值、行人宽度预测值、行人高度预测值;(4)判断立体视觉左图像的每个正方形区域的行人存在概率预测值是否大于0.5,若是,则认为该区域存在行人,执行步骤(5);否则,认为该区域不存在行人,执行步骤(6);(5)对预测值做去归一化处理:将存在行人的正方形区域的行人横坐标预测值、行人纵坐标预测值、行人宽度预测值、行人高度预测值分别做去归一化处理,得到用于确定行人位置的横坐标值和纵坐标值、行人的宽度值和行人的高度值;(6)计算匹配代价值:(6a)将立体视觉左图像中每个像素点的视差值的取值范围设置为0到255个灰度值;(6b)按照下式,计算立体视觉左图像中每个像素点分别取0到255灰度值范围内的每个视差值的匹配代价值:...
【技术特征摘要】
1.一种基于立体视觉的行人检测与测距方法,包括如下步骤:(1)获取立体视觉图像:使用双目摄像头拍摄待检测与测距的包含行人通过的监控场景,得到该场景的立体视觉左图像和立体视觉右图像;(2)构建卷积神经网络:构建一个包含8个卷积层、5个抽取层和1个全连接层的卷积神经网络;(3)计算立体视觉左图像的预测值:(3a)将立体视觉左图像输入到卷积神经网络中,输出尺寸为980×1个像素的特征向量;(3b)将立体视觉左图像均匀划分为14×14个正方形区域;(3c)将卷积神经网络输出的980×1个像素的特征向量中的所有的向量元素,均匀分配给立体视觉左图像的每个正方形区域,每个正方形区域得到5个向量元素;将每个正方形区域的5个向量元素,依次作为该区域的行人存在概率预测值、行人横坐标预测值、行人纵坐标预测值、行人宽度预测值、行人高度预测值;(4)判断立体视觉左图像的每个正方形区域的行人存在概率预测值是否大于0.5,若是,则认为该区域存在行人,执行步骤(5);否则,认为该区域不存在行人,执行步骤(6);(5)对预测值做去归一化处理:将存在行人的正方形区域的行人横坐标预测值、行人纵坐标预测值、行人宽度预测值、行人高度预测值分别做去归一化处理,得到用于确定行人位置的横坐标值和纵坐标值、行人的宽度值和行人的高度值;(6)计算匹配代价值:(6a)将立体视觉左图像中每个像素点的视差值的取值范围设置为0到255个灰度值;(6b)按照下式,计算立体视觉左图像中每个像素点分别取0到255灰度值范围内的每个视差值的匹配代价值:
【专利技术属性】
技术研发人员:宋彬,杨荣坚,秦浩,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。