行人检测方法和装置制造方法及图纸

技术编号:15640290 阅读:103 留言:0更新日期:2017-06-16 04:58
本发明专利技术的实施例提供了一种行人检测方法和装置。该行人检测方法包括:获取待处理图像;分析待处理图像的每个像素所属场景的场景信息;以及结合待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人,以确定待处理图像中的行人所在的位置。上述行人检测方法和装置结合图像中的场景信息来进行行人检测,通过使用场景信息可以有效地减少行人检测算法所产生的假阳性结果,同时利用场景信息可以帮助行人检测算法提高检测精度。

【技术实现步骤摘要】
行人检测方法和装置
本专利技术涉及计算机领域,更具体地涉及一种行人检测方法和装置。
技术介绍
在监控领域,行人检测具有非常重要的作用。目前的行人检测算法往往通过滑窗(sliding-window)方法来从待处理图像上提取多种不同尺度的窗口(每个窗口是一个矩形框,也可以称为行人框),并判断每个窗口中是否存在行人。但是这样的方法往往没有考虑场景的上下文(context)信息,依靠单一窗口判断是否有行人可能会得到很多假阳性(falsepositive)的检测结果。例如,场景中的树木、建筑物等物体可能跟行人的外观很像,这样就有可能发生误检测。
技术实现思路
考虑到上述问题而提出了本专利技术。本专利技术提供了一种行人检测方法和装置。根据本专利技术一方面,提供了一种行人检测方法。该方法包括:获取待处理图像;分析待处理图像的每个像素所属场景的场景信息;以及结合待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人,以确定待处理图像中的行人所在的位置。示例性地,在分析待处理图像的每个像素所属场景的场景信息之前,行人检测方法还包括:提取待处理图像的特征;分析待处理图像的每个像素所属场景的场景信息包括:基于待处理图像的特征分析待处理图像的每个像素所属场景的场景信息;结合待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人包括:结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人,以确定待处理图像中的行人所在的位置。示例性地,基于待处理图像的特征分析待处理图像的每个像素所属场景的场景信息包括:将待处理图像的特征输入全卷积网络,以获得与预定数目的场景类别一一对应的预定数目的场景特征图,其中,每个场景特征图与待处理图像大小一致,并且每个场景特征图的每个像素的像素值表示待处理图像的、与该像素位置一致的像素属于该场景特征图所对应的场景类别的场景置信度。示例性地,在将待处理图像的特征输入全卷积网络,以获得与预定数目的场景类别一一对应的预定数目的场景特征图之后,行人检测方法还包括:对于待处理图像的每个像素,从预定数目的场景特征图的、与该像素位置一致的像素的像素值中选择像素值最大的像素;以及对于待处理图像的每个像素,确定该像素属于像素值最大的像素所属的场景特征图所对应的场景类别。示例性地,提取待处理图像的特征包括:将待处理图像输入卷积神经网络,以获得至少一个图像特征图,其中,至少一个图像特征图代表待处理图像的特征。示例性地,结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人包括:利用一个或多个卷积层对至少一个图像特征图和预定数目的场景特征图进行卷积,以获得行人特征图,其中,行人特征图与待处理图像大小一致,并且行人特征图的每个像素的像素值包括基于待处理图像的、与该像素位置一致的像素预测出的行人框的顶点坐标和该行人框属于行人的行人置信度。示例性地,利用一个或多个卷积层对至少一个图像特征图和预定数目的场景特征图进行卷积包括:对至少一个图像特征图和预定数目的场景特征图进行拼接;以及将拼接后的特征图输入一个或多个卷积层中的在先卷积层,以由一个或多个卷积层处理。示例性地,结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人还包括:对包含同一行人的多个行人框进行筛选,以保留包含同一行人的行人框之一。示例性地,结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人还包括:基于待处理图像的每个像素所属的场景类别过滤不属于行人的行人框。示例性地,行人检测方法还包括:获取训练图像和标注数据,其中,标注数据包括训练图像中的每个行人所对应的行人框和训练图像的每个像素所属的场景类别;以训练图像中的每个行人所对应的行人框作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的行人框的目标值构建第一损失函数,并以训练图像中的每个像素所属的场景类别作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的场景信息的目标值构建第二损失函数;以及利用第一损失函数和第二损失函数对卷积神经网络和全卷积网络中的参数进行训练。根据本专利技术另一方面,提供了一种行人检测装置。该装置包括:待处理图像获取模块,用于获取待处理图像;场景分析模块,用于分析待处理图像的每个像素所属场景的场景信息;以及检测模块,用于结合待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人,以确定待处理图像中的行人所在的位置。示例性地,行人检测装置还包括:特征提取模块,用于提取待处理图像的特征;场景分析模块包括:场景分析子模块,用于基于待处理图像的特征分析待处理图像的每个像素所属场景的场景信息;检测模块包括:检测子模块,用于结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人,以确定待处理图像中的行人所在的位置。示例性地,场景分析子模块包括:输入单元,用于将待处理图像的特征输入全卷积网络,以获得与预定数目的场景类别一一对应的预定数目的场景特征图,其中,每个场景特征图与待处理图像大小一致,并且每个场景特征图的每个像素的像素值表示待处理图像的、与该像素位置一致的像素属于该场景特征图所对应的场景类别的场景置信度。示例性地,行人检测装置还包括:选择模块,用于对于待处理图像的每个像素,从预定数目的场景特征图的、与该像素位置一致的像素的像素值中选择像素值最大的像素;以及场景类别确定模块,用于对于待处理图像的每个像素,确定该像素属于像素值最大的像素所属的场景特征图所对应的场景类别。示例性地,特征提取模块包括:输入子模块,用于将待处理图像输入卷积神经网络,以获得至少一个图像特征图,其中,至少一个图像特征图代表待处理图像的特征。示例性地,检测子模块包括:卷积单元,用于利用一个或多个卷积层对至少一个图像特征图和预定数目的场景特征图进行卷积,以获得行人特征图,其中,行人特征图与待处理图像大小一致,并且行人特征图的每个像素的像素值包括基于待处理图像的、与该像素位置一致的像素预测出的行人框的顶点坐标和该行人框属于行人的行人置信度。示例性地,卷积单元包括:拼接子单元,用于对至少一个图像特征图和预定数目的场景特征图进行拼接;以及输入子单元,用于将拼接后的特征图输入一个或多个卷积层中的在先卷积层,以由一个或多个卷积层处理。示例性地,检测子模块还包括:筛选单元,用于对包含同一行人的多个行人框进行筛选,以保留包含同一行人的行人框之一。示例性地,检测子模块还包括:过滤单元,用于基于待处理图像的每个像素所属的场景类别过滤不属于行人的行人框。示例性地,行人检测装置还包括:训练图像获取模块,用于获取训练图像和标注数据,其中,标注数据包括训练图像中的每个行人所对应的行人框和训练图像的每个像素所属的场景类别;损失函数构建模块,用于以训练图像中的每个行人所对应的行人框作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的行人框的目标值构建第一损失函数,并以训练图像中的每个像素所属的场景类别作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的场景信息的目标值构建第二损失函数;以及训练模块,用于利用第一损失函数和第二损失函数对卷积神经网络和全卷积网络中的参数进行训练。根据本专利技术实施例的行人检测方本文档来自技高网...
行人检测方法和装置

【技术保护点】
一种行人检测方法,包括:获取待处理图像;分析所述待处理图像的每个像素所属场景的场景信息;以及结合所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人,以确定所述待处理图像中的行人所在的位置。

【技术特征摘要】
1.一种行人检测方法,包括:获取待处理图像;分析所述待处理图像的每个像素所属场景的场景信息;以及结合所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人,以确定所述待处理图像中的行人所在的位置。2.如权利要求1所述的行人检测方法,其中,在所述分析所述待处理图像的每个像素所属场景的场景信息之前,所述行人检测方法还包括:提取所述待处理图像的特征;所述分析所述待处理图像的每个像素所属场景的场景信息包括:基于所述待处理图像的特征分析所述待处理图像的每个像素所属场景的场景信息;所述结合所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人包括:结合所述待处理图像的特征和所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人,以确定所述待处理图像中的行人所在的位置。3.如权利要求2所述的行人检测方法,其中,所述基于所述待处理图像的特征分析所述待处理图像的每个像素所属场景的场景信息包括:将所述待处理图像的特征输入全卷积网络,以获得与预定数目的场景类别一一对应的预定数目的场景特征图,其中,每个场景特征图与所述待处理图像大小一致,并且每个场景特征图的每个像素的像素值表示所述待处理图像的、与该像素位置一致的像素属于该场景特征图所对应的场景类别的场景置信度。4.如权利要求3所述的行人检测方法,其中,在所述将所述待处理图像的特征输入全卷积网络,以获得与预定数目的场景类别一一对应的预定数目的场景特征图之后,所述行人检测方法还包括:对于所述待处理图像的每个像素,从所述预定数目的场景特征图的、与该像素位置一致的像素的像素值中选择像素值最大的像素;以及确定该像素属于所述像素值最大的像素所属的场景特征图所对应的场景类别。5.如权利要求3所述的行人检测方法,其中,所述提取所述待处理图像的特征包括:将所述待处理图像输入卷积神经网络,以获得至少一个图像特征图,其中,所述至少一个图像特征图代表所述待处理图像的特征。6.如权利要求5所述的行人检测方法,其中,所述结合所述待处理图像的特征和所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人包括:利用一个或多个卷积层对所述至少一个图像特征图和所述预定数目的场景特征图进行卷积,以获得行人特征图,其中,所述行人特征图与所述待处理图像大小一致,并且所述行人特征图的每个像素的像素值包括基于所述待处理图像的、与该像素位置一致的像素预测出的行人框的顶点坐标和该行人框属于行人的行人置信度。7.如权利要求6所述的行人检测方法,其中,所述利用一个或多个卷积层对所述至少一个图像特征图和所述预定数目的场景特征图进行卷积包括:对所述至少一个图像特征图和所述预定数目的场景特征图进行拼接;以及将拼接后的特征图输入所述一个或多个卷积层中的在先卷积层,以由所述一个或多个卷积层处理。8.如权利要求6所述的行人检测方法,其中,所述结合所述待处理图像的特征和所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人还包括:对包含同一行人的多个行人框进行筛选,以保留所述包含同一行人的行人框之一。9.如权利要求6所述的行人检测方法,其中,所述结合所述待处理图像的特征和所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人还包括:基于所述待处理图像的每个像素所属的场景类别过滤不属于行人的行人框。10.如权利要求5所述的行人检测方法,其中,所述行人检测方法还包括:获取训练图像和标注数据,其中,所述标注数据包括所述训练图像中的每个行人所对应的行人框和所述训练图像的每个像素所属的场景类别;以所述训练图像中的每个行人所对应的行人框作为利用所述卷积神经网络和所述全卷积网络对所述训练图像进行处理所获得的行人框的目标值构建第一损失函数,并以所述训练图像中的每个像素所属的场景类别作为利用所述卷积神经网络和所述全卷积网络对所述训练图像进行...

【专利技术属性】
技术研发人员:俞刚彭超
申请(专利权)人:北京旷视科技有限公司北京小孔科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1