【技术实现步骤摘要】
一种基于注意力机制的抗遮挡行人检测方法
本专利技术属于计算机视觉、模式识别、深度学习等领域,特别涉及一种在复杂的交通场景图像或视频帧中检测行人位置的方法。
技术介绍
随着人工智能热潮的兴起和大数据时代的到来,基于图像和视频理解世界的计算机视觉技术得到了蓬勃的发展。行人检测作为通用目标检测的一个重要分支,在智能交通,自动驾驶,视频监控,智能机器人等领域都有着重要的应用。此外,检测精度高,鲁棒性好的行人检测算法是计算机视觉中许多高级任务的前提和基础,如行人姿态识别,行为分析,多目标跟踪以及行人重识别等。因此,如何提升行人检测算法的性能是计算机视觉技术实际应用过程中亟待解决的问题。传统的行人检测方法通过手工设计特征获得行人特征描述子,同时利用滑窗定位行人位置,提取每个窗口的特征送入预先训练的分类器中判断是否为行人,代表方法有梯度方向直方图法,聚集通道特征法,形变部件模型法等。由于手工设计特征表达能力不足,此类方法仅能应对较为简单的场景。近年来,随着计算设备运算能力的不断提高,大规模卷积神经网络强大的特征提取和表达能力为计算 ...
【技术保护点】
1.一种基于注意力机制的抗遮挡行人检测方法,其特征在于,包括如下步骤:/n步骤1,将交通场景的行人图片经过数据预处理之后送入到由残差模块构成的主干网络中提取特征,得到尺度不断减小的多层卷积特征;/n步骤2,将主干网络提取的多层卷积特征以特征金字塔的结构融合,即依次将深层的特征图上采样后与浅层特征相加,从而生成5个包含语义信息和细节信息的新特征层;/n步骤3,将未经数据预处理的行人图片标签信息采用k均值聚类的方式得到预设的行人边界框的尺寸;/n步骤4,将步骤3得到的预设的行人边界框密集分布到步骤2融合生成的多层卷积特征图上,然后通过多重注意力机制自适应调节不同维度卷积特征的权 ...
【技术特征摘要】
1.一种基于注意力机制的抗遮挡行人检测方法,其特征在于,包括如下步骤:
步骤1,将交通场景的行人图片经过数据预处理之后送入到由残差模块构成的主干网络中提取特征,得到尺度不断减小的多层卷积特征;
步骤2,将主干网络提取的多层卷积特征以特征金字塔的结构融合,即依次将深层的特征图上采样后与浅层特征相加,从而生成5个包含语义信息和细节信息的新特征层;
步骤3,将未经数据预处理的行人图片标签信息采用k均值聚类的方式得到预设的行人边界框的尺寸;
步骤4,将步骤3得到的预设的行人边界框密集分布到步骤2融合生成的多层卷积特征图上,然后通过多重注意力机制自适应调节不同维度卷积特征的权重,进而预测所有行人边界框的回归偏置和分类置信度;
步骤5,根据步骤4预测的行人边界框的分类置信度和回归偏置分别计算交叉熵损失函数和改进的自适应遮挡感知回归损失函数,进而得到整体损失函数;端到端地对整个网络进行迭代优化,不断训练得到检测模型;
步骤6,将原始待检测图片送入步骤5生成的算法模型中,滤除置信度低于阈值θ1的预测框,对剩下的预测框采用非极大值抑制法去除重叠程度高于预设的框,最终得到检测结果。
2.如权利要求1所述的基于注意力机制的抗遮挡行人检测方法,其特征在于:所述步骤1中,数据预处理包括对行人图片进行裁剪,对每张图片随机选择5个遮挡率小于80%的行人,以其边界框中心点为界,随机选择上下左右的其中一侧进行裁剪,裁剪比例不大于宽和高的50%,再以黑边填充边缘到原本图片尺寸。
3.如权利要求1所述的基于注意力机制的抗遮挡行人检测方法,其特征在于:所述步骤1中,主干网络的结构是:从conv4开始保持网络下采样倍数不变,最大下采样倍数为16,并保持conv5、conv6的通道数为1024,与conv4一致;conv5、conv6中采用空洞卷积。
4.如权利要求3所述的基于注意力机制的抗遮挡行人检测方法,其特征在于:所述步骤2中,特征融合的方法是:得到卷积特征图c2~c6之后,对于尺度一致的c4~c6,将c6通过1×1卷积,特征通道数与c5保持一致,然后将二者对应元素相加,相加后的特征图再通过3×3卷积生成p6,p6特征图的通道数为256;同理生成p4和p5;p3的生成方式与FPN中一致;将c2特征层也进行融合,生成p2负责小尺度行人的检测,最终生成的融合特征层为p2~p6。
5.如权利要求1所述的基于注意力机制的抗遮挡行人检测方法,其特征在于:所述步骤3中,k均值聚类的距离度量公式为:
其中,anchorj表示行人数据集中第j个行人的...
【专利技术属性】
技术研发人员:周大可,宋荣,王栋,杨欣,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。