当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于全局卷积、局部深度卷积融合的目标检测方法技术

技术编号:24939633 阅读:53 留言:0更新日期:2020-07-17 21:17
本发明专利技术公开了一种基于全局卷积、局部深度卷积融合的目标检测方法,改变原来的三维区域建议网络,提出一种基于非对称分割深度感知的ASD网络结构用于目标检测。通过这样做,可以更充分地提取特征图中每个层次和深度的特征。此外,还引入水平和垂直卷积融合网络以及蒸馏网络、角度优化算法等创新技术,进一步提高了检测效果。

【技术实现步骤摘要】
一种基于全局卷积、局部深度卷积融合的目标检测方法
本专利技术涉及计算机视觉领域,具体涉及一种基于全局卷积、局部深度卷积融合的目标检测方法。
技术介绍
物体检测是计算机视觉中的经典问题之一,其任务是用框去标出图像中物体的位置,并给出物体的类别。从传统的人工设计特征加浅层分类器的框架,到基于深度学习的端到端的检测框架,物体检测一步步变得愈加成熟。物体检测对于人眼来说并不困难,但计算机面对的是RGB像素矩阵,很难从图像中直接得到狗和猫这样的抽象概念并定位其位置,再加上物体姿态、光照和复杂背景混杂在一起,使得物体检测更加困难。检测算法里面通常包含三个部分,第一个是检测窗口的选择,第二个是特征的设计,第三个是分类器的设计。神经网络是一组大致模仿人类大脑构造设计的算法,用于识别模式。神经网络通过机器感知系统解释传感器数据,对原始输入进行标记或聚类。随着深度学习技术的不断完善与发展,基于深度学习的物体检测技术已经在诸多现实领域中具有广泛的应用场景,但在诸如无人驾驶研究领域中,由于该应用中需要系统得到感兴趣目标的3D空间中的位置信息才能更好地实现相应的功能,提高系统的稳定性与安全性。为了提高3D图像检测的准确性,现有的3D图像检测方法依赖于昂贵的激光雷达传感器,其可以提供的稀疏深度数据,以作为输入。单目图像由于缺乏深度信息,相对于激光雷达传感器提供的稀疏深度数据在进行三维检测时要困难得多。本申请专利技术人在实施本专利技术的过程中,发现现有技术的方法,至少存在如下技术问题:现有技术中,单目3D检测工作都严重依赖于外部SOTA子网络,这些子网络分别负责点云生成,语义分割,2D检测,或者深度估计。2D和3D检测目标不能在一个统一的框架内,更谈不上利用2D检测的强大功能来指导和改进3D检测的性能。在这种情况下,用于目标检测的单目三维区域建议网络诞生了,它使2D和3D空间都利用共享的锚点和分类目标,但是用于目标检测的单目三维区域建议网络仍不能很好地提取深层次的特征,从而导致检测效果不佳。由此可知,现有技术中的方法存在检测效果不佳的技术问题。
技术实现思路
本专利技术提出一种基于全局卷积、局部深度卷积融合的目标检测方法,用于解决或者至少部分解决现有技术中的方法存在的检测效果不佳的技术问题。为了解决上述技术问题,本专利技术公开了一种基于全局卷积、局部深度卷积融合的目标检测方法,包括:S1:构建基于全局卷积、局部深度卷积融合的目标检测网络,其中,目标检测网络包括主干网络、全局网络和深度感知卷积区域建议网络,主干网络用于对输入的图片进行特征提取,全局网络用于对主干网络处理后的图片进行全局特征抽取,深度感知卷积区域建议网络用于对主干网络处理后的图片进行局部特征抽取;S2:设置2D目标的锚点模板、3D目标的锚点模板以及可视化锚点生成方式,采用RPN机制生成预测框,采用非极大值抑制方法删除不符合条件的框;S3:对剩余的预测框进行调整,生成2D边界框、3D边界框以及在各个类别上的概率;S4:基于分类损失、2D边界框回归损失和3D边界框回归损失,设置目标检测网络的损失函数;S5:将3D边界框投影至2D边界框,并根据损失函数对目标检测网络的参数进行优化处理,得到优化后的目标检测网络;S6:利用优化后的目标检测网络对待检测图片进行检测,得到检测的目标参数。在一种实施方式中,S1中深度感知卷积区域建议网络对主干网络处理后的图片进行局部特征抽取的方式,包括横向非对称分割深度感知卷积、竖向非对称分割深度感知卷积以及针对多目标分支的卷积,其中,横向非对称分割深度感知卷积采用条带分割方法,竖向非对称分割深度感知卷积采用纵向切割的方法,针对多目标分支的卷积根据检测目标的数量采用不同的分支。在一种实施方式中,当深度感知卷积区域建议网络的特征提取方式为多目标分支卷积时,采用将已有的大模型学习到的参数模型应用至深度感知卷积区域建议网络的训练,具体包括:采用带有绝对标签的数据训练大模型,绝对标签为hard目标,表示已知的目标在各个分类上的概率分布,一个目标在所属类别上的概率为1,在其他类别上的概率为0,即非0即1;利用训练好的大模型来计算相对标签:soft目标,其中,大模型经过温度系数T软化后,再经过softmax的输出为soft目标,soft目标表示已知的目标在各个分类上的概率分布,一个目标在所属类别上的概率大于在其他类别上的概率;训练小模型,在小模型的基础上再加一个额外与soft目标对应的损失函数,将hard目标和soft目标分别代入小模型训练,得到的第一损失和第二损失,并通过lambda匿名函数来调节第一损失和第二损失的比重,得到训练好的小模型,作为训练好的网络。在一种实施方式中,S2具体包括:S2.1:设置2D目标的锚点模板:[w,h]2D、3D目标的锚点模板:[w,h,l,θ]3D,其中,w、h和l分别表示目标检测物体宽度、高度和长度,θ表示相机对目标检测物的观察视角角度;S2.2:设置可视化锚点生成方式为公式(1):其中,2D共享空间的中心像素位置为[x,y]P,2D共享空间的参数[w,h]2D与像素坐标[x,y]2D之间的关系为[x,y]2D=P·[w,h]2D,P表示需要将目标物投影的已知投影矩阵,[x,y,z,1]3D表示3D共享空间的参数或者坐标,ZP表示预设深度信息,[x,y,z]P表示3D共享空间的中心像素位置,即锚点的位置坐标;S2.3:根据2D目标的锚点模板、3D目标的锚点模板、可视化锚点生成方式以及预先计算的3D先验信息,采用RPN机制生成预测框;每个锚点的输出包括C,[tx,ty,tw,th]2D,[tx,ty,tz]P,[tw,th,tl,tθ]3D,其中,C表示类别,[tx,ty,tw,th]2D表示2D预测框的参数,[tx,ty,tz]P,[tw,th,tl,tθ]3D表示3D预测框的参数;S2.4:采用非极大值抑制方法删除不符合条件的框。在一种实施方式中,S3包括通过下述公式对2D预测框、3D预测框进行转换,得到生成2D边界框、3D边界框,其中,xP和yP表示每个框的空间中心位置,为相机坐标系下的参数,表示2D预测框的参数,w2D、h2D表示2D预测框的宽度和高度,x′2D、w′2D、y′2D和h′2D为生成的2D边界框的参数,为相机坐标系下的参数,为3D预测框的参数,zP为深度信息,w3D、h3D、l3D、θ3D为3D预测框的宽度、高度、长度和偏转角,x′P、w′3D、y′P、h′3D、z′P、l′3D和θ′3D为生成的3D边界框的参数。在一种实施方式中,S4包括:S4.1:采用基于softmax的多项逻辑损失函数计算分类损失,公式为:S4.2:引入2D框回归损失用于匹配2D真实框与2D边界框b′2D之间的交并比:S4.3:对3D框回归损失函数分析,用于将3D边界框中的每项用smoothL1本文档来自技高网
...

【技术保护点】
1.一种基于全局卷积、局部深度卷积融合的目标检测方法,其特征在于,包括:/nS1:构建基于全局卷积、局部深度卷积融合的目标检测网络,其中,目标检测网络包括主干网络、全局网络和深度感知卷积区域建议网络,主干网络用于对输入的图片进行特征提取,全局网络用于对主干网络处理后的图片进行全局特征抽取,深度感知卷积区域建议网络用于对主干网络处理后的图片进行局部特征抽取;/nS2:设置2D目标的锚点模板、3D目标的锚点模板以及可视化锚点生成方式,采用RPN机制生成预测框,采用非极大值抑制方法删除不符合条件的框;/nS3:对剩余的预测框进行调整,生成2D边界框、3D边界框以及在各个类别上的概率;/nS4:基于分类损失、2D边界框回归损失和3D边界框回归损失,设置目标检测网络的损失函数;/nS5:将3D边界框投影至2D边界框,并根据损失函数对目标检测网络的参数进行优化处理,得到优化后的目标检测网络;/nS6:利用优化后的目标检测网络对待检测图片进行检测,得到检测的目标参数。/n

【技术特征摘要】
1.一种基于全局卷积、局部深度卷积融合的目标检测方法,其特征在于,包括:
S1:构建基于全局卷积、局部深度卷积融合的目标检测网络,其中,目标检测网络包括主干网络、全局网络和深度感知卷积区域建议网络,主干网络用于对输入的图片进行特征提取,全局网络用于对主干网络处理后的图片进行全局特征抽取,深度感知卷积区域建议网络用于对主干网络处理后的图片进行局部特征抽取;
S2:设置2D目标的锚点模板、3D目标的锚点模板以及可视化锚点生成方式,采用RPN机制生成预测框,采用非极大值抑制方法删除不符合条件的框;
S3:对剩余的预测框进行调整,生成2D边界框、3D边界框以及在各个类别上的概率;
S4:基于分类损失、2D边界框回归损失和3D边界框回归损失,设置目标检测网络的损失函数;
S5:将3D边界框投影至2D边界框,并根据损失函数对目标检测网络的参数进行优化处理,得到优化后的目标检测网络;
S6:利用优化后的目标检测网络对待检测图片进行检测,得到检测的目标参数。


2.如权利要求1所述的方法,其特征在于,S1中深度感知卷积区域建议网络对主干网络处理后的图片进行局部特征抽取的方式,包括横向非对称分割深度感知卷积、竖向非对称分割深度感知卷积以及针对多目标分支的卷积,其中,横向非对称分割深度感知卷积采用条带分割方法,竖向非对称分割深度感知卷积采用纵向切割的方法,针对多目标分支的卷积根据检测目标的数量采用不同的分支。


3.如权利要求2所述的方法,其特征在于,当深度感知卷积区域建议网络的特征提取方式为多目标分支卷积时,采用将已有的大模型学习到的参数模型应用至深度感知卷积区域建议网络的训练,具体包括:
采用带有绝对标签的数据训练大模型,绝对标签为hard目标,表示已知的目标在各个分类上的概率分布,一个目标在所属类别上的概率为1,在其他类别上的概率为0,即非0即1;
利用训练好的大模型来计算相对标签:soft目标,其中,大模型经过温度系数T软化后,再经过softmax的输出为soft目标,soft目标表示已知的目标在各个分类上的概率分布,一个目标在所属类别上的概率大于在其他类别上的概率;
训练小模型,在小模型的基础上再加一个额外与soft目标对应的损失函数,将hard目标和soft目标分别代入小模型训练,得到的第一损失和第二损失,并通过lambda匿名函数来调节第一损失和第二损失的比重,得到训练好的小模型,作为训练好的网络。


4.如权利要求3所述的方法,其特征在于,S2具体包括:
S2.1:设置2D目标的锚点模板:[w,h]2D、3D目标的锚点模板:[w,h,l,θ]3D,其中,w、h和l分别表示目标检测物体宽度、高度和长度,θ表示相机对目标检测物的观察视角角度;
S2.2:设置可视化锚点生成方式为公式(1):



其中,2D共享空间的中心像素位置为[x,y]P,2D共享空间的参数[w,h]2D与像素坐标[x,y]2D之间的关系为[x,y]2D=P·[w,h]2D,P表示需要将目标物投影的已知投影矩阵,[x,y,z,1]3D表示3D共享空间的参数或者坐标,ZP表示预设深度信息,[x,y,z]P表示3D共享空间的中心像素位置,即锚点的位置坐标;
S2.3:根据2D目标的锚点模板、3D目标的锚点模板、可视化锚点生成方式以及预先计算的3D先验信息,采用RPN机制生成预测框;每个锚点的输出包括C,[tx,ty,tw,th]2D,[tx,ty,tz]P,[tw,th,tl,tθ]3D,其中,C表示类别,[tx,ty,tw,th]2D表示2D预测框的参数,[tx,ty,tz]P,[tw,th,tl,tθ]3D表示3D预测框的参数;
S2.4:采用非极大值抑制方法删除不符合条件的框。


5.如权利要求1所述的方法,其特征在于,S3包括
通过下述公式对2D预测框、3D预测框进行转换,得到生成2D边界框、3D边界框,









其中,xP和yP表示每个框的空间中心位置,为相机坐标系下的参数,表示2D预测框的参数,w2D、h2D表示2D预测框的宽度和高度,x′2D、w′2D、...

【专利技术属性】
技术研发人员:高戈杜能余星源李明常军陈怡
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1