【技术实现步骤摘要】
基于深度亲和网络自适应关联的多目标跟踪方法及装置
[0001]本申请涉及自动驾驶多目标跟踪
,尤其是涉及基于深度亲和网络自适应关联的多目标跟踪方法及装置。
技术介绍
[0002]在现有的自动驾驶多目标跟踪方法中,通常利用物体相似度判断函数构建当前帧检测框和所有活跃的轨迹之间的代价矩阵,接着利用匈牙利算法等匹配算法和代价矩阵求解检测框和轨迹之间的匹配关系,最后基于各种匹配关系的检测框和轨迹进行轨迹注册、轨迹删除、轨迹更新等轨迹管理工作。
[0003]以物体间相似度求解为代表的数据关联过程是多目标跟踪方法中的研究重点和难点。为了实现物体间相似性的准确评估,目前主要有两类方法,第一种方法是基于物理几何关系的,由于每帧之间的时间间隔通常非常小,因此物体之间的帧间移动通常应当是相当小的,基于几何的物体相似度计算就是建立在这样的假设之上,这类方法通常使用欧式距离、二维交并比、三维交并比、广义交并比等函数直接计算检测框之间的几何相似性,并将其作为物体之间的相似性。这类方法具有精确性高、计算速度快的优点,但同时具有几何函数设计依赖人类经验和无法良好处理物体帧间大范围、不规则位移情况的缺点。第二种方法是基于神经网络的,随着深度学习的发展,利用神经网络可以提取物体的深度特征,基于神经网络的物体相似性计算通常使用神经网络提取的物体深度特征(视觉特征或是点云特征)作为物体的表征,进而使用如余弦距离、深度亲和网络等关联函数计算物体间的相似性。这类方法具有自适应性好、准确性高的特点。
[0004]但是,上述两类方法通常对所 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于深度亲和网络自适应关联的多目标跟踪方法,其特征在于,包括:获取检测器输出的当前帧的检测框,对当前帧的检测框按照预设类别进行分类,得到每个预设类别的所有检测框;利用上一帧中所有运动目标的运动信息,得到上一帧中所有运动目标在当前帧的预测框;对所有预设类别的检测框和预测框进行处理,得到拼接后的特征向量;利用预先训练完成的多层感知机对拼接后的特征向量进行处理,得到升维的特征向量;对升维的特征向量进行切片处理,得到每个预设类别的检测框深度特征和预测框深度特征,根据每个预设类别的检测框深度特征和预测框深度特征,构建对应类别的特征矩阵;利用预先训练完成的每个预设类别的深度亲和网络对对应类别的特征矩阵进行处理,得到相似度矩阵;基于每个预设类别的相似度矩阵,利用匹配算法获得对应类别的检测框和轨迹框之间的匹配关系。2.根据权利要求1所述的方法,其特征在于,所述预设类别包括:行人,自行车,电动车、卡车、拖车、汽车和动物。3.根据权利要求1所述的方法,其特征在于,所述检测框的运动信息向量为:[x,y,z,w,h,l,vx,vy,θ],其中(x,y,z)表示检测框中心在全局坐标系下的坐标,w,h和l为检测框的宽、高和长,vx和vy为检测框在全局坐标系的X和Y坐标轴的速度,θ为物体绕全局坐标系z轴的偏航角。4.根据权利要求3所述的方法,其特征在于,对每个预设类别的所有检测框和预测框进行处理,得到拼接后的特征向量;利用预先训练完成的多层感知机对拼接后的特征向量进行处理,得到升维的特征向量;包括:获取当前帧的预设类别class的检测框集合,包含个检测框;获取预设类别class的预测框集合,包含个预测框,t表示当前帧的帧序号;将每个预设类别的个检测框扩展为N
max
个检测框,扩展出的检测框的运动信息向量均为0向量;将每个预设类别的个预测框扩展为N
max
个预测框,扩展出的预测框的运动信息向量均为0向量;将N
cls
×
N
max
个检测框的运动信息向量和N
cls
×
N
max
个预测框的运动信息向量进行拼接,得到拼接后的特征向量f
im
,维度为(2
×
N
cls
×
N
max
)
×
9,N
cls
为预设类别的个数;利用预先训练完成的多层感知机对拼接后的特征向量f
in
进行处理,得到升维的特征向量f
out
,维度为(2
×
N
cls
×
N
max
)
×
520。5.根据权利要求4所述的方法,其特征在于,对升维的特征向量进行切片处理,得到每个预设类别的检测框深度特征和预测框深度特征,根据每个预设类别的检测框深度特征和预测框深度特征,构建对应类别的特征矩阵;包括:对升维的特征向量f
out
按照预设类别进行切片,得到当前帧的预设类别class的检测框的深度特征向量以及预设类别class的预测框的深度特征向量以及预设类别class的预测框的深度特征向量的维度为N
max
×
520,的维度为N
max
×
520;
为每个预设类别构造一个特征矩阵M
class
,第i行第j列的元素M
class
(i,j)为:其中,abs(
·
)为按位取绝对值操作;为深度特征向量的第i个元素,为深度特征向量的第j个元素。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:从多帧来自视频样本的连续图像中获取当前帧样本以及相邻帧样本,其中相邻帧样本与当前帧样本之间的帧数为n,n为随机数;当前帧样本的帧序号为s,相邻帧样本的帧序号为s
‑
n;获取当前帧样本中的个检测框以及相邻帧样本中的个检测框;按照预设类别对个检测框进行分类,得到每个预设类别的检测框集合包含个检测框;按照预设类别对个检测框进行分类,得到每个预设类别的检测框集合包含个检测框;将预设类别class的个检测框扩展为N
max
个检测框,扩展出的检测框的运动信息向量为0向量;将预设类别class的个检测框扩展为N
max
个检测框,扩展出的检测框的运动信息向量为0向量;将当前帧样本的N
cls
×
N
max
个检测框的运动信息向量和相邻帧样本的N
cls
×
N
max
个检测框的运动信息向量进行拼接,得到拼接后的检测框特征向量其维度为(2
×
N
cls
×
N
max
)
×
9;利用多层感知机对拼接后的检测框特征向量进行处理,得到升维的特征向量其维度为(2
×
N
cls
技术研发人员:王力,谢涛,刘德东,卢一倩,
申请(专利权)人:苏州驾驶宝智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。