【技术实现步骤摘要】
一种轻量级多任务视频流实时推理方法及系统
[0001]本专利技术涉及计算机视觉和自动辅助驾驶
,尤其涉及一种轻量级多任务视频流实时推理方法。
技术介绍
[0002]随着人工智能技术发展和智能设备的普及,越来越多的设备需要在无法访问云平台的情况下使用人工智能技术,使得边缘人工智能变得越来越重要。尤其,在自动化机器人或配备计算机视觉算法的智能汽车的应用中,数据传输的滞后可能是灾难性的。自动驾驶汽车在检测道路的人员或障碍时不能受到延迟的影响,由于快速响应时间是如此重要,必须采用边缘人工智能系统,允许实时分析和分类图像,而不依赖云计算连接。而自动驾驶的实现主要依靠各种传感器对车身四周的环境进行感知,通过目标检测、分割,识别与跟踪等计算机视觉处理技术来评估安全性。
[0003]现阶段比较常用的处理道路物体检测任务、可行驶区域分割任务和多物体跟踪任务的方式主要是分别用三种神经网络模型处理。例如,单阶段目标检测模型和双阶段目标检测模型专门处理目标检测任务,UNet和PSPNet被用来处理语义分割任务。这种将多任务模型解耦,用多个神经网络模型分开处理的方法比较容易实现,但多模型必然导致重复提取图像数据特征和模型训练困难的问题,并且多个模型的总参数量和总计算量庞大,边缘端芯片受算力资源限制而运行速度慢,难以在精度和时延中间取得一个平衡。
[0004]因此,如何通过一个模型解决多个感知任务并且能做到精度和时延的平衡是亟需解决的问题。目前存在以下几种代表性的方法。
[0005]采用编码器
‑
...
【技术保护点】
【技术特征摘要】
1.一种轻量级多任务视频流实时推理方法,其特征在于,包括:步骤1、获取包含驾驶场景的视频数据集,该视频数据集中包括多个视频流,视频流中视频帧具有标签文件,该标签文件包括目标锚框类别标签、行驶区域标签以及物体跟踪标签;步骤2、获取具有主干网络和特征金字塔网络的原目标检测模型,在该特征金字塔网络的目标检测头网络增加两个分支网络,分别作为分割行驶区域头网络和物体跟踪头网络,得到多任务检测模型;步骤3、以该视频数据集作为训练数据输入该多任务检测模型,并基于该多任务检测模型输出的目标锚框类别、行驶区域和物体跟踪结果,和该标签文件构建损失函数,以训练该多任务检测模型,得到教师模型,对该教师模型进行级联知识蒸馏的端到端结构化迭代剪枝处理,得到学生模型;步骤4、将车辆行驶时采集的待识别的实时驾驶场景视频流输入该学生模型,得到包含目标检测结果、可行驶区域和目标跟踪结果的推理结果;根据该推理结果,控制该车辆执行辅助驾驶相关的控制任务。2.如权利要求1所述的轻量级多任务视频流实时推理方法,其特征在于,该目标锚框类别标签包括类别、锚框中心点坐标、锚框宽度以及锚框高度;该行驶区域标签包括可行驶区域和不可行驶区域;该物体跟踪标签包括视频流的帧位、锚框编号、锚框中心点坐标、锚框宽度、锚框高度、锚框包含物体的置信度。3.如权利要求1所述的轻量级多任务视频流实时推理方法,其特征在于,该步骤3中训练该多任务检测模型具体包括:多任务检测模型通过该主干网络对视频帧进行特征提取,得到不同尺度的特征图,通过该特征金字塔网络对不同尺度的特征图进行融合,通过不同任务的头网络进行解码得到输出并与标签计算损失函数binary
‑
cross
‑
entropy和CIOU Loss,所述binary
‑
cross
‑
entropy具体为:L
BCE
(y
′
i
,y
i
)=
‑
w
i
[y
i
*logy
′
i
+(1
‑
y
i
)*log(1
‑
y
′
i
)]所述CIOU Loss的公式具体为:oss的公式具体为:oss的公式具体为:oss的公式具体为:其中L
BCE
为binary
‑
cross
‑
entropy公式计算出的损失值,n为样本总数,a为预测输出,y为真实输出;L
CIoU
为CIOU Loss公式计算出的损失值,IoU为预测框A和标签框B的交并集,b
gt
为标签框中心点位置,b为预测框中心点位置,ρ2(b,b
gt
)为预测框A和标注框B中心点之间的欧几里得距离,c为预测框A和标注框B之间最小外接矩形测对角线的长度,α为权重,为预测
框A和标注框B之间长宽比的距离;A为预测框,B为标注框;w
gt
为标注框的宽,h
gt
为标注框的长,w为预测框的宽,h为预测框的长;当总损失值达到预设标准时,得到目标模型,所述目标模型用于获取待识别视频帧并输出所述目标模型识别出的检测目标标签和可行驶区域分割标签,其中检测目标标签作为该物体跟踪头网络的输入;该物体跟踪头网络采用马氏距离与余弦距离度量跟踪目标与检测目标之间的损失函数;其中,马氏距离关联度为:该余弦距离关联度量:综合马氏距离和余弦关联度量的损失函数如下:c
i,j
=λd
(1)
(i,j)+(1
‑
λ)d
(2)
(i,j)其中,d
j
表示检测锚框的位置,y
i
表示对目标的预测位置,S
i
表示d
j
与y
i
之间的协方差矩阵,r
j
表示检测目标的特征向量,表示跟踪目标的特征向量,λ表示马氏距离度量的权重;当损失c
i,j
达到预设标准时,得到该教师网络。4.如权利要求3所述的轻量级多任务视频流实时推理方法,其特征在于,该步骤3中剪枝处理包括:对于该多任务检测模型的训练过程,在损失函数L
BCE
(y'
i
,y
i
)中添加惩罚因子,对卷积层的权重和BN层的缩放系数进行约束,约束项λR(w)采用L1范数,对于卷积核和BN层缩放系数的约束公式如下:R(w)=|α|训练上述端到端该多任务检测模型至损失函数收敛后,对滤波器的绝对值进行求和,然后结合缩放系数和滤波器的绝对值之和做计算重要性函数,再根据预设剪枝率对重要性进行升序排序,通过预设剪枝率计算剪枝阈值,将低于阈值的滤波器剪枝;其中,滤波器绝对值求和公式、重要性判断函数和剪枝阈值计算公式如下:m
i
=α
i
*E
i
θ=sort
p
(M)将剪枝前的网络作为教师网络,将剪枝后的网络作为该学生网络。5.一种轻量级多任务视频流实时推理系统,其特征在于,包括:模块1、获取包含驾驶场景的视频数据集,该视频数...
【专利技术属性】
技术研发人员:戴凌飞,刁博宇,李超,宫禄齐,徐勇军,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。