基于视频数据的行人过街意图识别方法技术

技术编号:30041609 阅读:21 留言:0更新日期:2021-09-15 10:40
基于视频数据的行人过街意图识别方法,包括:车载相机实时采集自动驾驶车辆前方的道路及场景图像,获得视频数据;对所述视频数据进行数据预处理,提取车载相机拍摄的视频当前帧中的行人及周围区域的图像并划分类别;采用2D卷积神经网络对行人及周围场景区域的图像进行特征提取,得到2D卷积特征图,并针对2D卷积特征图的部分通道进行运动增强和时序分组1D卷积,得到运动时序特征图;根据所述运动时序特征图,计算并获得当前帧的初步识别结果;对所述初步识别结果进行滤波,输出行人在当前帧的过街意图或状态。实现了对行人过街意图的实时有效识别,提高了自动驾驶的安全性。提高了自动驾驶的安全性。提高了自动驾驶的安全性。

【技术实现步骤摘要】
基于视频数据的行人过街意图识别方法


[0001]本公开涉及自动驾驶领域、高级汽车驾驶员辅助
和计算机视觉
,具体涉及一种基于深度学习方法对车载相机拍摄的视频数据进行实时行人过街意图识别的技术和方法,尤其涉及一种基于时空注意力机制的行人轨迹预测方法、系统、电子设备和可读存储介质。

技术介绍

[0002]随着计算机视觉技术的发展,采用计算机视觉技术进行环境感知已经成为智能感知系统中不可或缺的部分。行人感知是自动驾驶领域必不可少的环境感知内容。其中,行人过街意图识别在自动驾驶领域等具有重要意义,在自动驾驶场景中,自动驾驶车辆一般都配备车载相机,拍摄前方和两侧道路的视频图像,自动驾驶系统识别正在过街的行人以及有过街意图的行人,并将识别结果传输至决策控制模块,使自动驾驶车辆能够提前实施制动等措施,有利于增强道路交通安全,保障行人的生命安全。
[0003]现阶段,对行人过街意图识别方面的研究还存在诸多难点,目前主流的论文或专利提出不同的技术尝试解决,但所提供的方法在实际自动驾驶系统使用中还存在很大的完备空间。
[0004]为了解现有技术的发展状况,本公开对已有的专利文献和论文进行了检索、比较和分析:
[0005]方案一:Proceedings of the IEEE/CVF International Conference on Computer Vision论文“PIE:A large

scale dataset and models for pedestrian intention estimation and trajectory prediction”提出了一种用于行人意图估计(PIE)的新颖的大规模数据集,以建立交通场景中行人意图的参考数据,并提出了用于估计行人过街意图并预测其未来轨迹的模型,模型分为三个部分,均采用基于长短期记忆网络(LSTM)的Encoder

Decoder结构,利用行人意图和本车速度,辅助预测行人轨迹。但是该方法中的长短期记忆网络(LSTM)参数量大,训练效率低,无法并行化处理,不利于实际自动驾驶系统的行人过街意图实时识别。
[0006]方案二:IEEE Transactions on Intelligent Transportation Systems论文“Intention recognition of pedestrians and cyclists by 2D pose estimation”设计了用于识别行人和骑车人等弱势道路使用者(VRU)的意图的模型,对于骑自行车的人而言,假设他们遵循交通规则,则手臂信号能够指示将来的动作,对于行人而言,行人的行走方式可以确定他/她是否有意在穿过马路。该方法认为行人位姿和身体动作甚至比卷积神经网络提取的外观特征还要重要,但是人体关键点又较为粗略,且对视频分辨率要求高,对中远距离的行人意图识别效果欠佳,达不到自动驾驶车辆在实际道路运行时的行人意图识别目的。
[0007]方案三:IEEE Robotics and Automation Letters论文“Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction”采用图结构关联道路上
的行人、车辆等目标,设每一个行人为节点,建立一个以行人为中心的的时空图,节点特征表示为一个特征向量,特征向量编码了这一帧中的场景上下文信息和时间历史信息,采用门控循环单元(GRU)预测行人是否过马路。然而,将每个行人设为中心节点,运算复杂度随着行人数量而增加,而且循环神经网络的使用无法实现并行化,不能到达实际自动驾驶车辆在实际道路上运行的使用需要。
[0008]方案四:专利文献CN109117701A提出了一种基于图卷积的行人意图识别方法,对车载相机采集的视频图像进行行人检测和行人人体关键点信息提取,并用图表示行人人体关键点的连接信息,通过图卷积算法从人体关键点的坐标信息和邻接矩阵表示中提取底层特征,并将底层特征通过卷积神经网络和循环神经网络进行高层次特征提取和时序分析,实现对行人行为意图的分类识别。该方法主要依赖人体关键点的信息,但提取人体关键点消耗较大的资源,且关键点较为粗略,无法精细提取行人的意图,不能满足实际自动驾驶系统对行人意图判断的可靠性要求。
[0009]可见,现有的行人过街意图识别还存在计算效率低、训练代价高、识别准确性低、误差大,且实时性不好等问题,不适合自动驾驶实际使用中的预测需要,严重影响了自动驾驶系统控制决策的有效性,不利于自动驾驶系统安全性的提高。
[0010]综上,现有技术目前仍然无法解决自动驾驶实际应用场景下对行人过街意图进行实时有效识别的技术问题,影响了自动驾驶的决策。因此,如何提供一种计算效率高、网络训练开销小,满足自动驾驶决策对实际道路场景中行人过街意图的实时有效识别需求的行人过街意图识别方法,成为当前自动驾驶领域非常有现实意义的研究内容。

技术实现思路

[0011]为达到上述专利技术目的,本公开需要克服的技术难点主要集中在如下几个方面:
[0012]一是早期的过街意图难以捕捉。一般来说,能够越早预测行人的过街意图,对于自动驾驶车辆越有益。然而,早期行人的过街意图征兆不明显或者持续时间过短,行人在过街前头部和面部会有一定的动作,但此类动作不会持续,需要捕捉并识别到关键的动作并加以处理。仅仅利用人体关键点的信息以推断行人的动作或者意图,则由于人体关键点数量少,特征粗略,且人体位姿估计消耗较多运算资源,不能进行有效预测。
[0013]二是视频数据具有时序特征,行人过街的意图需要根据时序上下文的信息进行推断,虽然循环神经网络(包括RNN、LSTM、GRU及其变体等)能够较好捕捉时间的依赖,但其效率较低,训练代价高,不利于自动驾驶平台的模型部署。
[0014]三是视频数据具有丰富的语义特征,如果采用多任务、多模型组合的方式,人为划分特征,使用单一模型进行提取,再进行特征融合,典型特征包括行人位置特征、行人外观特征、场景语义特征、人体位姿特征等,但是,这种方式在一定程度上破坏了原始视频数据的语义信息,增加了人为引入的误差。
[0015]四是自动驾驶系统要求行人意图预测需要具有实时性,现有方法难以兼顾实时性。人体位姿估计、图像特征提取等任务均消耗较大的计算资源。此外,现阶段的视频理解和动作识别领域方法大多针对于离线的视频,需要对整个视频序列进行分析和建模,而自动驾驶的场景需求是在线的行人动作和意图识别,因此特征复用、时序融合均为技术难点。
[0016]为了解决上述四个技术问题,本公开提出了一种基于视频数据的行人过街意图识
别方法和系统,尽可能早地预测行人过街意图,采用2D卷积神经网络提取视频流中包含行人以及周围场景的单帧图像特征,并用两种方式融合不同帧之间的时序关联,一是对特征图的部分通道进行相邻帧的运动增强,捕捉并增强行人关键的动作,二是对特征图的部分通道在时序上进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视频数据的行人过街意图识别方法,其特征在于,包括:步骤S100、车载相机实时采集自动驾驶车辆前方的道路及场景图像,获得视频数据;步骤S110、对所述视频数据进行数据预处理,提取车载相机拍摄的视频当前帧中的行人及周围区域的图像并划分类别;步骤S120、采用2D卷积神经网络对行人及周围场景区域的图像进行特征提取,得到2D卷积特征图,并针对2D卷积特征图的部分通道进行运动增强和时序分组1D卷积,得到运动时序特征图;步骤S130、根据所述运动时序特征图,计算并获得当前帧的初步识别结果;步骤S140、对所述初步识别结果进行滤波,输出行人在当前帧的过街意图或状态。2.根据权利要求1所述的一种基于视频数据的行人过街意图识别方法,其特征在于,所述预处理包括:检测行人在视频图像中的外接框,并关联视频不同帧中的同一行人。3.根据权利要求1或2所述的一种基于视频数据的行人过街意图识别方法,其特征在于,对所述经过预处理后的数据的每一帧中的行人过街意图及状态进行识别,输出行人当前的意图或状态,包括正在过街(Crossing)、不过街(Not

crossing)和存在过街意图(Intention

to

cross)共3种。4.根据权利要求1、2或3所述的一种基于视频数据的行人过街意图识别方法,其特征在于,在所述步骤S110中,车载相机采集视频的原始帧率为30FPS,输入数据包含当前帧的视频图像,以及当前帧图像中所有的行人外接框坐标(x
lt
,y
lt
,x
rb
,y
rb
)以及行人ID,其中,(x
lt
,y
lt
),(x
rb
,y
rb
)分别代表行人在像素坐标系中外接框的左上角坐标和右下角坐标;将行人外接框扩张为k
context
倍大小,得到带背景信息的行人外接框,计算公式如下所示:倍大小,得到带背景信息的行人外接框,计算公式如下所示:倍大小,得到带背景信息的行人外接框,计算公式如下所示:倍大小,得到带背景信息的行人外接框,计算公式如下所示:其中,(x
lt
',y
lt
',x
rb
',y
rb
')为带背景信息的行人外接框坐标。5.根据权利要求4所述的一种基于视频数据的行人过街意图识别方法,其特征在于,其中所...

【专利技术属性】
技术研发人员:董铮李雪范圣印陈禹行
申请(专利权)人:苏州易航远智智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1