一种融合时空注意力STGCN++的自动驾驶车辆行人意图识别方法技术

技术编号:38817191 阅读:16 留言:0更新日期:2023-09-15 19:56
本发明专利技术公开了一种融合时空注意力STGCN++的自动驾驶车辆行人意图识别方法,具体是一种STGCN++网络融合时空注意力机制的行人意图识别方法。目的是快速、精准的识别行人的过街意图,使高级辅助驾驶系统或自动驾驶车辆能够为驾驶员提供充足的时间来做出反应或是直接干预驾驶以防止碰撞。该方法是由如下步骤实现的:步骤一:通过车载单目摄像头捕获交通场景下的行人视频流;步骤二:利用RTMPose网络自顶向下的对行人关键点进行预测,生成行人2D骨架图;步骤三:特征提取,提取出行人骨架图中对于行人意图识别最稳定的9个关键点;步骤四:通过将时空注意力机制与STGCN++网络进行融合,实现自动驾驶车辆行人意图识别。本发明专利技术适用于自动驾驶车辆场景下的行人意图识别。动驾驶车辆场景下的行人意图识别。动驾驶车辆场景下的行人意图识别。

【技术实现步骤摘要】
一种融合时空注意力STGCN++的自动驾驶车辆行人意图识别方法


[0001]本专利技术涉及图卷积神经网络领域,尤其涉及一种融合时空注意力STGCN++的自动驾驶车辆行人意图识别方法。

技术介绍

[0002]随着计算机视觉在自动驾驶领域的发展,自动驾驶汽车的前景非常光明,其经济投资也在蓬勃发展。但根据世界卫生组织发布的《全球道路安全现状报告》,全球道路死亡人数已达到前所未有的最高水平,每年死亡135万人。其中,近一半的交通事故受害者是弱势道路使用者,比如正在过街的行人。避免车辆与行人碰撞是当今高级驾驶辅助系统和未来自动驾驶汽车的关键要求。以此为背景,高级辅助驾驶系统尽早预测出行人的意图,为驾驶员提供充足的时间来做出反应或是直接干预驾驶员以防止碰撞变得尤为重要。
[0003]目前,道路交通场景下的行人识别通常用于重要交通路口的固定区域监控,视野区域固定,无法满足自动驾驶车辆在不同环境不同场景下的行人意图识别。由于涉及到生命安全问题,自动驾驶车辆下的行人姿态估计需要很高的精度、准确性和检测速度。因此,为了满足自动驾驶车辆下的行人意图检测的精度、准确性与检测速度,本专利技术提出了一种融合时空注意力STGCN++的自动驾驶车辆行人意图识别方法,为自动驾驶车辆以及高级辅助驾驶系统提供了理论指导与解决方案。本专利技术的目的是为了尽早预测出行人的意图,为驾驶员提供充足的时间来做出反应或是直接干预驾驶员以防止发生对行人的碰撞。

技术实现思路

[0004]本专利技术针对现有技术的不足,提出了一种融合时空注意力STGCN++的自动驾驶车辆行人意图识别方法,实现了在自动驾驶车辆中对行人过街意图的预测识别。
[0005]本专利技术采用下述技术方案实现:
[0006]融合时空注意力STGCN++的自动驾驶车辆行人意图识别方法,该方法采用下述步骤实现:
[0007]步骤一,通过车载单目摄像头捕获交通场景下的行人视频流;
[0008]步骤二,利用RTMPose网络自顶向下的对行人关键点进行预测,生成行人2D骨架图;
[0009]步骤三,特征提取,提取出行人骨架图中对于行人意图识别最稳定的9个关键点;
[0010]步骤四,通过将时空注意力机制与STGCN++网络进行融合,实现自动驾驶车辆行人意图识别。
[0011]其中,步骤一中具体为:自动驾驶车辆搭载的单目USB相机以最高2K的分辨率采集智能驾驶车辆在交通场景下的彩色视频流,将视频流传输到车载计算平台上,并得到视频分辨率以定义像素坐标系。
[0012]步骤二中具体步骤包括:(1)使用在CSPDarkNet的基本构件中引入了5
×
5的深度
可分离卷积构建一个单阶段物体检测器对行人进行检测得到行人在输入图像帧像素坐标系下的位置,根据定位的行人框提取出人体图像;其中,行人数据集是公开的JAAD数据集以及基于实际的交通场景自制的数据集。(2)将行人数据集标注为MSCOCO格式以训练RTMPose人体姿态估计网络,通过数据集训练,人体姿态网络学习到行人的关节点X轴Y轴的坐标,生成行人骨架图;其中,生成的行人关节点包括鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左手腕、右手腕、左臀部、右臀部、左膝盖、右膝盖、左脚踝、右脚踝。
[0013]步骤三中具体为:将RTMPose人体姿态估计网络生成的行人骨架图做进一步的特征提取,仅保留行人骨架图中对于行人意图识别最稳定的9个关键点,以进一步减少网络的计算量;其中,9个关键点分别是:鼻子、左肩、右肩、左臀部、右臀部、左膝盖、右膝盖、左脚踝、右脚踝。
[0014]步骤四中具体步骤包括:
[0015](1)构建行人骨架图的时间与空间层次;构建行人骨骼无向时空图G=(V,E),包含N个关键点以及T帧数据;设定骨骼关键点集合V={v
ti
|t=1,...,T,i=1,...,N}作为神经网络的输入;每个行人骨骼关键点i在第t帧的特征向量F(v
ti
)由该点的坐标和其置信分数构成;在时域中,需要构建连续帧中相同关键点随时序变化的关系E
F
,表示为E
F
={v
ti
v
(t+1)i
},属于帧间连接;在空间域中,则可以直接利用人体各关节自然连接关系E
S
={v
ti
v
tj
|(i,j)∈H},H表示交警骨骼关键点的自然连接,属于帧内连接。图卷积网络在空间维度卷积过程中,根据定义好的骨骼无向时空图G,设定输入通道数为C,骨骼关键点x的卷积计算公式如下:
[0016][0017]其中,f
in
为输入图像,f
out
为输出特征,p(
·
)为采样函数,表示为
[0018]p(x,h,w)=x+p'(h,w);
[0019]其中,w(h,w)表示权重。在无向图G中,定义行人骨骼点v
ti
为中心点的集合为B(v
ti
)=v
tj
|d(v
tj
,v
ti
)≤D,d(v
tj
,v
ti
)表示骨骼点v
tj
到v
ti
的最短距离,领域距离D取1时,采样函数可以表示为:
[0020]p(v
ti
,v
tj
)=v
tj

[0021](2)空间模块;对空间序列进行增强,用相同比例因子r对骨架序列中的所有关节坐标进行缩放,r中的每个元素从均匀分布[

0.2,0.2]中采样;采用图的邻接矩阵A与单位矩阵I表示单帧内的人体骨骼关键点的链接,表示为Λ
ii
=∑(A
ij
+I
ij
),针对空间结构划分策略,STGCN++表示为:
[0022][0023][0024][0025](3)时间模块;采用多分支时间卷积神经网络(TCN)对时间模块进行设计;其由6个分支组成:一个'1x1'Conv分支、一个Max

Pooling分支和4个暂态1DConv分支,内核大小为3,扩展范围为1到4。它首先用“1x1”卷积变换特征,并将它们分成6组,通道宽度相等;然后,用单个分支处理每个特征组;六个输出连接在一起,由另一个“1x1”转换处理,形成多支路TCN的输出;
[0026](4)空间注意力机制;在空间维度上,行人的特征表现为单帧下的骨骼关键点坐标,为了使注意力机制可以关注行人骨骼拓扑图以外的关键点的联系,具体表示为:
[0027][0028]其中,F表示输出,f为输入特征,B
k
为可学习的权重参数的N
×
N图相关矩阵,不同于数据固定的邻接矩阵A
k
,图矩阵B
k
中的数据完全由训练行人意图的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合时空注意力STGCN++的自动驾驶车辆行人意图识别方法,其特征在于,包括步骤:步骤一,通过车载单目摄像头捕获交通场景下的行人视频流;步骤二,利用RTMPose网络自顶向下的对行人关键点进行预测,生成行人2D骨架图;步骤三,特征提取,提取出行人骨架图中对于行人意图识别最稳定的9个关键点;步骤四,通过将时空注意力机制与STGCN++网络进行融合,实现自动驾驶车辆行人意图识别。2.根据权利要求1融合时空注意力STGCN++的自动驾驶车辆行人意图识别方法,其特征在于:所述步骤一中,具体为:自动驾驶车辆搭载的单目USB相机以最高2K的分辨率采集智能驾驶车辆在交通场景下的彩色视频流,将视频流传输到车载计算平台上,并得到视频分辨率以定义像素坐标系。3.根据权利要求1所述融合时空注意力STGCN++的自动驾驶车辆行人意图识别方法,其特征在于:所述步骤二中,具体步骤包括:(1)使用在CSPDarkNet的基本构件中引入了5
×
5的深度可分离卷积构建一个单阶段物体检测器对行人进行检测得到行人在输入图像帧像素坐标系下的位置,根据定位的行人框提取出人体图像;其中,行人数据集是公开的JAAD数据集以及基于实际的交通场景自制的数据集。(2)将行人数据集标注为MSCOCO格式以训练RTMPose人体姿态估计网络,通过数据集训练,人体姿态网络学习到行人的关节点X轴Y轴的坐标,生成行人骨架图;其中,生成的行人关节点包括鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左手腕、右手腕、左臀部、右臀部、左膝盖、右膝盖、左脚踝、右脚踝。4.根据权利要求1所述融合时空注意力STGCN++的自动驾驶车辆行人意图识别方法,其特征在于:所述步骤三中,具体为:将RTMPose人体姿态估计网络生成的行人骨架图做进一步的特征提取,仅保留行人骨架图中对于行人意图识别最稳定的9个关键点,以进一步减少网络的计算量;其中,9个关键点分别是:鼻子、左肩、右肩、左臀部、右臀部、左膝盖、右膝盖、左脚踝、右脚踝。5.根据权利要求1所述融合时空注意力STGCN++的自动驾驶车辆行人意图识别方法,其特征在于:所述步骤四中,具体步骤包括:(1)构建行人骨架图的时间与空间层次;构建行人骨骼无向时空图G=(V,E),包含N个关键点以及T帧数据;设定骨骼关键点集合V={v
ti
|t=1,...,T,i=1,...,N}作为神经网络的输入;每个行人骨骼关键点i在第t帧的特征向量F(v
ti
)由该点的坐标和其置信分数构成;在时域中,需要构建连续帧中相同关键点随时序变化的关系E
F
,表示为E
F
={v
ti
v
(t+1)i
},属于帧间连接;在空间域中,则可以直接利用人体各关节自然连接关系E
S
={v
ti
v
tj
|(i,j)∈H},H表示交警骨骼关键点的自然连接,属于帧内连接。图卷积网络在空间维度卷积过程中,根据定义好的骨骼无向时空图G,设定输入通道数为C,骨骼关键点x的卷积计算公式如下:其中,f
in
为输入图像,f
out
为输出特征,p(
·
)为采样函数,表示为p(x,h,w)=x+p'(h,w);
其中,w(h,w)表示权重。在无向图G中,定义行人骨骼点v
ti
为中心点的集合为B(v
ti
)=v
tj
|d(v
tj
,v

【专利技术属性】
技术研发人员:伍锡如赵宇李欣湉林钰睿
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1