多规划算法集成的无人驾驶轨迹规划方法及相关装置制造方法及图纸

技术编号:39328634 阅读:12 留言:0更新日期:2023-11-12 16:05
多规划算法集成的无人驾驶轨迹规划方法及相关装置,包括获取车辆环境感知数据,得到两类结果级的感知信息;将两类结果级的感知信息作为场景分析模型的输入,选择最优轨迹规划算法;采用贝塞尔曲线来生成车辆在结构化场景下的运动路径,并加之速度规划得到最终的运动轨迹;在非结构化场景下采用感知信息对非结构化场景进行表征,并利用改进的混合A*算法来搜索路径,得到最终的运动轨迹。本发明专利技术将城区环境下无人车的运动规划问题分解成为场景分析和轨迹规划两个可以进行单独建模的子问题。通过场景中交通参与者的状态特征与场景的栅格图实现对环境状态的表征,利用势场模型产生及时的奖励解决强化学习训练中稀疏奖励的问题。时的奖励解决强化学习训练中稀疏奖励的问题。时的奖励解决强化学习训练中稀疏奖励的问题。

【技术实现步骤摘要】
多规划算法集成的无人驾驶轨迹规划方法及相关装置


[0001]本专利技术属于无人驾驶
,特别涉及多规划算法集成的无人驾驶轨迹规划方法及相关装置。

技术介绍

[0002]作为自动驾驶最通用的应用场景,城区环境中的自动驾驶目前已成为无人车领域广泛研究的热点,城区自动驾驶普遍采用的是模块化框架的解决方案,其采用由全局规划、行为决策和轨迹规划组成的分层驾驶策略框架来生成车辆运动轨迹。但由于分层框架中包含大量复杂的人工规则设定,目前许多研究开始利用基于学习的方法来改进传统的驾驶策略。
[0003]模仿学习由于其简明的框架及易于实现的训练方式首先被应用于驾驶策略模型的训练中,随着研究的不断深入,目前通过模仿学习训练的驾驶策略能够完成更具挑战性的自动驾驶任务。但尽管如此,由于受到示教数据的限制,基于模仿学习的方法很难推广到新环境中。深度强化学习通过智能体与环境的交互,在试错中学习到更鲁棒的策略模型,其在机器人技术、游戏和自然语言处理等领域展现出了最为优越的性能,并开始被应用于驾驶策略的学习。
[0004]然而,现有的基于深度强化学习的驾驶策略大多采用端到端的形式,这导致学习到的驾驶策略是一个“黑箱”,缺乏可解释性和可控性。此外,端到端方法直接将原始观测值映射到控制指令或运动轨迹,造成了在大规模连续动作空间中探索效率低下的问题。为了解决这些问题,有必要将传统的规划算法与基于学习的方法相结合。分层式的驾驶策略保留了传统模块化框架下驾驶策略的层次结构,使用深度强化学习来学习驾驶策略中的行为决策或轨迹规划。虽然这种形式为深度强化学习的落地提供了更为可行的解决方案,但目前大多数研究只探索了其在常规的结构化场景中的应用。城区环境中的交通场景复杂多样,不仅有包含规则道路和车流的结构化场景,也有不规则的非结构化场景,不同的场景对轨迹规划提出了不同的约束条件,使得难以通过单一的规划算法进行解决。因此,集成了多种规划算法的驾驶策略将更能适应动态、开放、复杂的城市环境。

技术实现思路

[0005]本专利技术的目的在于提供多规划算法集成的无人驾驶轨迹规划方法及相关装置,以解决上述问题。
[0006]为实现上述目的,本专利技术采用以下技术方案:
[0007]第一方面,本专利技术提供多规划算法集成的无人驾驶轨迹规划方法,包括:
[0008]获取车辆环境感知数据,基于感知数据提取场景特征,得到两类结果级的感知信息;
[0009]通过强化学习建立场景分析模型,将两类结果级的感知信息作为场景分析模型的输入,选择最优轨迹规划算法;
[0010]采用贝塞尔曲线来生成车辆在结构化场景下的运动路径,并加之速度规划得到最终的运动轨迹;在非结构化场景下采用感知信息对非结构化场景进行表征,并利用改进的混合A*算法来搜索路径,得到最终的运动轨迹。
[0011]可选的,获取车辆环境感知数据包括车辆位姿、障碍物、栅格图、边界地图和车道线地图;
[0012]基于感知数据提取场景特征,得到两类结果级的感知信息:
[0013]两类结果级的感知信息作为模型的输入状态,分别是包含车辆附近障碍物信息的特征列表s
feature
和表示车辆周围可行驶区域的占据栅格图s
grid
;特征列表由距离自车最近的N个障碍物的状态向量的组合而成,状态向量包含障碍物的位置、方向、速度和加速度信息;
[0014][0015]占据栅格图的尺寸为350
×
200,栅格的分辨率为0.2m,其中1代表该栅格被占据,0代表未被占据;占据栅格图隐式地对车辆周围的空间信息进行编码,能够反映场景的非结构化特征。
[0016]可选的,通过强化学习建立场景分析模型:
[0017]通过强化学习进行建模,形式化为马尔科夫决策过程,通过深度强化学习得到策略:
[0018]π
θ
:S

A
[0019]其中S是状态空间,表示所有可能观测到的环境状态;A={贝塞尔曲线,混合A*}是动作空间,代表选择的轨迹规划算法;θ是策略参数;在每个时刻t,智能体车辆观察到环境状态s
t
并确定将要执行的规划算法a
t
并通过轨迹规划器产生车辆的运动轨迹;然后,车辆从环境中获得奖励r
t
,状态观测转换为s
t+1
~p(s
t+1
∣s
t
,a
t
);强化学习的目标是学习到最佳策略使得期望收益G
t
最大化:
[0020][0021]其中γ∈[0,1]是折扣系数;
[0022]占据栅格图通过CNN分支,而特征列表则被扁平化并被送入全连接分支;然后,这两个处理过的输入被串联起来,并通过另外两个全连接层,产生动作空间中每个动作的Q值或概率分布。
[0023]可选的,利用基于栅格图的势场来评估轨迹,并在每个训练步骤中为场景分析模型产生实时的奖励;势场的大小根据与障碍物的距离计算,与障碍物距离越近势场越大,反之势场越小,势场的具体计算公式如下:
[0024][0025]其中d是位置(x,y)与其最近的占据栅格点之间的距离,κ和φ是控制势函数形状的参数;最终的奖励函数$r$定义为两种奖励函数的加权和:
[0026]r=ω
·
r
potential
+r
collision
[0027][0028]其中,r
potential
是轨迹势能的奖励,通过对规划轨迹上每一点(x
i
,y
i
)的势能进行求和计算;r
collision
是碰撞惩罚,如果发生碰撞,其等于

200,否则为0。
[0029]可选的,采用贝塞尔曲线来生成车辆在结构化场景下的运动路径,并加之速度规划得到最终的运动轨迹:
[0030]结构化场景的特点是有明确的道路结构,以车道中心线作为车辆运动的参考路径,并通过车道线约束车辆的运动范围,采用贝塞尔曲线来生成车辆在结构化场景下的运动路径,并加之速度规划得到最终的运动轨迹,贝塞尔曲线的数学表达式为:
[0031][0032]其中P
i
是曲线的第i个控制点,n是曲线的阶数,t∈[0,1]是控制参数,B
i,n
(t)是伯恩斯坦多项式,其表达式为:
[0033][0034]生成三阶贝塞尔曲线确保一阶和二阶连续性,生成三阶贝塞尔曲线需要得到P0、P1、P2、P3四个控制点;由车辆当前位姿(x0,y0,θ0)确定起始控制点P0,而终止控制点P3则是根据前视距离在全局引导线上选取目标点并在其周围采样得到;根据起始位姿(x0,y0,θ0)和目标位姿(x3,y3,θ3),确定P1和P2所在的直线,沿直线分别从P0、P3向前、向后延长l0、l3的距离确定控制点P1和P2;根据贝塞尔曲线公式得到三阶贝塞尔曲线的x、y坐标分别为:...

【技术保护点】

【技术特征摘要】
1.多规划算法集成的无人驾驶轨迹规划方法,其特征在于,包括:获取车辆环境感知数据,基于感知数据提取场景特征,得到两类结果级的感知信息;通过强化学习建立场景分析模型,将两类结果级的感知信息作为场景分析模型的输入,选择最优轨迹规划算法;采用贝塞尔曲线来生成车辆在结构化场景下的运动路径,并加之速度规划得到最终的运动轨迹;在非结构化场景下采用感知信息对非结构化场景进行表征,并利用改进的混合A*算法来搜索路径,得到最终的运动轨迹。2.根据权利要求1所述的多规划算法集成的无人驾驶轨迹规划方法,其特征在于,获取车辆环境感知数据包括车辆位姿、障碍物、栅格图、边界地图和车道线地图;基于感知数据提取场景特征,得到两类结果级的感知信息:两类结果级的感知信息作为模型的输入状态,分别是包含车辆附近障碍物信息的特征列表s
feature
和表示车辆周围可行驶区域的占据栅格图s
grid
;特征列表由距离自车最近的N个障碍物的状态向量的组合而成,状态向量包含障碍物的位置、方向、速度和加速度信息;其中(x
i
,y
i
)代表第i个交通参与者的位置,θ
i
代表朝向;代表x方向和y方向的速度;代表x方向和y方向的加速度;位置和朝向使用的是自车坐标系,速度和加速度使用的是以交通参与者自身为原点的局部坐标系;占据栅格图的尺寸为350
×
200,栅格的分辨率为0.2m,其中1代表该栅格被占据,0代表未被占据;占据栅格图隐式地对车辆周围的空间信息进行编码,能够反映场景的非结构化特征。3.根据权利要求2所述的多规划算法集成的无人驾驶轨迹规划方法,其特征在于,通过强化学习建立场景分析模型:通过强化学习进行建模,形式化为马尔科夫决策过程,通过深度强化学习得到策略:π
θ
:S

A其中S是状态空间,表示所有可能观测到的环境状态;A={贝塞尔曲线,混合A*}是动作空间,代表选择的轨迹规划算法;θ是策略参数;在每个时刻t,智能体车辆观察到环境状态s
t
并确定将要执行的规划算法a
t
并通过轨迹规划器产生车辆的运动轨迹;然后,车辆从环境中获得奖励r
t
,状态观测转换为s
t+1
~p(s
t+1
∣s
t
,a
t
);强化学习的目标是学习到最佳策略使得期望收益G
t
最大化:其中θ是策略参数;G
t
是收益,采用累计折扣奖励计算;γ∈[0,1]是折扣系数;占据栅格图通过CNN分支,而特征列表则被扁平化并被送入全连接分支;然后,这两个处理过的输入被串联起来,并通过另外两个全连接层,产生动作空间中每个动作的Q值或概率分布。4.根据权利要求3所述的多规划算法集成的无人驾驶轨迹规划方法,其特征在于,利用基于栅格图的势场来评估轨迹,并在每个训练步骤中为场景分析模型产生实时的奖励;势
场的大小根据与障碍物的距离计算,与障碍物距离越近势场越大,反之势场越小,势场的具体计算公式如下:其中d是位置(x,y)与其最近的占据栅格点之间的距离,κ和φ是控制势函数形状的参数;最终的奖励函数r定义为两种奖励函数的加权和:r=ω
·
r
potential
+r
collision
其中,r
potential
是轨迹势能的奖励,通过对规划轨迹上每一点(x
i
,y
i
)的势能进行求和计算;r
collision
是碰撞惩罚,如果发生碰撞,其等于

200,否则为0。5.根据权利要求1所述的多规划算法集成的无人驾驶轨迹规划方法,其特征在于,采用贝塞尔曲线来生成车辆在结构化场景下的运动路径,并加之速度规划得到最终的运动轨迹:结构化场景的特点是有明确的道路结构,以车道中心线作为车辆运动的参考路径,并通过车道线约束车辆的运动范围,采用贝塞尔曲线来生成车辆在结构化场景下的运动路径,并加之速度规划得到最终的运动轨迹,贝塞尔曲线的数学表达式为:其中P
i
是曲线的第i个控制点,n是曲线的阶数,t∈[0,1]是控制参数,B
i,n
(t)是伯恩斯坦多项式,其表达式为:生成三阶贝塞尔曲线确保一阶和二阶连续性,生成三阶贝塞尔曲线需要得到P0、P1、P2、P3四个控制点;由车辆当前位姿(x0,y0,θ0)确定起始控制点P0,而终止控制点P3则是根据前视距离在全局引导线上选取目...

【专利技术属性】
技术研发人员:薛建儒孟祥宁李庚欣赵康吴孟森
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1