当前位置: 首页 > 专利查询>清华大学专利>正文

一种路径规划方法技术

技术编号:39801583 阅读:8 留言:0更新日期:2023-12-22 02:32
本说明书涉及人工智能技术领域,尤其涉及一种路径规划方法

【技术实现步骤摘要】
一种路径规划方法、装置、计算机设备及存储介质


[0001]本说明书涉及人工智能
,尤其涉及一种路径规划方法

装置

计算机设备及存储介质


技术介绍

[0002]目前,在自动驾驶车辆的路径规划模块设计过程中,基于强化学习的算法被广泛研究

通常,驾驶员在实际驾驶过程中遇到的问题复杂多样,且面对不同的问题应该基于不同的规则进行下一步的决策

由此,导致在训练用于实现端到端功能的强化学习算法时,样本需求量较大,且所面对原问题的解空间极大,由此,增加了强化学习算法的训练难度,以及需要消耗大量的计算资源

而基于规则的路径规划方法往往对场景进行划分,再单独对每类场景进行学习

因此,该类方法仅能在单一问题或特定几类问题的场景中应用,面对多种问题的行车环境表现较差

[0003]如何实现在保证面对多种问题的行车环境时,提高决策的准确率的同时,降低计算机资源的消耗是现有技术中亟需解决的问题


技术实现思路

[0004]为解决现有技术中的问题,本说明书实施例提供了一种路径规划方法

装置

计算机设备及存储介质,实现了在保证面对多种问题的行车环境时,提高决策的准确率的同时,降低计算机资源的消耗

[0005]为了解决上述技术问题,本说明书的具体技术方案如下:
[0006]一方面,本说明书实施例提供了一种路径规划方法,包括,
[0007]从接收到的路径规划请求中,确定与车辆对应的车辆状态信息和车辆周围环境信息;
[0008]利用变分量子算法,针对所述车辆状态信息和车辆周围环境信息进行处理,得到策略信息;
[0009]确定与所述策略信息对应的候选动作数据;以及
[0010]基于与所述候选动作数据对应的路径规划算法,针对所述车辆周围环境信息和所述车辆状态信息包括的车辆位置信息进行处理,得到规划行驶信息

[0011]进一步,该在得到所述规划行驶信息之后,包括:
[0012]在车辆的行驶路径总个数满足预设条件的情况下,确定与每个时刻对应的安全信息

所述车辆状态信息

所述车辆周围环境信息和所述规划行驶信息,每个所述行驶路径与多个时刻相对应;
[0013]针对所述安全信息进行加权及折扣处理,得到与每个所述行驶路径对应的奖励函数值;以及
[0014]基于所述奖励函数值,对所述变分量子算法进行参数优化,得到优化后的变分量子算法,以用于下一时刻的路径规划

[0015]进一步,该确定与所述策略信息对应的候选动作数据进一步包括,
[0016]确定所述策略信息表征的场景信息;
[0017]确定每个预设动作在与所述场景信息对应的场景中,被选择的概率;以及
[0018]基于所述概率,从所述预设动作中确定候选动作,并确定与所述候选动作对应的所述候选动作数据

[0019]进一步,该路径规划算法包括轨迹跟踪算法和人工势场避障算法,所述与所述候选动作数据对应的路径规划算法的确定进一步包括,
[0020]在所述候选动作数据为第一数据时,确定所述轨迹跟踪算法为所述路径规划算法;以及
[0021]在所述候选动作数据为第二数据时,确定所述人工势场避障算法为所述路径规划算法

[0022]进一步,该变分量子算法进一步包括:
[0023][0024][0025]其中,所述
<O
ω
>
和所述
<O
ω

>
均表征由所述变分量子算法得到的厄尔米特观测值,所述厄尔米特观测值由所述车辆状态信息

所述车辆周围环境信息和所述变分量子算法的参数确定,所述
ω
和所述
ω

均表征所述候选动作数据,所述
P
m
表征量子态到特征值为
m
的本征空间
M
上的投影,所述
π
Ω
表征所述策略信息,所述
s
表征所述车辆状态信息和所述车辆周围环境信息,所述
Ω
表征策略参数,所述
β
表征玻尔兹曼探索方法的温度系数

[0026]进一步,该针对所述安全信息进行加权及折扣处理,得到与每个所述行驶路径对应的奖励函数值进一步包括,
[0027][0028][0029]其中,所述
G
i,t
表征与第
i
个行驶路径对应的所述奖励函数值,所述
H
表征与第
i
个行驶路径对应的总的时刻数,所述
γ
表征折扣因子,所述
t
表征所述时刻中的起始时刻,所述
c
表征加权后的所述安全信息,所述
Γ
表征权重系数,所述
j
表征所述安全信息的类别,以及所述
t

表征所述时刻

[0030]进一步,该基于所述奖励函数值,对所述变分量子算法进行参数优化,得到优化后的变分量子算法,以用于下一时刻的路径规划进一步包括,
[0031][0032][0033]其中,所述
Ω
表征所述策略参数,所述
N
表征在当前优化过程中的所述行驶路径总个数,所述
H
表征与第
i
个行驶路径对应的总的时刻数,所述
ω
表征所述候选动作数据,所述
s
表征所述车辆周围环境信息和所述车辆状态信息,所述
G
表征所述奖励函数值,所述
Q
表征评价函数值,所述评价函数值根据所述车辆状态信息和所述车辆周围环境信息确定,所述
a
表征所述规划行驶信息,所述
π
Ω
表征所述策略信息,所述
<O
ω
>
和所述
<O
ω

>
均表征由所述变分量子算法得到的厄尔米特观测值,所述厄尔米特观测值由所述车辆状态信息

所述车辆周围环境信息和所述变分量子算法的参数确定,所述
ω
和所述
ω

均表征所述候选动作数据,所述
β
表征玻尔兹曼探索方法的温度系数

[0034]另一方面,本说明书实施例还提供了一种路径规划装置,包括,
[0035]第一确定单元,用于从接受到的路径规划请求中,确定与车辆对应的车辆状态信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种路径规划方法,其特征在于,包括:从接收到的路径规划请求中,确定与车辆对应的车辆状态信息和车辆周围环境信息;利用变分量子算法,针对所述车辆状态信息和车辆周围环境信息进行处理,得到策略信息;确定与所述策略信息对应的候选动作数据;以及基于与所述候选动作数据对应的路径规划算法,针对所述车辆周围环境信息和所述车辆状态信息包括的车辆位置信息进行处理,得到规划行驶信息
。2.
根据权利要求1所述的方法,其特征在于,所述在得到所述规划行驶信息之后,还包括:在车辆的行驶路径总个数满足预设条件的情况下,确定与每个时刻对应的安全信息

所述车辆状态信息

所述车辆周围环境信息和所述规划行驶信息,每个所述行驶路径与多个时刻相对应;针对所述安全信息进行加权及折扣处理,得到与每个所述行驶路径对应的奖励函数值;以及基于所述奖励函数值,对所述变分量子算法进行参数优化,得到优化后的变分量子算法,以用于下一时刻的路径规划
。3.
根据权利要求1所述的方法,其特征在于,所述确定与所述策略信息对应的候选动作数据包括:确定所述策略信息表征的场景信息;确定每个预设动作在与所述场景信息对应的场景中,被选择的概率;以及基于所述概率,从所述预设动作中确定候选动作,并确定与所述候选动作对应的所述候选动作数据
。4.
根据权利要求1所述的方法,其特征在于,所述路径规划算法包括轨迹跟踪算法和人工势场避障算法,所述与所述候选动作数据对应的路径规划算法的确定包括:在所述候选动作数据为第一数据时,确定所述轨迹跟踪算法为所述路径规划算法;以及在所述候选动作数据为第二数据时,确定所述人工势场避障算法为所述路径规划算法
。5.
根据权利要求1所述的方法,其特征在于,所述变分量子算法包括:所述的方法,其特征在于,所述变分量子算法包括:其中,所述
<O
ω
>
和所述
<O
ω

>
均表征由所述变分量子算法得到的厄尔米特观测值,所述厄尔米特观测值由所述车辆状态信息

所述车辆周围环境信息和所述变分量子算法的参数确定,所述
ω
和所述
ω

均表征所述候选动作数据,所述
P
m
表征量子态到特征值为
m
的本征空间
M
上的投影,所述
π
Ω
表征所述策略信息,所述
s
表征所述车辆状态信息和所述车辆周围环境信息,所述
Ω
表征策略参数,所述
β
表征玻尔兹曼探索方法的温度系数
。6.
根据权利要求2所述的方法,其特征在于,所述针对所述安全信息进行加权及折扣处
理,得到与每个所述行驶路径对应的奖励函数值包括:理,得到与每个所述行驶路径对应的奖励函数值包括:其中,所述
G
i,t
表征与第
i
个行驶路径对应的所述奖励函数值,所述
H
表征与第
i
个行驶路径对应的总的时刻数,所述
γ
表征折扣因子,所述
t
表征所述时刻中的起始时刻,所述
c
表征加权后的所述安全信息,所述
Γ
表征权重系数...

【专利技术属性】
技术研发人员:张瑞江贾庆山王旭
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1