System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自动驾驶,特别是涉及一种基于马尔可夫决策过程与门控循环单元的混合a*自动驾驶接驳车泊车路径规划方法。
技术介绍
1、自动驾驶技术是当今科技领域的一项重要进展,其在改善交通安全、提高交通效率和改变出行方式等方面具有巨大潜力。然而,要实现完全自动驾驶,不仅需要车辆具备准确的感知和决策能力,还需要能够有效应对各种复杂路况的路径规划算法。在自动驾驶接驳车这一应用场景中,泊车路径规划是一个具有挑战性的任务,尤其是在复杂环境下,如停车场、道路交通拥堵等情况下。
2、传统的路径规划算法,如a算法,在静态环境下能够很好地工作,但在面对动态环境和不确定性因素时,往往无法取得良好的效果。为了克服这一问题,本专利技术提出了一种全新的泊车路径规划算法,将马尔可夫决策过程和门控循环单元(gru)神经网络与经典的a搜索算法相结合,实现了对泊车环境的动态预测和路径规划的自适应优化。
技术实现思路
1、本专利技术的目的是针对现有技术中存在的技术缺陷,而提供一种基于马尔可夫决策过程与门控循环单元的混合a*自动驾驶接驳车泊车路径规划方法。
2、为实现本专利技术的目的所采用的技术方案是:
3、一种基于马尔可夫决策过程与门控循环单元的混合a*自动驾驶接驳车泊车路径规划方法,包括以下步骤:
4、步骤1,环境建模与状态定义:根据马尔可夫决策过程建立泊车环境模型对停车场路径规划进行描述,定义车辆状态、动作和环境状态的转移概率;
5、步骤2,路径规划与优化
6、步骤3,环境变化学习:利用门控循环单元网络(gru网络)学习环境变化对路径规划的影响,自适应调整路径搜索策略,优化路径规划结果;
7、步骤4,路径决策与更新:根据环境变化和学习结果动态更新泊车路径,实现对复杂环境的快速适应和优化决策。
8、在上述技术方案中,所述步骤1中,建立泊车环境模型时,停车场环境表示为一个二维网格g=(n,e),其中n是网格的节点集合,表示停车位和行驶路径的集合,e是边的集合,表示节点之间的可行驶路径,每个节点n∈n被赋予一个状态sn,该状态为“0”或“1”或“2”,“0”表示空闲停车位,“1”表示占用停车位,“2”表示行驶路径。
9、在上述技术方案中,所述步骤1中,车辆状态s用三元组(x,y,θ,v)表示,其中:(x,y)表示车辆在停车场网格中的位置坐标,θ表示车辆的朝向,v表示车辆的速度。
10、在上述技术方案中,所述步骤1中,动作用动作集合a={a1,a2,a3,a4}表示,其中:a1表示前进,a2表示后退,a3表示左转,a4表示右转。
11、在上述技术方案中,所述步骤1中,动作和环境状态的转移概率p(s′|s,a)表示从当前状态s执行动作a转移到状态s′的概率,基于统计数据或专家知识进行估计;
12、对于前进动作a1,转移概率表示为:
13、
14、在上述技术方案中,所述步骤1中,整个停车场路径规划通过马尔可夫决策过程(mdp)模型m=(s,a,p,r)来描述,其中:s是状态空间,a是动作空间,p是状态转移概率函数,r=s×a×p,r是奖励函数,表示从状态s执行动作a转移到状态s′所获得的奖励。
15、在上述技术方案中,所述步骤1中,状态和动作通过向量和矩阵进行编码,状态(x,y,θ,v)用四维向量表示,动作a用一个整数或枚举类型表示,状态转移概率p用三维矩阵表示,每个元素psas′表示从状态s通过动作a转移到状态s′的概率。。
16、在上述技术方案中,所述步骤2中,使用混合a*算法进行初始路径规划时,定义启发式函数h(n)估计从节点n到目标节点g的最小代价,对于每个节点n,总代价函数f(n)定义为:
17、f(n)=g(n)+h(n),其中,g(n)表示从起始节点到节点n的实际代价,h(n)是启发式估计从节点n到目标节点的代价。
18、在上述技术方案中,所述步骤2中,定义状态s和动作a的结果函数r(s,a)和成本函数c(s,a),r(s,a)预测执行动作a后车辆的新状态,c(s,a)表示执行动作a的成本,包括时间成本和能耗成本,成本函数定义为:c(s,a)=α·t(s,a)+β·e(s,a),其中,t(s,a)和e(s,a)分别表示执行动作a时的时间成本和能耗成本,α和β是调节两者重要性的权重系数。
19、在上述技术方案中,所述步骤2中,利用优化函数o(p)优化初始路径,p表示一条路径,o(p)=γ·l(p)+δ·t(p)+∈·e(p),l(p)表示路径的长度,t(p)表示路径的总时间成本,e(p)表示路径的总能耗成本,γ、δ、和∈是调节各成本因素重要性的权重系数。
20、在上述技术方案中,所述步骤3中,gru网络通过下面的公式来更新其状态:更新门zt=σ(wz·[ht-1,xt]+bz),重置门rt=σ(wr·[ht-1,xt]+br),候选隐藏状态最终隐藏状态其中,xt是在时间t的输入,ht是时间t的隐藏状态,σ表示sigmoid函数,wz,wr,w和bz,br,b是网络参数。
21、在上述技术方案中,所述步骤3中,gru网络的训练目标是最小化预测输出和实际输出之间的损失函数,预测输出为实际输出为yt,损失函数l为:其中n是样本的总数,t是序列的长度,通过反向传播算法和梯度下降方法优化网络参数。
22、在上述技术方案中,所述步骤3中,gru网络的评估通过计算模型在测试集上的预测准确度进行,设定模型在测试集上的平均损失为:其中,m是测试集中样本的数量。
23、在上述技术方案中,所述步骤4中,实时环境检测通过感知设备数据表示为一个连续的环境状态流{e1,e2,...,et},其中et表示在时间t的环境状态,包括车辆位置、停车位状态,数学化为:et={(xi,yi,si)|i∈所有检测对象},其中,(xi,yi)表示第i个对象的位置,si表示其状态。
24、在上述技术方案中,所述步骤4中,当环境状态et发生变化时,重新计算路径,设pcurrent表示当前路径,更新后的路径pnew通过最小化路径成本函数c(p)获得:
25、pcurrent=pnew
26、pnew=argminpc(p|et)
27、路径成本函数c(p|et)可以根据新的环境状态et以及车辆的当前状态scar定义。
28、在上述技术方案中,所述步骤4中,根据更新的路径pnew,做出路径决策涉及选择一系列动作{a1,a2,...,an},使车辆沿pnew移动,每一步动作at的选择基于优化目标,最短时间或最低能耗:at=argminac(a|scar,et)其中,c(a|sar,et)表示在当前车辆状态scar和环境状态et下,执行动作a的成本。
...
【技术保护点】
1.一种基于马尔可夫决策过程与门控循环单元的混合A*自动驾驶接驳车泊车路径规划方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合A*自动驾驶接驳车泊车路径规划方法,其特征在于,所述步骤1中,建立泊车环境模型时,停车场环境表示为一个二维网格G=(N,E),其中N是网格的节点集合,表示停车位和行驶路径的集合,E是边的集合,表示节点之间的可行驶路径,每个节点n∈N被赋予一个状态sn,该状态为“0”或“1”或“2”,“0”表示空闲停车位,“1”表示占用停车位,“2”表示行驶路径。
3.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合A*自动驾驶接驳车泊车路径规划方法,其特征在于,所述步骤1中,车辆状态S用三元组(x,y,θ,v)表示,其中:(x,y)表示车辆在停车场网格中的位置坐标,θ表示车辆的朝向,v表示车辆的速度。
4.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合A*自动驾驶接驳车泊车路径规划方法,其特征在于,所述步骤1中,整个停车场路径规划通过马尔可夫决策过程(MD
5.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合A*自动驾驶接驳车泊车路径规划方法,其特征在于,所述步骤2中,使用混合A*算法进行初始路径规划时,定义启发式函数h(n)估计从节点n到目标节点g的最小代价,对于每个节点n,总代价函数f(n)定义为:
6.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合A*自动驾驶接驳车泊车路径规划方法,其特征在于,所述步骤2中,利用优化函数O(P)优化初始路径,P表示一条路径,O(P)=γ·L(P)+δ·T(P)+∈·E(P),L(P)表示路径的长度,T(P)表示路径的总时间成本,E(P)表示路径的总能耗成本,γ、δ、和∈是调节各成本因素重要性的权重系数。
7.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合A*自动驾驶接驳车泊车路径规划方法,其特征在于,所述步骤3中,GRU网络通过下面的公式来更新其状态:更新门zt=σ(Wz@[ht-1,xt]+bz),重置门rt=σ(Wr·[ht-1,xt]+br),候选隐藏状态最终隐藏状态其中,xt是在时间t的输入,ht是时间t的隐藏状态,σ表示sigmoid函数,Wz,Wr,W和bz,br,b是网络参数。
8.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合A*自动驾驶接驳车泊车路径规划方法,其特征在于,GRU网络的训练目标是最小化预测输出和实际输出之间的损失函数,预测输出为实际输出为yt,损失函数L为:其中N是样本的总数,T是序列的长度,通过反向传播算法和梯度下降方法优化网络参数。
9.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合A*自动驾驶接驳车泊车路径规划方法,其特征在于,所述步骤4中,实时环境检测通过感知设备数据表示为一个连续的环境状态流{E1,E2,...,Et},其中Et表示在时间t的环境状态,包括车辆位置、停车位状态,数学化为:Et={(xi,yi,si)|i∈所有检测对象},其中,(xi,yi)表示第i个对象的位置,si表示其状态。
10.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合A*自动驾驶接驳车泊车路径规划方法,其特征在于,所述步骤4中,当环境状态Et发生变化时,重新计算路径,设Pcurrent表示当前路径,更新后的路径Pnew通过最小化路径成本函数C(P)获得:
11.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合A*自动驾驶接驳车泊车路径规划方法,其特征在于,所述步骤4中,实时反馈通过观测到的环境状态变化ΔEt和车辆状态变化ΔScar,t来表示,动态调整路径决策过程:ΔEt=Et-Et-1,Et和Et-1是环境变化量的初始值和结束值,ΔScar,t=Scar,t-Scar,t-1,Scar,t和Scar,t-1是车辆状态变化量的初始值和结束值,动态调整路径表示为:Padjusted=argminPC(P|Scar,t+ΔScar,t,Et+ΔEt)。
...【技术特征摘要】
1.一种基于马尔可夫决策过程与门控循环单元的混合a*自动驾驶接驳车泊车路径规划方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合a*自动驾驶接驳车泊车路径规划方法,其特征在于,所述步骤1中,建立泊车环境模型时,停车场环境表示为一个二维网格g=(n,e),其中n是网格的节点集合,表示停车位和行驶路径的集合,e是边的集合,表示节点之间的可行驶路径,每个节点n∈n被赋予一个状态sn,该状态为“0”或“1”或“2”,“0”表示空闲停车位,“1”表示占用停车位,“2”表示行驶路径。
3.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合a*自动驾驶接驳车泊车路径规划方法,其特征在于,所述步骤1中,车辆状态s用三元组(x,y,θ,v)表示,其中:(x,y)表示车辆在停车场网格中的位置坐标,θ表示车辆的朝向,v表示车辆的速度。
4.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合a*自动驾驶接驳车泊车路径规划方法,其特征在于,所述步骤1中,整个停车场路径规划通过马尔可夫决策过程(mdp)模型来描述,其中:s是状态空间,a是动作空间,p是状态转移概率函数,r=s×a×p,r是奖励函数,表示从状态s执行动作a转移到状态s′所获得的奖励;
5.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合a*自动驾驶接驳车泊车路径规划方法,其特征在于,所述步骤2中,使用混合a*算法进行初始路径规划时,定义启发式函数h(n)估计从节点n到目标节点g的最小代价,对于每个节点n,总代价函数f(n)定义为:
6.如权利要求1所述的一种基于马尔可夫决策过程与门控循环单元的混合a*自动驾驶接驳车泊车路径规划方法,其特征在于,所述步骤2中,利用优化函数o(p)优化初始路径,p表示一条路径,o(p)=γ·l(p)+δ·t(p)+∈·e(p),l(p)表示路径的长度,t(p)表示路径的总时间成本,e(p)表示路径的总能耗成本,γ、δ、和∈是调节各成本因素重要性的权重系数。
7.如权利要求1所述的一种基于马尔可夫决策过程与门控循环...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。