一种基于图神经网络强化学习的无人公交集群决策方法技术

技术编号：36749646 阅读：10 留言：0更新日期：2023-03-04 10:35

本发明专利技术公开了一种基于图神经网络强化学习的无人公交集群决策方法，本发明专利技术属于无人驾驶汽车领域，包括：S1获取无人驾驶公交的当前场景，将场景编码为图结构，获得第一状态；S2基于第一状态得到特征矩阵、邻接矩阵和掩码矩阵；S3将特征矩阵与邻接矩阵输入当前网络，通过掩码矩阵过滤后输出每辆无人驾驶公交的动作，根据内部动态奖励函数和能量消耗模型得到当前网络奖励值，产生第二状态，得到一个四元组；S4基于第二状态，执行S2

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图神经网络强化学习的无人公交集群决策方法

[0001]本专利技术属于无人驾驶汽车领域，特别是涉及一种基于图神经网络强化学习的无人公交集群决策方法。

技术介绍

[0002]强化学习是一种学习如何从状态映射到行为以使得获取的奖励最大的学习机制。这样的一个智能体不断地在环境中进行实验，通过环境给予的反馈来不断优化状态
‑
行为的对应关系。深度强化学习利用深度神经网络拟合Q值函数，极大提高了强化学习算法处理高维度状态空间的决策能力，在机器人控制、无人驾驶等领域得到了广泛的应用。
[0003]图神经网络是近年来出现的一种利用深度学习直接对图结构数据进行学习的框架，其优异的性能引起了学者高度的关注和深入的探索。通过在图中的节点和边上制定一定的策略，图神经网络将图结构数据转化为规范而标准的表示，并输入到多种不同的神经网络中进行训练，在节点分类、边信息传播和图聚类等任务上取得优良的效果。
[0004]目前的无人驾驶场景多集中于单一的场景片段，对于连续交互的交通任务场景缺乏进一步的研究。在不确定的交互式交通场景中，特别是无人公交车集群，其驾驶环境具有严格的动态特征和高度的不确定性，不同交通参与者的驾驶行为的影响将不断传递。在交通的整体层面上，所有的交通参与者都需要有效地合作。在决策层次，无人公交车集群需要综合考虑多种任务的完成、效率的提升、能量的节约与乘客的舒适性等，因此迫切需要更为高效、准确的多智能体决策技术来处理无人公交集群在连续交互式多任务交通场景的决策问题。

技术实现思路

>[0005]本专利技术的目的是提供一种基于图神经网络强化学习的无人公交集群决策方法，以解决上述现有技术存在的问题。
[0006]为实现上述目的，本专利技术提供了一种基于图神经网络强化学习的无人公交集群决策方法，包括以下步骤：
[0007]S1、获取无人驾驶公交的当前场景，将所述当前场景编码为图结构，获得第一状态；构建目标网络和当前网络，并对所述目标网络和当前网络分别进行初始化，其中，所述目标网络和所述当前网络均采用深度强化学习网络；
[0008]S2、基于所述第一状态获取第一状态矩阵；
[0009]S3、将所述第一状态矩阵输入所述当前网络，基于所述当前网络输出无人驾驶公交的动作，基于内部动态奖励函数和能量消耗模型得到当前网络奖励值，产生第二状态，基于所述第一状态、所述动作、所述当前网络奖励值和所述第二状态构成四元组；
[0010]S4、基于所述第二状态，执行S2
‑
S3，输出所述第二状态对应动作，得到对应奖励值，再次获得新的状态，循环执行S2
‑
S3，得到若干四元组；
[0011]S5、基于所述四元组，基于反向传播训练所述当前网络和所述目标网络，更新网络
参数，得到最终网络，所述无人公交群基于所述最终网络进行决策。
[0012]可选的，基于所述图结构获得第一状态矩阵,所述第一状态矩阵包括：特征矩阵、邻接矩阵和掩码矩阵。
[0013]可选的，所述S3中，基于所述第一状态矩阵实现无人驾驶车辆与环境交互的过程包括：所述深度强化学习网络包括图卷积神经网络；
[0014]基于图卷积神经网络提取当前环境场景内车辆的拓扑结构特征，其中，将所述特征矩阵和所述邻接矩阵输入到所述图卷积神经网络，得到特征信息矩阵；
[0015]将所述特征信息矩阵输入所述当前网络，经所述掩码矩阵过滤，输出每辆无人价值公交的动作；
[0016]基于所述动作，无人驾驶车与当前环境进行交互，得到所述当前网络奖励值，产生第二状态。
[0017]可选的，基于无人驾驶车与当前环境进行交互，通过设计内部动态奖励函数，计算得到所述当前网络的奖励值；
[0018]所述奖励函数包括激励函数和惩罚函数；
[0019]将激励函数乘以激励系数获得激励值，将惩罚函数乘以惩罚系数获得惩罚值，将所述激励值和惩罚值相加得到所述奖励函数的奖励函数值；
[0020]其中，所述奖励函数包括：基于车辆能源消耗与驾驶任务的result奖励函数、基于无人驾驶公交车的速度与等待时间的efficiency奖励函数、基于所述当前环境场景中所有车辆的加速度与换道次数的comfort奖励函数和基于安全时间的safe奖励函数。
[0021]可选的，基于所述车辆能源消耗模型计算得到所述能源消耗的过程包括：
[0022]基于车辆速度构建电机转速函数；基于车辆速度、车辆加速度和爬坡角度构建电机转矩函数；基于所述电机转速函数和所述电机转矩函数构建电机功率损失函数，基于所述电机功率损失函数计算每辆无人驾驶公交的电机损失功率；
[0023]基于车辆电池的内部化学模型和所述电机损失功率，得到电池消耗功率；
[0024]基于所述电池消耗功率得到无人驾驶公交的能源消耗。
[0025]可选的，基于四个所述奖励函数值，进一步优化奖励函数得到所述当前网络的奖励值，获取所述当前网络的奖励值的过程包括：将其中一类奖励函数的所述激励系数和所述惩罚系数设定为其他三类奖励函数的泛函，形成内部动态奖励函数，分别得到result奖励函数、efficiency奖励函数、comfort奖励函数和safe奖励函数的系数；
[0026]基于所述奖励函数与所述系数得到所述当前网络的奖励值。
[0027]可选的，所述系数为：
[0028]所述result奖励函数的系数为0.3；所述efficiency奖励函数的系数为0.2；所述comfort奖励函数的系数为0.2；所述safe奖励函数的系数为0.3。
[0029]可选的，所述S5中，基于所述四元组，利用反向传播训练所述当前网络和所述目标网络，更新网络参数的过程包括：
[0030]抽取多个四元组，基于所述四元组，计算得到目标网络的奖励值，基于所述目标网络的奖励值与所述四元组中当前网络的奖励值计算得到损失值；
[0031]固定所述目标网络，针对所述当前网络，通过反向传播计算梯度，使所述损失值最小，更新当前网络参数；
[0032]基于所述当前网络参数多次更新后，利用软更新方式更新目标网络参数。
[0033]本专利技术的技术效果为：
[0034]本专利技术基于图卷积神经网络中的一层卷积神经网络进行特征提取，避免了复杂特征的提取过程，降低了网络模型的复杂度；
[0035]本专利技术从任务的完成、效率的提升、能量的节约与乘客的舒适性四个角度分别设计了奖励函数。将场景建模为图结构，车辆之间的交互、车辆与信号灯之间的交互被建模，通过多层全连接网络与图卷积网络可精确计算出合适的动作。随着模型不断地训练，碰撞数在不断地降低、节能效果在不断地优化、总消耗时间在不断减少，这说明本专利技术提出的方法可达到在保证无人公交群在节能的同时，有效提升交通效率与交通安全性。
附图说明
[0036]构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络强化学习的无人公交集群决策方法，其特征在于，包括以下步骤：S1、获取无人驾驶公交的当前场景，将所述当前场景编码为图结构，获得第一状态；构建目标网络和当前网络，并对所述目标网络和当前网络分别进行初始化，其中，所述目标网络和所述当前网络均采用深度强化学习网络；S2、基于所述第一状态获取第一状态矩阵；S3、将所述第一状态矩阵输入所述当前网络，基于所述当前网络输出无人驾驶公交的动作，基于内部动态奖励函数和能量消耗模型得到当前网络奖励值，产生第二状态，基于所述第一状态、所述动作、所述当前网络奖励值和所述第二状态构成四元组；S4、基于所述第二状态，执行S2
‑
S3，输出所述第二状态对应动作，得到对应奖励值，再次获得新的状态，循环执行S2
‑
S3，得到若干四元组；S5、基于所述四元组，基于反向传播训练所述当前网络和所述目标网络，更新网络参数，得到最终网络，所述无人公交群基于所述最终网络进行决策。2.根据权利要求1所述的基于图神经网络强化学习的无人公交集群决策方法，其特征在于，基于所述图结构获得第一状态矩阵,所述第一状态矩阵包括：特征矩阵、邻接矩阵和掩码矩阵。3.根据权利要求2所述的基于图神经网络强化学习的无人公交集群决策方法，其特征在于，所述S3中，基于所述第一状态矩阵实现无人驾驶车辆与环境交互的过程包括：所述深度强化学习网络包括图卷积神经网络；基于图卷积神经网络提取当前环境场景内车辆的拓扑结构特征，其中，将所述特征矩阵和所述邻接矩阵输入到所述图卷积神经网络，得到特征信息矩阵；将所述特征信息矩阵输入所述当前网络，经所述掩码矩阵过滤，输出每辆无人价值公交的动作；基于所述动作，无人驾驶车与当前环境进行交互，得到所述当前网络奖励值，产生第二状态。4.根据权利要求3所述的基于图神经网络强化学习的无人公交集群决策方法，其特征在于，基于无人驾驶车与当前环境进行交互，通过设计内部动态奖励函数，计算得到所述当前网络的奖励值；所述奖励函数包括激励函数和惩罚函数；将激励函数乘以激励系数获得激励值，将惩罚函数乘以惩罚系数获得惩罚值，将所述激励值和惩罚值相加得到所述奖励函数的奖励函数值；其中，所述奖励函数包...

【专利技术属性】
技术研发人员：李雪原，高鑫，刘琦，朱昱铮，杨帆，朱嵩峰，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人