一种集中式车群决策控制方法、装置及电子设备制造方法及图纸

技术编号:32503516 阅读:9 留言:0更新日期:2022-03-02 10:12
本申请提供的集中式车群决策控制方法、装置及电子设备,应用于路侧智能设备,通过获取当前控制区域中各车辆的车辆行驶信息和各路侧感知设备检测到的道路交通状态信息,以得到当前控制区域下交通环境的全局感知信息;基于预设的车群决策控制模型,根据全局感知信息,确定各车辆的驾驶决策,并将驾驶决策发送到各车辆;在各车辆按照驾驶决策行驶后,重新检测当前控制区域下交通环境的全局感知信息,得到更新后的全局感知信息;根据更新后的全局感知信息和各车辆的驾驶决策,优化车群决策控制模型。通过利用路侧智能设备对车群进行集中决策控制,每次模型优化也仅针对路侧智能设备中的车群决策控制模型,提高了车辆自动驾驶决策的控制效率。控制效率。控制效率。

【技术实现步骤摘要】
一种集中式车群决策控制方法、装置及电子设备


[0001]本申请涉及车辆控制
,尤其涉及一种集中式车群决策控制方法、装置及电子设备。

技术介绍

[0002]现代城市交通中,辅助驾驶/自动驾驶作为最有潜力改善交通状况、提升出行安全与便捷程度的方式,受到越来越多的关注。现代社会的道路交通条件十分复杂,存在机动车数量多且车流密度大的特点,因此,为了提高车辆行车安全,如何基于全局信息进行车群决策控制成为了重点研究内容。
[0003]在现有技术中,通常是当前车辆将获取的感知信息与其他车辆进行共享,每辆车基于全局环境状态信息分别进行决策。
[0004]但是,基于全局环境信息同时训练多个自动驾驶策略的难度大、时间长,且车载计算设备难以满足算力需求,无法保证车辆自动驾驶决策的控制效率。

技术实现思路

[0005]本申请提供一种集中式车群决策控制方法、装置及电子设备,以解决现有技术无法保证车辆自动驾驶决策的控制效率等缺陷。
[0006]本申请第一个方面提供一种集中式车群决策控制方法,应用于路侧智能设备,所述方法包括:获取当前控制区域中各车辆的车辆行驶信息和各路侧感知设备检测到的道路交通状态信息,以得到所述当前控制区域下交通环境的全局感知信息;基于预设的车群决策控制模型,根据所述全局感知信息,确定各所述车辆的驾驶决策,并将所述驾驶决策发送到各所述车辆,以使各所述车辆按照所述驾驶决策行驶;在各所述车辆按照所述驾驶决策行驶后,重新检测所述当前控制区域下交通环境的全局感知信息,以得到更新后的全局感知信息;根据所述更新后的全局感知信息和各所述车辆的驾驶决策,优化所述车群决策控制模型。
[0007]可选的,所述基于预设的车群决策控制模型,根据所述全局感知信息,确定各所述车辆的驾驶决策,包括:将所述全局感知信息输入到所述车群决策控制模型,以得到车群的联合动作集合;根据所述联合动作集合,确定各所述车辆的驾驶决策;其中,所述驾驶决策包括驾驶动作。
[0008]可选的,在根据所述更新后的全局感知信息和各所述车辆的驾驶决策,优化所述车群决策控制模型之前,所述方法包括:根据更新后的全局感知信息和各所述车辆的驾驶决策,确定车群的联合奖励;
对所述更新后的全局感知信息、当前各所述车辆的驾驶决策、车群的联合奖励和原始的全局感知信息进行数据整合,得到所述车群决策控制模型的学习经历数据;将所述学习经历数据存储至回放缓冲区。
[0009]可选的,所述根据所述更新后的全局感知信息和各所述车辆的驾驶决策,优化所述车群决策控制模型,包括:从所述回放缓冲区中提取多条学习经历数据,并将所述多条学习经历数据作为模型训练样本;计算各所述模型训练样本的目标价值;根据各所述模型训练样本的目标价值,更新所述车群决策控制模型中的评价网络和策略网络的参数,以优化所述车群决策控制模型。
[0010]可选的,所述计算各所述模型训练样本的目标价值,包括:针对每个模型训练样本,基于预设的目标策略网络,根据所述模型训练样本中包含的原始的全局感知信息,确定各所述车辆的目标驾驶决策;基于预设的目标评价网络,根据各所述车辆的目标驾驶决策,评价所述目标策略网络;根据所述模型训练样本中包含的车群的联合奖励和所述目标策略网络的评价结果,确定所述模型训练样本的目标价值。
[0011]可选的,所述根据各所述模型训练样本的目标价值,更新所述车群决策控制模型中的评价网络的参数,包括:基于预设的评价网络损失函数,根据各所述模型训练样本的目标价值和该评价网络得到的当前策略网络的评价结果,确定所述评价网络的损失;以最小化所述评价网络的损失为目标,更新所述评价网络的参数。
[0012]可选的,所述更新所述车群决策控制模型中的策略网络的参数,包括:基于预设的策略网络目标函数,参照更新后的评价网络,更新所述策略网络的参数。
[0013]本申请第二个方面提供一种集中式车群决策控制装置,应用于路侧智能设备,所述装置包括:获取模块,用于获取当前控制区域中各车辆的车辆行驶信息和各路侧感知设备检测到的道路交通状态信息,以得到所述当前控制区域下交通环境的全局感知信息;决策模块,用于基于预设的车群决策控制模型,根据所述全局感知信息,确定各所述车辆的驾驶决策,并将所述驾驶决策发送到各所述车辆,以使各所述车辆按照所述驾驶决策行驶;信息更新模块,用于在各所述车辆按照所述驾驶决策行驶后,重新检测所述当前控制区域下交通环境的全局感知信息,以得到更新后的全局感知信息;优化控制模块,用于根据所述更新后的全局感知信息和各所述车辆的驾驶决策,优化所述车群决策控制模型。
[0014]可选的,所述决策模块,具体用于:将所述全局感知信息输入到所述车群决策控制模型,以得到车群的联合动作集合;
根据所述联合动作集合,确定各所述车辆的驾驶决策;其中,所述驾驶决策包括驾驶动作。
[0015]可选的,所述装置还包括:数据缓存模块,用于根据更新后的全局感知信息和各所述车辆的驾驶决策,确定车群的联合奖励;对所述更新后的全局感知信息、当前各所述车辆的驾驶决策、车群的联合奖励和原始的全局感知信息进行数据整合,得到所述车群决策控制模型的学习经历数据;将所述学习经历数据存储至回放缓冲区。
[0016]可选的,所述优化控制模块,具体用于:从所述回放缓冲区中提取多条学习经历数据,并将所述多条学习经历数据作为模型训练样本;计算各所述模型训练样本的目标价值;根据各所述模型训练样本的目标价值,更新所述车群决策控制模型中的评价网络和策略网络的参数,以优化所述车群决策控制模型。
[0017]可选的,所述优化控制模块,具体用于:针对每个模型训练样本,基于预设的目标策略网络,根据所述模型训练样本中包含的原始的全局感知信息,确定各所述车辆的目标驾驶决策;基于预设的目标评价网络,根据各所述车辆的目标驾驶决策,评价所述目标策略网络;根据所述模型训练样本中包含的车群的联合奖励和所述目标策略网络的评价结果,确定所述模型训练样本的目标价值。
[0018]可选的,所述优化控制模块,具体用于:基于预设的评价网络损失函数,根据各所述模型训练样本的目标价值和该评价网络得到的当前策略网络的评价结果,确定所述评价网络的损失;以最小化所述评价网络的损失为目标,更新所述评价网络的参数。
[0019]可选的,所述优化控制模块,具体用于:基于预设的策略网络目标函数,参照更新后的评价网络,更新所述策略网络的参数。
[0020]本申请第三个方面提供一种电子设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一个方面以及第一个方面各种可能的设计所述的方法。
[0021]本申请第四个方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一个方面以及第一个方面各种可能的设计所述的方法。
[0022]本申请技术方案,具有如下优点:本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集中式车群决策控制方法,应用于路侧智能设备,其特征在于,所述方法包括:获取当前控制区域中各车辆的车辆行驶信息和各路侧感知设备检测到的道路交通状态信息,以得到所述当前控制区域下交通环境的全局感知信息;基于预设的车群决策控制模型,根据所述全局感知信息,确定各所述车辆的驾驶决策,并将所述驾驶决策发送到各所述车辆,以使各所述车辆按照所述驾驶决策行驶;在各所述车辆按照所述驾驶决策行驶后,重新检测所述当前控制区域下交通环境的全局感知信息,以得到更新后的全局感知信息;根据所述更新后的全局感知信息和各所述车辆的驾驶决策,优化所述车群决策控制模型。2.根据权利要求1所述的方法,其特征在于,所述基于预设的车群决策控制模型,根据所述全局感知信息,确定各所述车辆的驾驶决策,包括:将所述全局感知信息输入到所述车群决策控制模型,以得到车群的联合动作集合;根据所述联合动作集合,确定各所述车辆的驾驶决策;其中,所述驾驶决策包括驾驶动作。3.根据权利要求1所述的方法,其特征在于,在根据所述更新后的全局感知信息和各所述车辆的驾驶决策,优化所述车群决策控制模型之前,所述方法包括:根据更新后的全局感知信息和各所述车辆的驾驶决策,确定车群的联合奖励;对所述更新后的全局感知信息、当前各所述车辆的驾驶决策、车群的联合奖励和原始的全局感知信息进行数据整合,得到所述车群决策控制模型的学习经历数据;将所述学习经历数据存储至回放缓冲区。4.根据权利要求3所述的方法,其特征在于,所述根据所述更新后的全局感知信息和各所述车辆的驾驶决策,优化所述车群决策控制模型,包括:从所述回放缓冲区中提取多条学习经历数据,并将所述多条学习经历数据作为模型训练样本;计算各所述模型训练样本的目标价值;根据各所述模型训练样本的目标价值,更新所述车群决策控制模型中的评价网络和策略网络的参数,以优化所述车群决策控制模型。5.根据权利要求4所述的方法,其特征在于,所述计算各所述模型训练样本的目标价值,包括:针对每个模型训练样本,基于预设的目标策略网络,根据所述模型训练样...

【专利技术属性】
技术研发人员:李茹杨赵坤李雪雷邓琪魏辉卢丽华
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1