一种自适应频率绿灯优化速度咨询模型学习系统及方法技术方案

技术编号：38904150 阅读：15 留言：0更新日期：2023-09-22 14:22

本发明专利技术公开了一种自适应频率绿灯优化速度咨询模型学习系统及方法，包括交通信息获取模块、强化学习模块、奖励函数模块，所述交通信息获取模块的数据输出端与所述强化学习模块的数据输入端连接，所述强化学习模块的数据输出端与所述奖励函数模块的数据输入端连接；所述强化学习模块包括混合Actor网络和Critic网络；该系统及方法将速度咨询的频次转化为一系列自适应决策，并使用基于学习的方法从观察到的状态信息中学习相关特征，这使得车辆能够动态调整其驾驶状态，当交通场景发生变化时，车辆也可以及时调整行驶状态；本系统及方法可以根据动态交通流动态调整速度咨询频次，可以很好的适应交通的动态性和复杂性。好的适应交通的动态性和复杂性。好的适应交通的动态性和复杂性。

全部详细技术资料下载

【技术实现步骤摘要】
一种自适应频率绿灯优化速度咨询模型学习系统及方法

[0001]本专利技术涉及自动驾驶的
，具体为一种自适应频率绿灯优化速度咨询模型学习系统及方法。

技术介绍

[0002]近年来，对自动驾驶汽车速度建议的研究主要分为三种类型：基于规则的方法、基于优化的方法和基于学习的方法。其中，基于规则的方法使用数学公式和约束来训练策略，易于实现，但该方法需要专家知识，容易导致局部最优，且不适应动态交通。为了获得更好的性能，提出了基于优化的方法来解决上述缺陷。然而，基于优化的方法的缺点是计算时间大，并且没有考虑车辆的多种行为，如纵向速度控制、横向变道决策或超车等。为了满足更实时和动态的性能要求，提出了一种基于学习的方法来解决动态驾驶控制研究。
[0003]例如，采用Deep Q
‑
Network(DQN)方法控制车辆纵向速度，目的是减少因路口走走停停行为造成的延误和行驶时间。然而，在该研究中，需要一种基于规则的方法来确保在整个决策步骤中速度只改变一次。基于以上研究，根据咨询频次类型的不同，我们将速度咨询分为三种不同的模式，GLOSA系统为车辆提供单一的速度咨询，并依靠基于规则的方法来确定最佳的速度变化模式(包括加速、减速或保持)，在进入速度引导区域后，车辆将其观测信息传输给GLOSA系统进行分析。系统评估状态信息，并确定车辆是否可以在绿灯期间保持当前速度通过十字路口。如果是，则不提供速度咨询配置文件。否则，该系统将为车辆提供最佳速度咨询配置文件。然而，这种方法不能很好适应交通流的动态性和复杂性。
>
技术实现思路

[0004]基于此，有必要提供一种自适应频率绿灯优化速度咨询模型学习系统及方法。
[0005]一种自适应频率绿灯优化速度咨询模型学习系统，包括交通信息获取模块、强化学习模块、奖励函数模块，所述交通信息获取模块的数据输出端与所述强化学习模块的数据输入端连接，所述强化学习模块的数据输出端与所述奖励函数模块的数据输入端连接；所述强化学习模块包括混合Actor网络和Critic网络。
[0006]在其中一个实施例中，所述交通信息获取模块获取的信息包括交通灯相位信息、周围车辆的行驶状态信息以及车载传感器的速度和位置信息。
[0007]在其中一个实施例中，所述混合Actor网络包括离散actor单元和连续actor单元，所述离散actor单元和连续actor单元共享同一个Encode层。
[0008]在其中一个实施例中，所述连续actor单元用于提供最优的加速度咨询文件。
[0009]在其中一个实施例中，所述模型学习系统还包括缓冲池模块，所述缓冲池模块用于存储轨迹信息。
[0010]在其中一个实施例中，所述轨迹信息包括agent的初始观察状态信息、模型生成的速度咨询动作信息、从环境中获得的奖励值信息以及agent执行咨询动作后的后续观察状态信息。
[0011]一种自适应频率绿灯优化速度咨询模型学习方法，
[0012]交通信息获取模块获取当前车辆信息发送给强化学习模块；
[0013]强化学习模块根据车辆当前状态评估是否需要进行速度咨询；是则进入下一步骤；
[0014]强化学习模块将加速度咨询配置文件发送给车辆和奖励函数模块；
[0015]车辆按加速度咨询配置文件的速度行驶；
[0016]奖励函数模块对加速度咨询配置文件的准确性进行评估。
[0017]在其中一个实施例中，当车辆不需要进行速度咨询时，则车辆进入速度咨询间隙期，并且保持当前行驶状态继续行驶。
[0018]上述一种自适应频率绿灯优化速度咨询模型学习系统及方法的有益效果为：该系统及方法将速度咨询的频次转化为一系列自适应决策，并使用基于学习的方法从观察到的状态信息中学习相关特征，这使得车辆能够动态调整其驾驶状态，当交通场景发生变化时，车辆也可以及时调整行驶状态；本系统及方法可以根据动态交通流动态调整速度咨询频次，可以有效地处理参数化动作空间任务，可以很好的适应交通的动态性和复杂性，同时，奖励函数模块的设定，同时考虑了车辆的出行效率和燃油消耗，节约了出行成本。
附图说明
[0019]图1为本专利技术的一种自适应频率绿灯优化速度咨询模型学习系统的结构示意图。
具体实施方式
[0020]为使本专利技术的上述目的、特征和优点能够更加明显易懂，下面结合附图对本专利技术的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术。但是本专利技术能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本专利技术内涵的情况下做类似改进，因此本专利技术不受下面公开的具体实施例的限制。
[0021]需要说明的是，当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。相反，当元件被称作“直接”与另一元件连接时，不存在中间元件。
[0022]除非另有定义，本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本专利技术。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0023]如图1所示，一种自适应频率绿灯优化速度咨询模型学习系统，包括交通信息获取模块100、强化学习模块200、奖励函数模块300，所述交通信息获取模块100的数据输出端与所述强化学习模块200的数据输入端连接，所述强化学习模块200的数据输出端与所述奖励函数模块300的数据输入端连接；所述强化学习模块200包括混合Actor网络和Critic网络。
[0024]在其中一个实施例中，所述交通信息获取模块100获取的信息包括交通灯相位信息、周围车辆的行驶状态信息以及车载传感器的速度和位置信息。
[0025]在其中一个实施例中，所述混合Actor网络包括离散actor单元和连续actor单元，所述离散actor单元和连续actor单元共享同一个Encode层。
[0026]在其中一个实施例中，所述连续actor单元用于提供最优的加速度咨询文件。
[0027]在其中一个实施例中，所述模型学习系统还包括缓冲池模块，所述缓冲池模块用于存储轨迹信息。
[0028]在其中一个实施例中，所述轨迹信息包括agent的初始观察状态信息、模型生成的速度咨询动作信息、从环境中获得的奖励值信息以及agent执行咨询动作后的后续观察状态信息。
[0029]一种自适应频率绿灯优化速度咨询模型学习方法，
[0030]交通信息获取模块100获取当前车辆信息发送给强化学习模块200；
[0031]强化学习模块200根据车辆当前状态评估是否需要进行速度咨询；是则进入下一步骤；
[0032]强化学习模块200将加速度咨询配置文件发送给车辆和奖励函数模块300；
[0033]车辆按加速度咨询配置文件的速度行驶；
[0034]奖励函数模块30本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种自适应频率绿灯优化速度咨询模型学习系统，其特征在于，包括交通信息获取模块、强化学习模块、奖励函数模块，所述交通信息获取模块的数据输出端与所述强化学习模块的数据输入端连接，所述强化学习模块的数据输出端与所述奖励函数模块的数据输入端连接；所述强化学习模块包括混合Actor网络和Critic网络。2.根据权利要求1所述的一种自适应频率绿灯优化速度咨询模型学习系统，其特征在于，所述交通信息获取模块获取的信息包括交通灯相位信息、周围车辆的行驶状态信息以及车载传感器的速度和位置信息。3.根据权利要求1所述的一种自适应频率绿灯优化速度咨询模型学习系统，其特征在于，所述混合Actor网络包括离散actor单元和连续actor单元，所述离散actor单元和连续actor单元共享同一个Encode层。4.根据权利要求3所述的一种自适应频率绿灯优化速度咨询模型学习系统，其特征在于，所述连续actor单元用于提供最优的加速度咨询文件。5.根据权利要求1所述...

【专利技术属性】
技术研发人员：许明，左东宇，张晶，
申请(专利权)人：辽宁工程技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人