考虑周围车辆社会偏好的自动驾驶行为决策系统技术方案

技术编号：41326772 阅读：5 留言：0更新日期：2024-05-13 15:04

本发明专利技术涉及一种考虑周围车辆社会偏好的自动驾驶行为决策系统，用于解决现有交通环境中因驾驶员社会偏好具有不确定性而导致自动驾驶决策困难的问题。本方案采用分层强化学习实现自动驾驶行为决策，其元控制器利用自主车辆的历史状态进行保持车道继续行驶、换道或返回原车道决策选择；其中返回原车道为自主车辆通过中断换道实现，中断条件为其刚开始换道或在换道过程中车身边缘刚接触目标车道邻侧车道线时，根据当前时刻状态识别出目标车道后方车辆社会偏好类型为利己型；控制器为基于状态历史信息，进行自主车辆在本车道或者邻车道中心线上的目标轨迹采样点规划；元控制器和控制器采用相同的包括基于周围车辆的社会偏好进行目标决策的奖励计算。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多车道自动驾驶车辆的行为决策，尤其涉及一种考虑周围车辆社会偏好的自动驾驶行为决策系统。

技术介绍

1、相较于驾驶风格的相对稳定性，在交互式驾驶场景中不足以体现驾驶人因心情、心态等某些可变因素，而可能发生的社会价值取向临时变化，因此引入了心理学中的“社会偏好”，根据社会心理学的定义，社会偏好是指人与生俱来的社会性在偏好层面的体现。根据驾驶员社会价值取向的偏好差异性，可将周围车辆驾驶员不同的社会价值取向分为利己性、互惠性和利他性三种类型。

2、在面对周围车辆存在社会偏好不确定性的动态场景，基于规则的自动驾驶行为决策设计较为困难，基于社会偏好与博弈算法结合、基于驾驶风格与换道规则变道结合等方案，这些预定义的规则不能涵盖交互场景中的所有可能情况。而基于强化学习（rl）的行为决策技术，通过自主车辆（agent）与环境（env）的不断交互产生奖励（reward），利用reward不断改善agent策略，虽然可以在一定程度上提升自动驾驶在交互驾驶场景中的性能，但由于交互驾驶场景中不确定性的因素，经典的rl行为决策算法面临奖励稀疏、训练强度大、空间维度大等问题，尤其对于自动驾驶车辆换道途中需要返回原车道的情形，训练过程中收敛效率低下。基于目标（goal）的分层强化学习 (hrl) 自动驾驶行为决策算法 h-dqn，具有结构简单，虽然可以大大改善状态空间维度和收敛速度的优点，但是h-dqn算法面临目标goal需要完全执行完毕的状况，即目标 goal 会一直保持到该目标被实现或者到训练序列完成即达终止状态，并不适应换道过程

技术实现思路

1、为了解决现有技术中存在的上述问题，本专利技术的目的在于提出一种考虑周围车辆社会偏好的自动驾驶行为决策系统，以适用于周围存在人工驾驶车辆的混合交通环境。为实现上述技术目的，具体技术方案如下。

2、第一方面，本案提出一种考虑周围车辆社会偏好的自动驾驶行为决策系统，所述系统采用分层强化学习实现自动驾驶行为决策，包括元控制器（meta-controller）和控制器（controller）；所述元控制器，被配置为根据自主车辆状态历史信息ht=(st-2,st-1,st)进行保持车道继续行驶、换道或返回原车道决策选择；其中：状态st包括自主车辆时刻t的行车状况、自主车辆感知范围内最近k辆车时刻t的行车状况、周围车辆的社会偏好类型，k为设定值；社会偏好类型包括利己型、互惠型、利他型，返回原车道为自主车辆通过中断换道实现，中断条件为其刚开始换道或在换道过程中车身边缘刚接触目标车道邻侧车道线时，其根据当前时刻状态识别出目标车道后方车辆社会偏好类型为利己型；所述控制器，被配置为基于状态历史信息ht=(st-2,st-1,st)，进行自主车辆在本车道或者邻车道中心线上的目标轨迹采样点规划；所述系统的元控制器和控制器采用相同的奖励策略，所述奖励策略包括基于周围车辆的社会偏好进行目标决策的奖励计算。

3、在上述技术方案的一种实施方式中，周围车辆的社会偏好类型的识别机制为：若为目标车道后车，则通过关键点触发社会偏好识别，关键点分别为：刚进入自主车辆感知范围内、在自主车辆刚开始换道时、在自主车辆车身边缘刚接触目标车道邻侧车道线时；若为自主车辆所在车道的前车，则实时进行社会偏好识别；若为自主车辆感知范围内意图切入自主车辆所在车道的邻车道前方车辆，则在判断出意图后触发社会偏好识别。

4、在上述技术方案的一种实施方式中，基于周围车辆的社会偏好进行目标决策的奖励计算如下：rpre= rpre_t+ rpre_cutin + rpre_front；其中：如果在邻车道后方车辆进入自主车辆感知范围时，根据当前时刻的状态对邻车道后方车辆所识别出的社会偏好cpre_t_range为利己型，元控制器的目标决策为保持车道继续行驶，则目标决策的奖励rpre_t为r1，否则为0；如果在自主车辆刚开始换道时，根据当前此时刻的状态对其感知范围内的目标车道后方车辆所识别出的社会偏好cpre_t_change为利己型，元控制器的目标决策为返回原车道，则目标决策的奖励rpre_t为r2，否则为0；如果在自主车辆车身边缘刚接触目标车道邻侧车道线时，根据当前时刻的状态对其感知范围内的目标车道后方车辆所识别出的社会偏好cpre_t _cross为利己型，元控制器的目标决策为返回原车道，则目标决策的奖励rpre_t为r3，否则为0；如果对具有切入本车道意图的邻车道前车所识别出的社会偏好cpre_cutin为利己型，元控制器的目标决策为保持车道继续行驶，且控制器在纵向方向的路径采样步长为纵向方向最短采样步长，则目标决策的奖励rpre_cutin为r4，否则为0；如果对本车道前方车辆实时所识别出的社会偏好cpre_front为利己型，元控制器的目标决策为保持车道继续行驶，且控制器令自主车辆选择最快的速度和最长的纵向采样步长，则目标决策的奖励rpre_front为-r5，否则为0；r1、r2、r3、r4、r5为设定的大于0的奖励值。

5、在上述技术方案的一种实施方式中，采用第一社会偏好识别模型对刚进入自主车辆感知范围内的邻车道后车社会偏好和本车道前车的社会偏好进行识别；

6、第一社会偏好识别模型采用svm（支持向量机）构建，训练数据为利用聚类算法对ngsim数据集中保持车道行驶且邻车道车辆未进行换道的工况行车数据进行社会偏好分类后的数据，用于分类的提取的特征包括：车辆纵向速度均值、车辆纵向速度最大值、车辆纵向速度标准差、车辆纵向加速度均值、车辆纵向加速度最大值、车辆纵向速度标准差、车辆与前车的间距均值、车辆与前车的间距最小值、车辆与前车的间距标准差。

7、在上述技术方案的一种实施方式中，采用第二社会偏好识别模型对在自主车辆刚开始换道时其感知范围内的目标车道后方车辆的社会偏好、在自主车辆车身边缘刚接触目标车道邻侧车道线时其感知范围内的目标车道后方车辆的社会偏好进行识别；第二社会偏好识别模型采用svm构建，训练数据为采用聚类算法对ngsim数据集中的换道成功和换道未成功返回原车道的数据中的截取数据进行社会偏好分类后的数据，前者截取从换道起点至邻车道线的这一过程中与后方车辆的交互数据，后者截取从换道起点行驶至换道中止点返回点的这一过程中与后方车辆的交互数据；第二社会偏好识别模型用于分类的特征包括：目标车道后车纵向速度均值、目标车道后车纵向最大速度、目标车道后车纵向速度标准差、目标车道后车纵向加速度均值、目标车道后车纵向最大加速度、目标车道后车纵向加速度标准差、目标车道后车纵向急动度均值、目标车道后车纵向最大急动度均值、目标车道后车纵向急动度标准差、换道车辆与目标车道后车纵向平均速度之差、换道车辆与目标车道后车纵向速度之差标准差、换道车辆与目标车道后车纵向平均加速度之差、换道车辆与目标车道后车纵向加速度之差标准本文档来自技高网...

【技术保护点】

1.一种考虑周围车辆社会偏好的自动驾驶行为决策系统，其特征在于：

2.根据权利要求1所述的系统，其特征在于，周围车辆的社会偏好类型的识别机制根据工况不同，具体为：

3.根据权利要求1所述的系统，其特征在于：

4.根据权利要求2所述的系统，其特征在于：

5.根据权利要求2所述的系统，其特征在于：

6.根据权利要求2所述的系统，其特征在于：

7.根据权利要求2所述的系统，其特征在于：

8.根据权利要求1所述的系统，其特征在于，自主车辆的当前行车状况包括：纵向速度、横向速度、偏航角、自主车辆车道标识。

9.根据权利要求1所述的系统，其特征在于，自主车辆感知范围内最近的K辆车的当前行车状况包括：相对纵向距离、相对横向距离、相对横向速度、相对纵向速度、纵向加速度、横向加速度、K辆车各自所在的车道标识。

10.一种计算机可读存储介质，其特征在于：存储有能够被处理器加载并执行如权利要求1至9中任一种方法的计算机程序。

【技术特征摘要】