当前位置: 首页 > 专利查询>同济大学专利>正文

多层次人类智能增强的自动驾驶车辆决策控制方法及系统技术方案

技术编号:39773713 阅读:30 留言:0更新日期:2023-12-22 02:22
本发明专利技术涉及一种多层次人类智能增强的自动驾驶车辆决策控制方法及系统,其中方法包括:采集人类驾驶员驾驶数据,利用逆强化学习算法训练得到奖励函数网络和预训练最优策略模型;初始化

【技术实现步骤摘要】
多层次人类智能增强的自动驾驶车辆决策控制方法及系统


[0001]本专利技术涉及自动驾驶的行为决策与控制领域,尤其是涉及一种多层次人类智能增强的自动驾驶车辆决策控制方法及系统


技术介绍

[0002]近年来,随着人工智能技术的不断发展进步,自动驾驶汽车技术也迎来快速升级迭代,逐步从规则型

优化型算法向模仿型

自进化型算法应用层面演进

强化学习方法作为其中的典型代表,以解决序列决策问题为目标,通过构建合理的奖励函数,使自动驾驶汽车在与行驶环境的交互中自主搜索可行的控制措施,并优化决策策略,在端到端自动驾驶策略中应用广泛

然而强化学习方法在动态

真实的交通环境下仍然面临学习速度慢

学习能力有限

可信度低的问题,与人类的控制行为存在较大差异


技术实现思路

[0003]本专利技术的目的是为了提供一种多层次人类智能增强的自动驾驶车辆决策控制方法及系统,在自动驾驶汽车训练过程中引入人本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种多层次人类智能增强的自动驾驶车辆决策控制方法,其特征在于,所述方法包括以下步骤:
S1、
采集人类驾驶员驾驶数据组成人类演示轨迹数据集,并利用逆强化学习算法训练得到奖励函数网络和预训练最优策略模型;
S2、
基于逆强化学习算法训练得到的奖励函数网络和预训练最优策略模型初始化
DDPG
控制模型经验回放池和网络参数,智能体利用采集的自动驾驶汽车当前时刻状态信息进行自主探索,并根据当前时刻状态信息

决策指令信息

奖励信息和下一时刻的状态信息更新经验回放池,构建训练数据集,对
DDPG
控制模型进行训练;
S3、
判断是否接收到人类驾驶员操纵指令,若接收到人类驾驶员操纵指令,则将人类驾驶员操纵指令作为决策指令,并用于步骤
S2
中更新训练数据集的经验回放池,否则,将
DDPG
控制模型根据输入的当前时刻状态信息得到的控制指令作为决策指令,并用于步骤
S2
中更新训练数据集的经验回放池;
S4、
基于步骤
S3
得到的决策指令,利用
MPC
控制器进行自动驾驶汽车的横纵向规划跟踪,得到下一时刻车辆控制量,对车辆进行控制
。2.
根据权利要求1所述的一种多层次人类智能增强的自动驾驶车辆决策控制方法,其特征在于,所述步骤
S1
中,采集人类驾驶员驾驶数据组成人类演示轨迹数据集具体为:利用车载平台或传感器采集自动驾驶车辆状态感知信息,以及每一时刻人类驾驶员的决策动作信息组成人类演示轨迹数据集
。3.
根据权利要求2所述的一种多层次人类智能增强的自动驾驶车辆决策控制方法,其特征在于,所述人类驾驶员的决策动作信息包括下一时刻的加速度和方向盘转角信息
。4.
根据权利要求1所述的一种多层次人类智能增强的自动驾驶车辆决策控制方法,其特征在于,所述步骤
S2
具体为:初始化经验回放池,其数据容量设计为
N
;初始化
DDPG
控制模型中的网络参数,包括价值网络
Q
的参数
φ

目标价值网络的参数策略网络
π
的参数
θ
和目标策略网络的参数获取预设时间间隔内的自动驾驶车辆的状态感知信息

智能体自主探索得到的控制指令信息

利用奖励函数网络得到的奖励信息以及下一时刻的状态信息,形成状态

动作

奖励值的数据对
(s
t
,a
t
,r
t
,s
t+1
)
,存储入经验回放池,其中,在智能体自主探索过程中,若获取到人类驾驶员操纵指令,则替换当前智能体自主探索得到的控制指令,并将数据存储进经验回放池;从包含自主探索和人类引导数据的经验回放池采样,构建训练数据集,更新价值网络
Q
的参数
φ
和策略网络
π
的参数
θ
。5.
根据权利要求1所述的一种多层次人类智能增强的自动驾驶车辆决策控制方法,其特征在于,所述步骤
S4
具体为:以决策指令作为
MPC
控制器的输入,将
MPC
控制器的规划任务分为纵向任务和横向任务分别进行运动规划,同时,在规划过程中引入安全性和舒适性约束,得到下一时刻自动驾驶汽车的期望加速度和方向盘转角,并利用
PID
控制器进行加速度跟踪,实现车辆控制
...

【专利技术属性】
技术研发人员:黄岩军李尚文袁康陈虹
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1