【技术实现步骤摘要】
一种构建自动驾驶决策系统的方法、系统和介质
本专利技术涉及智能车
,具体来说涉及自动驾驶行为决策
,更具体地说,涉及一种构建自动驾驶决策系统的方法、系统和介质。
技术介绍
行为决策技术是自动驾驶技术中一个至关重要的组成环节。目前,自动驾驶决策方法主要可分为两大类:基于规则的方法和基于学习的方法。基于规则的方法是硬编码的规则方法,是由人类专家精心手工设计的传统方法,比如决策树,有限状态机。基于规则的方法在概念上易于理解,但往往仅适用于特定的驾驶环境,对环境变化非常敏感,通用性差。而相比于硬编码的规则方法,基于学习的方法在处理更复杂环境中的驾驶决策问题方法更具优势。随着近年来深度学习的不断发展,基于学习的方法又可分为监督模仿学习和深度强化学习。监督模仿学习利用收集到的大量人类专家驾驶数据来学习策略,该类方法严重依赖于训练数据的质量和行为场景的数量、种类,无法很好地应对数据集中未涉及到的驾驶场景。而强化学习方法则是通过不断探索、试错来自主学习一个能够最大化累计奖励期望的最优策略,是当前自动驾驶决策问题的一个具有潜力的发 ...
【技术保护点】
1.一种构建自动驾驶决策系统的方法,所述自动驾驶决策系统包括强化学习模块和安全保障模块,所述安全保障模块包括基于规则的子模块和基于数据驱动的子模块,所述方法包括:/nA1、随机初始化强化学习模块和基于数据驱动的子模块的神经网络参数;/nA2、对自动驾驶决策系统依次进行第一学习阶段和第二学习阶段的训练,其中,每个学习阶段分别多次执行以下训练:/n用强化学习模块根据智能车的当前状态生成动作向量,用安全保障模块对动作向量进行纠正得到安全的动作向量,根据该安全的动作向量在任务环境中执行驾驶后产生新的状态和奖励值,并收集本次纠正前和纠正后的经验样本存入经验池;/n从经验池中随机采样经 ...
【技术特征摘要】
1.一种构建自动驾驶决策系统的方法,所述自动驾驶决策系统包括强化学习模块和安全保障模块,所述安全保障模块包括基于规则的子模块和基于数据驱动的子模块,所述方法包括:
A1、随机初始化强化学习模块和基于数据驱动的子模块的神经网络参数;
A2、对自动驾驶决策系统依次进行第一学习阶段和第二学习阶段的训练,其中,每个学习阶段分别多次执行以下训练:
用强化学习模块根据智能车的当前状态生成动作向量,用安全保障模块对动作向量进行纠正得到安全的动作向量,根据该安全的动作向量在任务环境中执行驾驶后产生新的状态和奖励值,并收集本次纠正前和纠正后的经验样本存入经验池;
从经验池中随机采样经验样本用于训练更新强化学习模块以及基于数据驱动的子模块的神经网络参数;
其中,第一学习阶段用基于规则的子模块对动作向量进行纠正,第二学习阶段用基于数据驱动的子模块对动作向量进行纠正得到的解析解作为安全的动作向量。
2.根据权利要求1所述的构建自动驾驶决策系统的方法,其特征在于,多次执行第一学习阶段的训练,在基于数据驱动的子模块学习到的纠正能力达到预设水平后进入第二学习阶段。
3.根据权利要求2所述的构建自动驾驶决策系统的方法,其特征在于,自动驾驶决策系统通过以下方式确认基于数据驱动的子模块学习到的纠正能力是否达到预设水平:
从经验池近期收集的经验样本中随机采样经验样本,用基于数据驱动的子模块根据采样的经验样本的当前状态和动作向量生成预测状态,计算预测状态与实际状态的相对误差,如果连续多次计算的相对误差均小于预设误差阈值,则判定基于数据驱动的子模块学习到的纠正能力已达到预设水平。
4.根据权利要求2所述的构建自动驾驶决策系统的方法,其特征在于,所述强化学习模块根据智能车的当前状态生成的动作向量、预测根据该动作向量在任务环境中执行驾驶后产生新的状态和奖励值,
所述经验样本包括不安全的经验样本和安全的经验样本,其中,不安全的经验样本是被安全保障模块纠正前由强化学习模块生成的样本,安全的经验样本是经过安全保障模块纠正后的安全的动作向量应用到实际的任务环境中生成的样本。
5.根据权利要求4所述的构建自动驾驶决策系统的方法,其特征在于,所述经验样本包括:当前状态、动作向量、新的状态、奖励值和安全约束值,其中,安全约束值为第一数值时表示该经验样本是安全的经验样本,安全约束值为第二数值时表示该经验样本是不安全的经验样本。
6.根据权利要求2所述的构建自动驾驶决策系统的方法,其特征在于,所述基于规则的子模块包括运动学自行车模型和比例调节器,所述基于规则的子模块根据当前状态和强化学习模块生成的动作向量在所述运动学自行车模型模拟智能车的运动以预测智能车在未来的两个时间步内是否能够保障驾驶的安全性,若是,则保留强化学习模块生成的动作向量不变,若否,则用比例调节器纠正强化学习模块生成的动作向量使其脱离不安全的动作取值。
7.根据权利要求6所述的构建自动驾驶决策系统的方法,其特征在于,所述基于数据驱动的子模块包括李雅普诺夫函数网络和汽车动力学模型网络,通过李雅普诺夫函数网络和汽车动力学模型网络预测并求解一个可纠正不安全动作的解析解作为安全的动作向量。
8.根据权利要求7所述的构建自动驾驶决策系统的方法,...
【专利技术属性】
技术研发人员:牛京玉,胡瑜,韩银和,李晓维,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。