车辆行为决策方法、装置、设备及可读存储介质制造方法及图纸

技术编号：37504676 阅读：41 留言：0更新日期：2023-05-07 09:40

本发明专利技术提供一种车辆行为决策方法、装置、设备及可读存储介质。该方法包括：基于车辆的历史行驶环境以及历史决策指令构建专家规则库，其中，所述行驶环境包括车辆所在车道以及各个车道障碍物情况；基于所述专家规则库以及车辆在训练过程中的行驶环境对估值网络进行训练，直至训练次数达到预设次数时，得到训练完成的估值网络；将车辆当前时刻的行驶环境输入训练完成的估值网络中，得到训练完成的估值网络输出的决策指令。通过本发明专利技术，解决了目前车辆在复杂的空间环境中难以做出合理的决策控制的问题。控制的问题。控制的问题。

全部详细技术资料下载

【技术实现步骤摘要】
车辆行为决策方法、装置、设备及可读存储介质

[0001]本专利技术涉及自动驾驶
，尤其涉及一种车辆行为决策方法、装置、设备及可读存储介质。

技术介绍

[0002]由于矿区井下车辆混杂、空间狭束以及多坡急弯，所以车辆在矿区井下的行驶严重受限，利用传统决策控制方法由于缺乏环境变量与决策控制变量之间的推演机理，在复杂的矿区井下空间环境中难以做出合理的决策控制，很容易导致车辆行为决策失误、轨迹规划不可行以及跟踪误差增大等问题。

技术实现思路

[0003]本专利技术的主要目的在于提供一种车辆行为决策方法、装置、设备及可读存储介质，旨在解决目前车辆在复杂的空间环境中难以做出合理的决策控制的问题。
[0004]第一方面，本专利技术提供一种车辆行为决策方法，所述车辆行为决策方法包括：
[0005]基于车辆的历史行驶环境以及历史决策指令构建专家规则库，其中，所述行驶环境包括车辆所在车道以及各个车道障碍物情况；
[0006]基于所述专家规则库以及车辆在训练过程中的行驶环境对估值网络进行训练，直至训练...

【技术保护点】

【技术特征摘要】
1.一种车辆行为决策方法，其特征在于，所述车辆行为决策方法包括：基于车辆的历史行驶环境以及历史决策指令构建专家规则库，其中，所述行驶环境包括车辆所在车道以及各个车道障碍物情况；基于所述专家规则库以及车辆在训练过程中的行驶环境对估值网络进行训练，直至训练次数达到预设次数时，得到训练完成的估值网络；将车辆当前时刻的行驶环境输入训练完成的估值网络中，得到训练完成的估值网络输出的决策指令。2.如权利要求1所述的车辆行为决策方法，其特征在于，所述基于车辆的历史行驶环境以及历史决策指令构建专家规则库的步骤，包括：获取车辆的历史行驶环境与历史决策指令之间的对应关系；基于车辆的历史行驶环境与历史决策指令之间的对应关系构建专家规则库，其中，车辆的历史行驶环境包括车辆所在车道以及各个车道障碍物情况。3.如权利要求1所述的车辆行为决策方法，其特征在于，所述预设次数包括第一预设次数和第二预设次数，所述基于所述专家规则库以及车辆在训练过程中的行驶环境对估值网络进行训练，直至训练次数达到预设次数时，得到训练完成的估值网络的步骤，包括：获取车辆在训练过程中t时刻的行驶环境；将t时刻的行驶环境分别输入估值网络和所述专家规则库；检测专家规则库包含的车辆的历史行驶环境中是否存在与t时刻的行驶环境相同的目标历史行驶环境；若所述专家规则库包含的车辆的历史行驶环境中存在与t时刻的行驶环境相同的目标历史行驶环境，则获取所述目标历史行驶环境对应的目标历史决策指令和估值网络输出的第一决策指令；若所述专家规则库包含的车辆的历史行驶环境中不存在与t时刻的行驶环境相同的目标历史行驶环境，则基于贪心算法得到车辆在训练过程中t时刻的行驶环境对应的第二决策指令；获取车辆执行第一决策指令或第二决策指令后的额外奖励值、奖励值以及t+1时刻的行驶环境，其中，t+1时刻是t时刻的下一时刻；基于所述第一决策指令、所述目标历史决策指令和所述额外奖励值对奖励值进行更新，得到新的奖励值；以t时刻的行驶环境、第一决策指令或第二决策指令、新的奖励值以及t+1时刻的行驶环境作为一组训练数据，返回执行检测所述专家规则库包含的多种车辆的历史行驶环境中是否存在与车辆在训练过程中t时刻的行驶环境相同的目标历史行驶环境的步骤，直至得到N组训练数据，其中，N为正整数；从N组训练数据中任意选取一组训练数据，通过损失函数更新估值网络的权重；以t+1时刻的行驶环境作为t时刻的行驶环境，返回执行将t时刻的行驶环境分别输入估值网络和所述专家规则库的步骤，直至更新估值网络的权重的次数大于或等于第一预设次数，得到训练完成的估值网络，其中，将每经过第二预设次数更新后的估值网络的权重赋值给目标网络，第二预设次数小于第一预设次数。4.如权利要求3所述的车辆行为决策方法，其特征在于，所述基于所述第一决策指令、
所述目标历史决策指令和所述额外奖励值对奖励值进行更新，得到新的奖励值的步骤，包括：检测所述第一决策指令和所述目标历史决策指令是否相同；若检测结果为所述第一决策指令和所述目标历史决策指令相同，则计算奖励值加上额外奖励值的和，得到新的奖励值；若检测结果为所述第一决策指令和所述目标历史决策指令不相同，则计算奖励值减去额外奖励值的差值，得到新的奖励值。5.如权利要求3所述的车辆行为决策方法，其特征在于，所述从N组训练数据中任意选取一组训练数据，通过损失函数更新估值网络的权重的步骤，包括：将训练数据分别输入估值网络和目标网络，得到每组训练数据对应的估值网络输出的预测Q值和目标网络输出的目标Q值；...

【专利技术属性】
技术研发人员：王贝贝，许鑫，李兆干，殷政，王荣荣，毕雅梦，
申请(专利权)人：东风商用车有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人