【技术实现步骤摘要】
本申请涉及智能驾驶,特别是涉及一种智能驾驶策略的部署方法、装置、计算机设备、存储介质和计算机程序产品。
技术介绍
1、 随着汽车技术的快速发展,智能化已经成为汽车工业发展的重要方向。智能驾驶策略作为智能汽车的核心技术,对车辆的安全性、舒适性、能耗经济性都有着至关重要的影响。深度强化学习(deep reinforcement learning, drl)依赖智能体与环境的交互信息实现无模型策略优化,在线应用阶段的最优性与实时性不受模型精度限制。同时,drl通过引进经验回放、延迟奖励、以及梯度裁剪等先进的机器学习技术实现了深度学习与强化学习的兼容。以深度神经网络为载体的控制信息表征方式可以很好地适应智能交通环境的高维、连续状态空间,并对复杂的现实驾驶环境具有良好的拟合与泛化能力。
2、目前现有的智能驾驶策略模型主要是利用大量数据对大型深度神经网络进行训练得到,未考虑车端设备的内存和算力存在限制的问题。由于大型深度教师网络模型所占内存较大,计算成本较高,因此当车端设备上的大型深度教师网络模型工作时,会导致基于驾驶环境信息预测控制动
...【技术保护点】
1.一种智能驾驶策略的部署方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述针对当前的第一训练样本,通过初始教师模型对所针对的第一训练样本进行处理,得到所述训练车辆在所针对第一训练样本对应的交通环境下对应的第一预测控制动作,基于所述第一预测控制动作与所针对第一训练样本的第一标签之间的差异,调整所述初始教师模型的参数,还包括:
4.根据权利要求1所述的方法,其特征在于,所述通过知识蒸馏方式训练所述初始学生模型,以使得所述初始学生模型与所述教师网络
...【技术特征摘要】
1.一种智能驾驶策略的部署方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述针对当前的第一训练样本,通过初始教师模型对所针对的第一训练样本进行处理,得到所述训练车辆在所针对第一训练样本对应的交通环境下对应的第一预测控制动作,基于所述第一预测控制动作与所针对第一训练样本的第一标签之间的差异,调整所述初始教师模型的参数,还包括:
4.根据权利要求1所述的方法,其特征在于,所述通过知识蒸馏方式训练所述初始学生模型,以使得所述初始学生模型与所述教师网络模型之间的性能差异处于预设范围,获得训练好的学生网络模型,包括:
5.根据权利要求4所述的方法,其特征在于,所述初始学生模型包括多组候选网络模型,所述基于每个第二训练样本的第二标签与对应的第二预测控制动作之间的差异,调整所述初始学生模型的参数,直至第二训练...
【专利技术属性】
技术研发人员:安孝文,李嘉奇,吕颖,刘秋铮,左奇,王嘉琦,
申请(专利权)人:中国第一汽车股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。