【技术实现步骤摘要】
本专利技术涉及车载网络通信领域,特别涉及是一种基于离线强化学习的驾驶控制方法、装置、设备以及存储介质。
技术介绍
1、近年来,随着人工智能的快速发展,机器学习应用于各个领域中,其中就包括强化学习,一种机器学习的方式,但是,在驾驶控制汽车领域应用强化学习的一个重要障碍是安全性。在在线设置中,由于在线强化学习通过试错的方法去学习,可能导致探索代理可以选择导致灾难性故障的动作,潜在地危及乘客的生命。
2、离线强化学习是一种基于数据驱动的强化学习,他可以有效的利用先前收集好的数据进行良好的学习,且不需要与环境进行交互,以达到训练良好策略的效果,实现驾驶控制中的安全、有效学习。然而,现有的离线强化学习算法大多是基于策略约束,同时面临着数据分布偏移的问题,导致数据利用率低下,难以对车辆进行精准、安全的驾驶控制。
技术实现思路
1、基于此,本专利技术的目的在于,提供一种基于离线强化学习的驾驶控制方法、装置、系统以及存储介质,训练基于离线强化学习的决策模型,有效地提高模型的数据利用率以及安全性
...【技术保护点】
1.一种基于离线强化学习的驾驶控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于离线强化学习的驾驶控制方法,其特征在于:所述生成网络包括第一子生成网络以及第二子生成网络,所述第一子生成网络用于生成均值以及方差,所述第二子生成网络用于生成候选动作数据;
3.根据权利要求2所述的基于离线强化学习的驾驶控制方法,其特征在于,所述将若干个所述训练数据组中的变更状态数据输入至所述更新后的生成网络,获得初始动作空间数据,包括步骤:
4.根据权利要求3所述的基于离线强化学习的驾驶控制方法,其特征在于,所述将若干个所述训练数据组中的
...【技术特征摘要】
1.一种基于离线强化学习的驾驶控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于离线强化学习的驾驶控制方法,其特征在于:所述生成网络包括第一子生成网络以及第二子生成网络,所述第一子生成网络用于生成均值以及方差,所述第二子生成网络用于生成候选动作数据;
3.根据权利要求2所述的基于离线强化学习的驾驶控制方法,其特征在于,所述将若干个所述训练数据组中的变更状态数据输入至所述更新后的生成网络,获得初始动作空间数据,包括步骤:
4.根据权利要求3所述的基于离线强化学习的驾驶控制方法,其特征在于,所述将若干个所述训练数据组中的变更状态数据以及初始动作空间数据输入至所述扰动网络,对若干个类型的所述初始动作数据进行加噪处理,获得扰动动作空间数据,包括步骤:
5.根据权利要求4所述的基于离线强化学习的驾驶控制方法,其特征在于,所述将若干个所述训练数据组中的变更状态数据、奖励数据以及扰动动作空间数据输入至所述目标网络组,获得若干个所述训练数据组的目标值,包括步骤:<...
【专利技术属性】
技术研发人员:周娴玮,张楚略,余松森,林怡帆,
申请(专利权)人:华南师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。