【技术实现步骤摘要】
基于元强化学习的智能车辆交叉口决策方法、设备及介质
[0001]本申请涉及智能车辆
,尤其涉及基于元强化学习的智能车辆交叉口决策方法、设备及介质。
技术介绍
[0002]智能车辆在安全、效率、舒适性等方面具有巨大潜力,已逐步成为未来交通的核心。但要实现在在高密度、混杂交通流环境下的自主驾驶,智能车辆行为决策能力仍面临严峻的挑战。
[0003]现有的决策方法主要有三种,一是基于规则的行为决策,二是基于概率模型的行为决策,三是基于学习的决策模型。虽然这些决策系统具有执行力强、执行简单的优点,但忽略了环境中动态交通因素的复杂性和不确定性。在针对交叉口左转的情况下,车辆行为决策能力的研究均依赖于固定的转弯路径,而在实际交叉口场景中,车辆的转弯路径会根据周围车流速度、车流量和驾驶员风格改变,不确定性较大。并且,现有的基于学习的决策模型虽考虑了环境中动态交通因素的复杂性和不确定性,但不能满足复杂环境下的实时性和自适应性要求。例如在某一交叉口训练收敛良好的算法,在其他交叉口表现欠佳,或是同一个交叉口内的车辆数量和运动状态变化 ...
【技术保护点】
【技术特征摘要】
1.基于元强化学习的智能车辆交叉口决策方法,其特征在于,所述方法包括:确定各第一交叉口场景中目标车辆对应的各环境车辆的第一观测状态;基于预先训练好的决策模型,获取各所述第一观测状态对应的第二观测状态、随机动作以及奖励值;其中,所述第二观测状态为各所述环境车辆在第一观测状态下一时刻所对应的观测状态;将各所述第一观测状态对应的第二观测状态、随机动作、奖励值,以及各所述第一观测状态,作为第一样本数据,对所述预先训练好的决策模型进行再训练,得到基于时序的决策模型;根据所述基于时序的决策模型,确定各第二交叉口场景中目标车辆的各环境车辆的第三观测状态;根据各所述第三观测状态,分别确定各所述第二交叉口场景对应的下降梯度,以确定相应的元目标;根据所述元目标,确定所述基于时序的决策模型的敏感参数;基于所述敏感参数,更新所述基于时序的决策模型,以使所述更新后的基于时序的决策模型能够根据当前观测状态确定相应的目标车辆的行为策略。2.根据权利要求1所述的基于元强化学习的智能车辆交叉口决策方法,其特征在于,对所述预先训练好的决策模型进行再训练,得到基于时序的决策模型,具体包括:确定所述预先训练好的决策模型对应的估计网络和目标网络;其中,所述估计网络和所述目标网络的结构相同;确定所述估计网络对应的第一动作价值函数值、所述目标网络对应的第二动作价值函数值,以更新所述估计网络的敏感参数;其中,所述第一动作价值函数值和所述第二动作价值函数值分别表示所述目标车辆在所述第一观测状态和所述第二观测状态下执行相应动作所获得的动作价值;基于更新后的估计网络的敏感参数,更新对应的目标网络的敏感参数,以得到基于时序的决策模型。3.根据权利要求1所述的基于元强化学习的智能车辆交叉口决策方法,其特征在于,根据各所述第三观测状态以及随机梯度下降法,分别确定各所述第二交叉口场景对应的下降梯度,以确定相应的元目标,具体包括:确定各所述第三观测状态对应的第二样本数据,以及各所述第二样本数据的批次;针对各所述批次对应的第二样本数据,分别确定各所述第二交叉口场景对应的下降梯度;对各所述第二交叉口场景对应的下降梯度进行加和,以得到总下降梯度;并确定所述总下降梯度值为所述元目标。4.根据权利要求2所述的基于元强化学习的智能车辆交叉口决策方法,其特征在于,确定所述估计网络对应的第一动作价值函数值、所述目标网络对应的第二动作价值函数值,具体包括:所述估计网络包括动作估计网络和状态估计网络,所述目标网络包括动作目标网络和状态目标网络;根据所述第一样本数据,确定由所述目标车辆的第一观测状态和对应的随机动作所组
成的状态动作对,并将所述状态动作对输入至所述状态估计网络中,以确定所述估计网络对应的第一动作价值函数值;基于贝尔曼方程,确定所述目标网络对应的第二动作价值函数值。5.根据权利要求4所述的基于元强化学习的智能车辆交叉口决策方法,其特征在于,更新所述估计网络,具体包括:根据所述第一动作价值函数值和所述第二动作价值函数值之间的差值的平方,确定相应的损失函数,并根据所述损失函数,更新所述状态估计网络;基于更新后的状态估计网络,确定所述目标车辆从所述第一观测状态到相应执行动作所对应的策略,并针对更新后的策略,计算所述策略的梯度;根据所述策略的梯度,更新所述动作估计网络。6.根据权利要求1所述的基于元强化学习的智能...
【专利技术属性】
技术研发人员:高丛政,
申请(专利权)人:山东伟创信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。