【技术实现步骤摘要】
一种基于强化学习的车辆跟驰模型建立方法
本专利技术涉及一种基于强化学习的车辆跟驰模型建立方法,属于汽车无人驾驶
技术介绍
汽车的专利技术加快了人员、物资、信息的流动,缩短了空间距离,节约了时间,加快了社会的发展,具有里程碑意义。同时,带来了严重的社会问题和环境问题。例如,在汽车行驶过程中,驾驶员需要精神高度集中,不断在加速状态和减速状态之间切换汽车的状态,增加了交通事故发生的可能性。无人驾驶汽车是降低交通事故发生率和驾驶强度,实现交通事故接近零伤亡的行之有效的手段。现有的车辆跟驰决策模型能够很好地描述有人驾驶汽车的跟驰决策行为,但无法很好地描述无人驾驶汽车的跟驰决策行为。无人车辆跟驰技术的应用可以把驾驶员从高强度的驾驶操作中解脱出来,避免交通事故的发生。跟驰模型的研究始于1950年,60多年来国内外研究人员对车辆跟驰模型进行了大量的研究,取得了众多的研究成果,其中比较典型的理论模型有Gipps模型,IDM模型,Krauss模型,Wiedemann模型,元胞自动机模型。Gipps模型是微观交通流模型中被广泛使用的一种安全距离模型。该模型能够比较真实的反映汽 ...
【技术保护点】
一种基于强化学习的车辆跟驰模型建立方法,其特征在于包括以下步骤:步骤1、定义经验缓存D、创建Q值网络,设置存储经验的经验缓存D={mi,mi+1,...,mi+N‑1}的容量为N,式中mi表示第i步到第i+1步环境从一个状态转换到另一个状态的一次转换样本,mi+1表示第i+1步到第i+2步环境从一个状态转换到另一个状态的一次转换样本…mi+N‑1表示第i+N‑1步到第i+N步环境从一个状态转换到另一个状态的一次转换样本,创建Q值网络,Q值网络采用多层感知器网络,Q值表示目标车辆的长期回报;步骤2、随机初始化环境中所有车辆位置、速度、加速度和环境状态,环境状态作为Q值网络的输 ...
【技术特征摘要】
1.一种基于强化学习的车辆跟驰模型建立方法,其特征在于包括以下步骤:步骤1、定义经验缓存D、创建Q值网络,设置存储经验的经验缓存D={mi,mi+1,...,mi+N-1}的容量为N,式中mi表示第i步到第i+1步环境从一个状态转换到另一个状态的一次转换样本,mi+1表示第i+1步到第i+2步环境从一个状态转换到另一个状态的一次转换样本…mi+N-1表示第i+N-1步到第i+N步环境从一个状态转换到另一个状态的一次转换样本,创建Q值网络,Q值网络采用多层感知器网络,Q值表示目标车辆的长期回报;步骤2、随机初始化环境中所有车辆位置、速度、加速度和环境状态,环境状态作为Q值网络的输入;步骤3、选择并执行动作,记录转移样本,计算长期回报,以概率ε随机选择一个动作,其中ε可通过公式(1)计算得到,式中,t表示当前时间步数,执行该动作并观察环境状态和立即奖励,再将环境从一个状态转换到另一个状态的转换样本m=(s,a,s',r)加入到经验缓存中,其中,表示执行动作前的环境状态,可通过公式(2)计算得到,式中,hfront表示执行动作前目标车辆与前方车辆的时距,hrear表示执行动作前目标车辆与后方车辆的时距,x表示执行动作前目标车辆的位置,xfront表示执行动作前目标车辆前方车辆的位置,xrear表示执行动作前目标车辆后方车辆的位置,l表示目标车辆的车长,lfront表示目标车辆前方车辆的车长,lrear表示目标车辆后方车辆的车长,v表示执行动作前目标车辆的速度,vfront表示执行动作前目标车辆前方车辆的速度,vrear表示执行动作前目标车辆后方车辆的速度;其中,表示执行动作后的环境状态,可通过公式(3)计算得到,
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。