本发明专利技术提供了基于时序差分更新经验回放缓存的路径规划方法,步骤包括:当前状态特征向量作为输入数据;建立DQN模型,DQN模型包括当前Q网络和目标Q网络;将输入数据输入到DQN模型形成输出数据和奖励信号;将输入数据、输出数据和奖励信号记为经验数据,存入经验回放缓存;当经验回放缓存的容量到达设定值时,将新的经验数据替换经验回放缓存中TD误差最小的经验数据,并实时更新经验回放缓存;解决了强化学习样本利用效率问题及经验池占用缓存空间过大问题,使得车辆路径规划效率提高,所需缓存空间大幅降低。
【技术实现步骤摘要】
基于时序差分更新经验回放缓存的路径规划方法及系统
本专利技术涉及一种路径规划方法及系统,具体涉及一种基于时序差分的更新经验回放缓存的路径规划方法及系统。
技术介绍
机器学习方法通常被分为三类:监督学习,无监督学习和强化学习。其中,属于行为主义人工智能研究范围的强化学习(ReinforcementLearning,RL)是近些年热点研究方向之一,被普遍期望为通往通用人工智能的重要途径之一。强化学习通过构建智能体,让其在与环境的频繁交互中,根据从环境返回的奖励信号不断学习,最终得到一个能够解决问题的最优控制策略,整个状态转移过程通常被描述为一个马尔科夫过程。在RL中,构建智能体的方法被分为两种类型:无模型RL和基于模型的RL。Q学习是无模型RL方法中的经典算法,从环境中返回的奖励信号被用来更新动作价值函数。深度学习(DeepLearning,DL)与Q学习方法结合,提出了性能良好的深度Q学习算法,使其能够在大多数的游戏环境中得分超过人类玩家。该算法使用了经验回放机制,其将智能体与环境交互得到的转移过程存放在一个大尺寸的缓存空间中,并以监督学习的方式让智能体学习这些采集到的真实经验。然而,智能体收集交互经验是一个十分费时且消耗硬件资源的过程,尤其是在环境状态空间很大的情况下。而且对于大多数现实中的控制器而言,简陋的硬件资源难以为经验回放机制提供足够大的缓存空间。这大大限制了强化学习算法在现实工业环境的普遍应用。另外,有研究证明了并非经验回放缓存空间尺寸越大算法效果越好。优先级经验回放方法,建议更加频繁的重播具有较高期望的转移过程,并根据时序误差为依据为转移过程划分优先级。该算法有限度的改善了原深度Q网络(DeepQNet,DQN)对于经验回放缓存中的转移过程利用效率低下的问题,但提升效果较差,不能有效将有用经验保留下,也不能将低效的转移过程尽快从经验缓存中去除,使得对采集到的样本数据利用率低,无法实现高精度的算法运行效果。强化学习样本利用效率问题:无模型强化学习算法不需要使用任务环境的先验知识对环境进行建模,但需要智能体频繁的与环境进行交互得到状态转移过程(经验),这一过程是相当费时且占用计算资源的,因此解决样本利用效率低下问题是提高强化学习算法性能的重中之重。经验池占用缓存空间过大问题:DQN算法是近些年来强化学习算法的一大进步,其在多个游戏环境中得分超过人类玩家,是通往通用人工智能的重要一步。在该算法中,为了以有监督的形式训练深度神经网络,使用了经验回放机制。该机制在计算机缓存占用相当大的空间以存储智能体与环境交互得到的转移过程(经验,通常需要存放106条经验),并在每个时间步以有监督学习的方式训练网络。但是,现实中常见的控制器自身内存空间有限,并不能为经验回放机制提供相应的使用条件,这大大限制了强化学习算法在现实生活中的普遍应用。最合适并控制车轮行进方向,是较为精确且实用的路径规划算法,但现有技术中涉及的驾驶仿真与测试环境,基于传统的训练模型存储的路径空间有限,不能为经验回放机制提供使用条件,训练模型利用率低,大大限制了车辆路径规划在现实生活中的普遍应用。
技术实现思路
为解决上述技术问题,本专利技术中的相应算法可使智能体有效利用采样得到的样本数据,且可大大降低经验回放机制所占用的内存空间,应用于车辆路径规划,有效解决了车辆路径规划的训练模型利用率低,不利于车辆路径规划在现实生活中的普遍应用问题。第一方面,本专利技术提供了基于时序差分更新经验回放缓存的路径规划方法,步骤包括:训练阶段:时刻t的车辆位置数据、车辆动作信息及t+1时刻的位置数据作为输入数据;建立DQN模型,DQN模型包括当前Q网络和目标Q网络及经验回放缓存;将输入数据输入到DQN模型形成输出数据和奖励信号;将输入数据、输出数据和奖励信号记为经验数据,存入经验回放缓存;当经验回放缓存的容量到达设定值时,将经验回放缓存中每个时间步随机采集得到的K条转移过程中TD误差最小的转移过程替换为新采集到的经验数据,并实时更新经验回放缓存;应用阶段:获取当前时刻的车辆位置数据,根据实时更新的经验回放缓存规划汽车路径,按照基于时序误差更新的经验回放缓DQN存规划控制所述车辆的行驶方向。第二方面,本专利技术提供了一种车辆路径规划系统,包括经验回放缓存模块,所述经验回放缓存模块采用如第一方面提供的路径规划方法进行数据处理。第三方面,本专利技术提供了一种车辆路径规划电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的路径规划方法。第四方面,本专利技术提供了一种车辆路径规划计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的路径规划方法。与现有技术相比,本专利技术的有益效果为:1、本专利技术通过基于时序差分为深度强化学习中使用的经验回放机制提供了一种新的经验回放缓存更新方式。主要解决了强化学习样本利用效率问题及经验池占用缓存空间过大问题,使得车辆路径规划效率提高,所需缓存空间大幅降低。2、本专利技术对于在实际实验过程中,可以通过观察发现使用本方法的深度强化学习算法可以在完成环境任务的基础上更快地达到收敛,证明了使用本方法的深度强化学习算法更加有效的利用了通过与环境交互得来的样本数据。3、本专利技术在实际实验过程中,在经验回放缓存空间大小收到限制的情况下,算法依然表现良好,证明了使用本方法的强化学习算法可以在内存更小的硬件上使用。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。附图1为本专利技术的实施例1中车辆路径规划模拟器的训练阶段流程图;附图2为本专利技术的实施例1中车辆路径规划模拟器的应用阶段流程图附图3为本专利技术的实施例1中更新经验回放缓存的流程图;附图4为本专利技术的实施例1中DQN模型的算法原理图;附图5为本专利技术的
技术介绍
中深度Q网络的强化学习过程图。具体实施方式:下面结合附图与实施例对本专利技术作进一步说明。应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。在本专利技术中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本专利技术各部件或元件结构关系而确定的关系词,并非特指本专利技术中任一部件或元件,不能本文档来自技高网...
【技术保护点】
1.基于时序差分更新经验回放缓存的路径规划方法,其特征在于,步骤包括:/n训练阶段:时刻t的车辆位置数据、车辆动作信息及t+1时刻的位置数据作为输入数据;建立DQN模型,DQN模型包括当前Q网络和目标Q网络及经验回放缓存;将输入数据输入到DQN模型形成输出数据和奖励信号;/n将输入数据、输出数据和奖励信号记为经验数据,存入经验回放缓存;/n当经验回放缓存的容量到达设定值时,将经验回放缓存中每个时间步随机采集得到的K条转移过程中TD误差最小的转移过程替换为新采集到的经验数据,并实时更新经验回放缓存;/n应用阶段:获取当前时刻的车辆位置数据,根据实时更新的经验回放缓存规划汽车路径,按照基于时序误差更新的经验回放缓DQN存规划控制所述车辆的行驶方向。/n
【技术特征摘要】
1.基于时序差分更新经验回放缓存的路径规划方法,其特征在于,步骤包括:
训练阶段:时刻t的车辆位置数据、车辆动作信息及t+1时刻的位置数据作为输入数据;建立DQN模型,DQN模型包括当前Q网络和目标Q网络及经验回放缓存;将输入数据输入到DQN模型形成输出数据和奖励信号;
将输入数据、输出数据和奖励信号记为经验数据,存入经验回放缓存;
当经验回放缓存的容量到达设定值时,将经验回放缓存中每个时间步随机采集得到的K条转移过程中TD误差最小的转移过程替换为新采集到的经验数据,并实时更新经验回放缓存;
应用阶段:获取当前时刻的车辆位置数据,根据实时更新的经验回放缓存规划汽车路径,按照基于时序误差更新的经验回放缓DQN存规划控制所述车辆的行驶方向。
2.如权利要求1所述的路径规划方法,其特征在于,所述TD误差是目标Q网络计算的目标Q值和当前Q网络计算的当前Q值之间的差值;所述DQN模型使用当前Q网络用来采集输入数据,更新DQN模型参数,目标Q网络用于计算目标Q值,通过神经网络梯度反向传播来更新DQN模型参数。
3.如权利要求1所述的路径规划方法,其特征在于,所述经验数据的获取过程具体步骤包括:
随机初始化所有的输入数据和输出数据对应的当前Q值和目标Q;清空经验回放缓存的容量M;
在Q网络中使用作为输入数据,得到Q网络的所有车辆动作对应的Q值作为输出数据;输出数据为用∈-贪婪法在当前Q值输出中选择车辆对应的动作A;奖励信号包括在状态S执行当前车辆动作A时,得到新状态S’对应的特征向量奖励r’和终止状态done;
将输入数据、输出数据和奖励信号存入经验回放缓存的容量M;
从M中采样经验数据的K个样本并计算目标Q值yj;
通过神经网络梯度反向传播来更新Q网络的所有参数。
4.如权利要求3所述的路径规划方法,其特征在于,将新的经验数据替...
【专利技术属性】
技术研发人员:李沂滨,张天泽,贾磊,宋艳,王代超,高辉,胡晓平,
申请(专利权)人:山东大学,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。