自动化控制的训练过程的加速方法技术

技术编号:39001490 阅读:8 留言:0更新日期:2023-10-07 10:33
本发明专利技术公开了自动化控制的训练过程的加速方法,包括:建立强化学习环境,初始化砖瓦编码器;初始化时间窗口、时间窗口最大值和回退间隔;判断智能体的当前步数是否与上一次回退时的步数相差了一个回退间隔,若是,则智能体回退到时间窗口中具有最大Q值的状态,并选择Q值最大的动作A进行执行;若否,则选择智能体将要执行的动作A;执行动作A,获得奖励与下一状态的信息;智能体学习并进行瓦片化网格更新;维护时间窗口大小并将当前状态更新为下一状态;判断当前状态是否是终点,若是,则结束该轮训练;若否,则进行循环。本发明专利技术通过在训练过程中进行回退,加速智能体的训练速度,缩短训练时间,提高训练效率,节省算力资源。节省算力资源。节省算力资源。

【技术实现步骤摘要】
自动化控制的训练过程的加速方法


[0001]本专利技术涉及一种自动化控制的训练过程的加速方法,属于分析方法


技术介绍

[0002]目前,在工程领域中,自动化控制的合理使用可以提高效率与安全性,如工程特种车辆的自动化作业,而强化学习是实现自动化控制的重要途经之一。将工程任务建模为强化学习环境,在虚拟环境中利用强化学习知识对智能体进行训练以获得最优控制策略。然而,在一些复杂工程任务和稀疏奖励的强化学习环境中,智能体学得最优策略需要大量的时间,耗费大量的算力。
[0003]有鉴于此,确有必要提出一种自动化控制的训练过程的加速方法,以解决上述问题。

技术实现思路

[0004]本专利技术的目的在于提供一种自动化控制的训练过程的加速方法,该方法能够加快最优控制的训练过程。
[0005]为实现上述目的,本专利技术提供一种自动化控制的训练过程的加速方法,用于对工程特种车辆作业的自动化控制的训练过程进行加速,包括以下步骤:S1、针对智能体的作业要求建立强化学习环境,初始化砖瓦编码器;S2、在每一轮训练开始时,初始化时间窗口、时间窗口最大值和回退间隔;S3、判断智能体的当前步数是否与上一次回退时的步数相差了一个回退间隔,若是,则智能体回退到时间窗口中具有最大Q值的状态,并选择此具有最大Q值的状态下Q值最大的动作A,并进入S5;若否,则进入S4;S4、通过方法选择智能体将要执行的动作A;S5、执行动作A,获得奖励与下一状态的信息;S6、智能体进行学习,完成相应瓦片化网格的更新;S7、将当前状态加入到时间窗口中,维护时间窗口大小并将当前状态更新为下一状态;S8、判断当前状态是否是终点,若是,则结束该轮训练;若否,则进入S3进行循环。
[0006]作为本专利技术的进一步改进,S1中:根据特种车辆的作业要求进行强化学习环境的建模,将智能体完成任务时的奖励设为0,未完成要求时的每个时间步奖励设为

1。
[0007]作为本专利技术的进一步改进,S2中:在每轮训练开始时会初始化一个时间窗口用来保存智能体曾经访问过的状态;初始化时间窗口的最大值用来控制时间窗口中记录的状态数量;初始化回退间隔用来控制智能体每走多少步进行一次回退。
[0008]作为本专利技术的进一步改进,S2中:所述回退间隔的增长方式为线性增长,具体为:;
其中,表示回退间隔,表示回退间隔增长率,表示当前训练轮数,为一个常数,表示回退间隔的初始值。
[0009]作为本专利技术的进一步改进,S3中:若回退时回退到的状态不是当前状态,则会受到惩罚;若是当前状态,则不会受到惩罚。
[0010]作为本专利技术的进一步改进,若智能体当前步数与上一次回退时的步数相差了一个回退间隔,则从当前的时间窗口所有状态中选出具有最大Q值的状态,让智能体回退到该具有最大Q值的状态,并选择最大Q值的动作,同时步数+1。
[0011]作为本专利技术的进一步改进,智能体回退的同时减少回退前状态的每个动作的Q值,减少幅度一致,以减少对回退前的状态的访问。
[0012]作为本专利技术的进一步改进,若时间窗口中具有最大Q值的状态为当前状态,智能体不会回退到过去的状态。
[0013]作为本专利技术的进一步改进,S6中:所述瓦片化网格的更新包括Q值的更新,更新公式为:;其中,为状态动作值函数,为当前状态,为选择的动作,为学习率,为折扣因子,为智能体在状态下执行动作所获得的奖励,为下一状态。
[0014]作为本专利技术的进一步改进,S7中:智能体在将当前状态更新为下一状态前,将当前状态加入到时间窗口中,若时间窗口大小超过时间窗口最大值,则删除最早进入时间窗口的状态,使得时间窗口大小固定。
[0015]本专利技术的有益效果是:本专利技术的自动化控制的训练过程的加速方法通过在训练过程中进行回退,加速工程特种车辆自动化作业的训练速度,避免在一些重复状态上浪费大量时间,从而缩短训练时间,提高训练效率,节省算力资源。
附图说明
[0016]图1是本专利技术优选实施例中自动化控制的训练过程的加速方法的整体流程图。
[0017]图2是实施例1中所使用的自动化控制的训练过程的加速方法与传统训练方法的收敛速度对比图。
具体实施方式
[0018]为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。
[0019]如图1与图2所示,本专利技术提供了一种自动化控制的训练过程的加速方法,用于对工程特种车辆作业的自动化控制的训练过程进行加速,通过在训练过程中进行回退,能够提高收敛到最优策略的速度,使得工程特种车辆更快学习到自动化作业的最优方案,包括以下步骤:S1、针对智能体的作业要求建立强化学习环境,初始化砖瓦编码器。
[0020]其中,根据智能体的作业要求进行强化学习环境的建模,将智能体完成任务时的奖励设为0,未完成要求时的每个时间步奖励设为

1。
[0021]S2、在每一轮训练开始时,初始化时间窗口、时间窗口最大值和回退间隔。
[0022]其中,在每轮训练开始时会初始化一个时间窗口用来保存智能体曾经访问过的状态;初始化时间窗口的最大值用来控制时间窗口中记录的状态数量;初始化回退间隔用来控制智能体每走多少步进行一次回退。
[0023]回退间隔的增长方式为线性增长,具体为:;其中,表示回退间隔,表示回退间隔增长率,表示当前训练轮数,为一个常数,表示回退间隔的初始值。
[0024]S3、判断智能体当前步数是否与上一次回退时的步数相差了一个回退间隔,若是,则智能体回退到时间窗口中具有最大Q值的状态,并选择此具有最大Q值的状态下Q值最大的动作A,并进入S5;若否,则进入S4。
[0025]其中,若回退时回退到的状态不是当前状态,则会受到惩罚;若是当前状态,则不会受到惩罚。动作A具体为控制车辆前进、后退或停止的动作,当然,在其他实施例中,还可以是转弯等其他动作。
[0026]具体的,若智能体的当前步数与上一次回退时的步数相差了一个回退间隔,则从当前的时间窗口所有状态中选出具有最大Q值的状态,让智能体回退到该状态,并选择最大Q值的动作,同时步数+1。
[0027]智能体回退的同时减少回退前状态的每个动作的Q值,减少幅度一致,以减少对该状态的访问。
[0028]若时间窗口中具有最大Q值的状态为当前状态,智能体不会回退到过去的状态,无需进行惩罚,也无需将步数+1。
[0029]S4、通过方法选择智能体将要执行的动作A。
[0030]S5、执行动作A,查看奖励与下一状态。
[0031]S6、智能体进行学习,完成相应瓦片化网格的更新。
[0032]具体的,瓦片化网格的更新包括Q值的更新,更新公式为:;其中,为状态动作值函数,为当前状态,为选择的动作,为学习率,为折扣因子,为智能体在状态下执行动作所获得的奖励,为下一状态。
[0033]S7、将当前状态加入到时间窗口中,维护时间窗口大小并将当前状态更新为下一状态。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动化控制的训练过程的加速方法,用于对工程特种车辆作业的自动化控制的训练过程进行加速,其特征在于,包括以下步骤:S1、针对智能体的作业要求建立强化学习环境,初始化砖瓦编码器;S2、在每一轮训练开始时,初始化时间窗口、时间窗口最大值和回退间隔;S3、判断智能体的当前步数是否与上一次回退时的步数相差了一个回退间隔,若是,则智能体回退到时间窗口中具有最大Q值的状态,并选择此具有最大Q值的状态下Q值最大的动作A,并进入S5;若否,则进入S4;S4、通过方法选择智能体将要执行的动作A;S5、执行动作A,获得奖励与下一状态的信息;S6、智能体进行学习,完成相应瓦片化网格的更新;S7、将当前状态加入到时间窗口中,维护时间窗口大小并将当前状态更新为下一状态;S8、判断当前状态是否是终点,若是,则结束该轮训练;若否,则进入S3进行循环。2.根据权利要求1所述的自动化控制的训练过程的加速方法,其特征在于,S1中:根据特种车辆的作业要求进行强化学习环境的建模,将智能体完成任务时的奖励设为0,未完成要求时的每个时间步奖励设为

1。3.根据权利要求1所述的自动化控制的训练过程的加速方法,其特征在于,S2中:在每轮训练开始时会初始化一个时间窗口用来保存智能体曾经访问过的状态;初始化时间窗口的最大值用来控制时间窗口中记录的状态数量;初始化回退间隔用来控制智能体每走多少步进行一次回退。4.根据权利要求1所述的自动化控制的训练过程的加速方法,其特征在于,S2中:所述回退间隔的增长方式为线...

【专利技术属性】
技术研发人员:陈兴国陈泽宁
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1