自动化控制的训练过程的加速方法技术

技术编号：39001490 阅读：8 留言：0更新日期：2023-10-07 10:33

本发明专利技术公开了自动化控制的训练过程的加速方法，包括：建立强化学习环境，初始化砖瓦编码器；初始化时间窗口、时间窗口最大值和回退间隔；判断智能体的当前步数是否与上一次回退时的步数相差了一个回退间隔，若是，则智能体回退到时间窗口中具有最大Q值的状态，并选择Q值最大的动作A进行执行；若否，则选择智能体将要执行的动作A；执行动作A，获得奖励与下一状态的信息；智能体学习并进行瓦片化网格更新；维护时间窗口大小并将当前状态更新为下一状态；判断当前状态是否是终点，若是，则结束该轮训练；若否，则进行循环。本发明专利技术通过在训练过程中进行回退，加速智能体的训练速度，缩短训练时间，提高训练效率，节省算力资源。节省算力资源。节省算力资源。

全部详细技术资料下载

【技术实现步骤摘要】
自动化控制的训练过程的加速方法

[0001]本专利技术涉及一种自动化控制的训练过程的加速方法，属于分析方法

技术介绍

[0002]目前，在工程领域中，自动化控制的合理使用可以提高效率与安全性，如工程特种车辆的自动化作业，而强化学习是实现自动化控制的重要途经之一。将工程任务建模为强化学习环境，在虚拟环境中利用强化学习知识对智能体进行训练以获得最优控制策略。然而，在一些复杂工程任务和稀疏奖励的强化学习环境中，智能体学得最优策略需要大量的时间，耗费大量的算力。
[0003]有鉴于此，确有必要提出一种自动化控制的训练过程的加速方法，以解决上述问题。

技术实现思路

[0004]本专利技术的目的在于提供一种自动化控制的训练过程的加速方法，该方法能够加快最优控制的训练过程。
[0005]为实现上述目的，本专利技术提供一种自动化控制的训练过程的加速方法，用于对工程特种车辆作业的自动化控制的训练过程进行加速，包括以下步骤：S1、针对智能体的作业要求建立强化学习环境，初始化砖瓦编码器；S2、在每一轮训练开始时，初始化时间窗口、时间窗口最大值和回退间隔；S3、判断智能体的当前步数是否与上一次回退时的步数相差了一个回退间隔，若是，则智能体回退到时间窗口中具有最大Q值的状态，并选择此具有最大Q值的状态下Q值最大的动作A，并进入S5；若否，则进入S4；S4、通过方法选择智能体将要执行的动作A；S5、执行动作A，获得奖励与下一状态的信息；S6、智能体进行学习，完成相应瓦片化网格的更新；S7、将当前状态加入...

【技术保护点】

【技术特征摘要】
1.一种自动化控制的训练过程的加速方法，用于对工程特种车辆作业的自动化控制的训练过程进行加速，其特征在于，包括以下步骤：S1、针对智能体的作业要求建立强化学习环境，初始化砖瓦编码器；S2、在每一轮训练开始时，初始化时间窗口、时间窗口最大值和回退间隔；S3、判断智能体的当前步数是否与上一次回退时的步数相差了一个回退间隔，若是，则智能体回退到时间窗口中具有最大Q值的状态，并选择此具有最大Q值的状态下Q值最大的动作A，并进入S5；若否，则进入S4；S4、通过方法选择智能体将要执行的动作A；S5、执行动作A，获得奖励与下一状态的信息；S6、智能体进行学习，完成相应瓦片化网格的更新；S7、将当前状态加入到时间窗口中，维护时间窗口大小并将当前状态更新为下一状态；S8、判断当前状态是否是终点，若是，则结束该轮训练；若否，则进入S3进行循环。2.根据权利要求1所述的自动化控制的训练过程的加速方法，其特征在于，S1中：根据特种车辆的作业要求进行强化学习环境的建模，将智能体完成任务时的奖励设为0，未完成要求时的每个时间步奖励设为
‑
1。3.根据权利要求1所述的自动化控制的训练过程的加速方法，其特征在于，S2中：在每轮训练开始时会初始化一个时间窗口用来保存智能体曾经访问过的状态；初始化时间窗口的最大值用来控制时间窗口中记录的状态数量；初始化回退间隔用来控制智能体每走多少步进行一次回退。4.根据权利要求1所述的自动化控制的训练过程的加速方法，其特征在于，S2中：所述回退间隔的增长方式为线...

【专利技术属性】
技术研发人员：陈兴国，陈泽宁，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人