仓库收纳的后状态离轨策略强化学习训练加速方法技术

技术编号：41484234 阅读：15 留言：0更新日期：2024-05-30 14:32

本发明专利技术提供了一种仓库收纳的后状态离轨策略强化学习训练加速方法，包括如下：将工程问题建模成强化学习环境，利用测量工具、照相机、红外线传感器等工具获取仓库具体大小信息、下一个需要收纳的物品形状大小信息以及当前仓库已有的物品位置等信息。智能体通过位运算的方法得到状态和动作信息，获取Q值的近似估值并以此进行探索与利用。智能体使用针对后状态的离轨策略Sarsa方法进行强化学习训练，通过不断的训练，得到仓库收纳的最优策略。该方法通过强化学习提高仓库收纳的训练速度，更快地学到最优控制策略，提高仓库收纳的效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及分析方法领域，尤其涉及一种仓库收纳的后状态离轨策略强化学习训练加速方法。

技术介绍

1、仓库收纳是现代物流管理中至关重要的环节之一，对于提高仓储效率、降低成本具有重要意义。在仓库管理中，强化学习是一种新兴的技术手段，是实现仓库收纳的重要途经之一，将工程环境建模为强化学习环境，在虚拟环境中利用强化学习知识对智能体进行训练来获得最优策略通过智能算法来优化仓库收纳过程，提高收纳效率。然而，在复杂的任务和环境中，训练强化学习模型通常需要大量的时间和计算资源，训练过程较为缓慢。

2、有鉴于此，有必要设计一种仓库收纳的后状态离轨策略强化学习训练加速方法，以提高仓库收纳的效率。

技术实现思路

1、本专利技术的目的在于提供一种准确性高的仓库收纳的后状态离轨策略强化学习训练加速方法。

2、为实现上述专利技术目的，本专利技术提供了一种仓库收纳的后状态离轨策略强化学习训练加速方法，包括如下步骤：

3、步骤s1：针对仓库收纳的要求，建立强化学习环境模型；

<...

【技术保护点】

1.一种仓库收纳的后状态离轨策略强化学习训练加速方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的仓库收纳的后状态离轨策略强化学习训练加速方法，其特征在于，所述步骤S1具体为：依据仓库收纳要求及环境，搭建强化学习环境模型，强化学习环境模型为稀疏奖励环境，将物品摆满仓库的一层的奖励设为1；每摆满一层，奖励加1。

3.根据权利要求1所述的仓库收纳的后状态离轨策略强化学习训练加速方法，其特征在于，所述步骤S2中，需要收纳的物品具有预先设置的可选动作。

4.根据权利要求1所述的仓库收纳的后状态离轨策略强化学习训练加速方法，其特征在于，所述步骤S4具体为...

【技术特征摘要】

1.一种仓库收纳的后状态离轨策略强化学习训练加速方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的仓库收纳的后状态离轨策略强化学习训练加速方法，其特征在于，所述步骤s1具体为：依据仓库收纳要求及环境，搭建强化学习环境模型，强化学习环境模型为稀疏奖励环境，将物品摆满仓库的一层的奖励设为1；每摆满一层，奖励加1。

3.根据权利要求1所述的仓库收纳的后状态离轨策略强化学习训练加速方法，其特征在于，所述步骤s2中，需要收纳的物品具有预先设置的可选动作。

4.根据权利要求1所述的仓库收纳的后状态离轨策略强化学习训练加速方法，其特征在于，所述步骤s4具体为：初始化所有状态-动作对应的q值，根据当前状态和可选动作，使用策略在可选动作...

【专利技术属性】
技术研发人员：程春玲，陆灵凤，陈兴国，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人