【技术实现步骤摘要】
本专利技术涉及分析方法领域,尤其涉及一种仓库收纳的后状态离轨策略强化学习训练加速方法。
技术介绍
1、仓库收纳是现代物流管理中至关重要的环节之一,对于提高仓储效率、降低成本具有重要意义。在仓库管理中,强化学习是一种新兴的技术手段,是实现仓库收纳的重要途经之一,将工程环境建模为强化学习环境,在虚拟环境中利用强化学习知识对智能体进行训练来获得最优策略通过智能算法来优化仓库收纳过程,提高收纳效率。然而,在复杂的任务和环境中,训练强化学习模型通常需要大量的时间和计算资源,训练过程较为缓慢。
2、有鉴于此,有必要设计一种仓库收纳的后状态离轨策略强化学习训练加速方法,以提高仓库收纳的效率。
技术实现思路
1、本专利技术的目的在于提供一种准确性高的仓库收纳的后状态离轨策略强化学习训练加速方法。
2、为实现上述专利技术目的,本专利技术提供了一种仓库收纳的后状态离轨策略强化学习训练加速方法,包括如下步骤:
3、步骤s1:针对仓库收纳的要求,建立强化学习环境模型;
< ...【技术保护点】
1.一种仓库收纳的后状态离轨策略强化学习训练加速方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的仓库收纳的后状态离轨策略强化学习训练加速方法,其特征在于,所述步骤S1具体为:依据仓库收纳要求及环境,搭建强化学习环境模型,强化学习环境模型为稀疏奖励环境,将物品摆满仓库的一层的奖励设为1;每摆满一层,奖励加1。
3.根据权利要求1所述的仓库收纳的后状态离轨策略强化学习训练加速方法,其特征在于,所述步骤S2中,需要收纳的物品具有预先设置的可选动作。
4.根据权利要求1所述的仓库收纳的后状态离轨策略强化学习训练加速方法,其特征在于
...【技术特征摘要】
1.一种仓库收纳的后状态离轨策略强化学习训练加速方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的仓库收纳的后状态离轨策略强化学习训练加速方法,其特征在于,所述步骤s1具体为:依据仓库收纳要求及环境,搭建强化学习环境模型,强化学习环境模型为稀疏奖励环境,将物品摆满仓库的一层的奖励设为1;每摆满一层,奖励加1。
3.根据权利要求1所述的仓库收纳的后状态离轨策略强化学习训练加速方法,其特征在于,所述步骤s2中,需要收纳的物品具有预先设置的可选动作。
4.根据权利要求1所述的仓库收纳的后状态离轨策略强化学习训练加速方法,其特征在于,所述步骤s4具体为:初始化所有状态-动作对应的q值,根据当前状态和可选动作,使用策略在可选动作...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。