当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于强化学习的集装箱装卸智能化方法及系统技术方案

技术编号:32656549 阅读:41 留言:0更新日期:2022-03-17 11:04
本发明专利技术提供了一种基于强化学习的集装箱装卸智能化方法,包括:获取集装箱尺寸数据和装卸计划;获取多个智能体的初始状态、参数以及分配任务;根据分配任务,利用智能体强化学习模型得出决策结果;其中,所述智能体包括堆场智能体、装卸设备智能体和泊位智能体,所述利用智能体强化学习模型得出决策结果,包括对分配任务和智能体进行划分,建立智能体强化学习模型,并设置每个智能体在环境中的状态空间、动作空间及奖励值。本发明专利技术建立了强化学习模型,通过多智能体系统不断迭代学习,自动生成集装箱装卸计划,取代了业务人员人工制定装卸计划的旧模式,实现了基于多智能体强化学习的集装箱装卸流程智能化,为智慧港口的建设打下了基础。下了基础。下了基础。

【技术实现步骤摘要】
一种基于强化学习的集装箱装卸智能化方法及系统


[0001]本专利技术涉及集装箱装卸智能化
,尤其涉及一种基于强化学习的集装箱装卸智能化方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]早期集装箱装卸问题的解决主要依赖于港口工作人员的经验,需要港口工作人员对泊位空闲状态、装卸设备规格及空闲状态、堆场空闲状态以及泊位规格等问题进行综合考虑,制定相关计划,但是,随着目前港口业务量的增加,货物吞吐规模的扩大,单独依靠港口工作人员人工制定装卸及堆场计划已难以满足生产需要。
[0004]现有的诸多研究方法尚未实现场位的分配、码头泊位的分配以及机械设施调度等方面的全自动化规划调度,尚未将岸桥调度优化、堆场调度优化、集装箱装卸调度优化紧密结合起来。同时,强化学习作为一个热门领域,尚未实际应用到港口行业的生产实际中。因此亟需一种基于强化学习的集装箱装卸智能化方法及系统。

技术实现思路

[0005]本专利技术为了解决上述问题,提出了一种基于强化学习的集装箱装卸智能化方法及系统,本专利技术将集装箱装卸作业细化为多个子任务,通过多智能体强化学习的方式实现自动生成集装箱装卸作业计划,最终实现智能化。
[0006]根据一些实施例,本专利技术采用如下技术方案:
[0007]一种基于强化学习的集装箱装卸智能化方法,包括:
[0008]获取集装箱尺寸数据和装卸计划;
[0009]获取多个智能体的初始状态、参数以及分配任务;
[0010]根据分配任务,利用智能体强化学习模型得出决策结果;
[0011]其中,所述智能体包括堆场智能体、装卸设备智能体和泊位智能体,所述利用智能体强化学习模型得出决策结果,包括对分配任务和智能体进行划分,建立智能体强化学习模型,并设置每个智能体在环境中的状态空间、动作空间及奖励值。
[0012]进一步地,所述智能体的初始状态包括泊位智能体的使用情况及泊位规格,装卸设备智能体的使用情况及规格、种类,堆场智能体的在场箱情况。
[0013]进一步地,所述智能体根据分配的任务及自身状态,得到决策动作,经过K步计算后,计算已存决策动作及状态特征。
[0014]进一步地,所述智能体将K步决策动作后将形成的状态特征、决策动作和奖励值上传至经验池,形成经验。
[0015]进一步地,上传经验池后,对智能体的参数进行聚合处理,并将聚合结果返回给智能体进行参数更新。
[0016]进一步地,参数更新后,根据抽样概率抽样全部经验,所述智能体根据抽样经验迭代训练优化智能体强化学习模型,直到完成所有任务。
[0017]进一步地,所述对智能体的参数进行聚合处理,包括利用智能体的参数和价值函数更新公式,生成TD

error。
[0018]一种基于强化学习的集装箱装卸智能化系统,包括:
[0019]数据获取模块,被配置为,获取智能体的初始状态、参数以及分配任务;
[0020]强化学习模块,被配置为,根据分配任务,利用智能体强化学习模型得出决策结果;
[0021]其中,所述智能体通过强化学习模型,根据分配目标得出决策动作,并将该决策动作及对应状态特征进行经验暂存。
[0022]一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于强化学习的集装箱装卸智能化方法。
[0023]一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于强化学习的集装箱装卸智能化方法。
[0024]与现有技术相比,本专利技术的有益效果为:
[0025]本专利技术从集装箱装卸作业流程入手,深入分析了堆场、装卸设备及泊位之间的联动关系,使得集装箱装卸流程的智能化实现成为可能,克服了现有集装箱装卸计划需要码头业务人员人工制定的缺陷,尽可能准确的生成集装箱装卸计划及堆场计划,最大程度上减少人工的干预;基于多智能体强化学习的思想,建立了强化学习模型,通过多智能体系统不断迭代学习,自动生成集装箱装卸计划,取代了业务人员人工制定装卸计划的旧模式,实现了基于多智能体强化学习的集装箱装卸流程智能化,为智慧港口的建设打下了基础。
附图说明
[0026]构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为本专利技术中一种基于多智能体强化学习的集装箱装卸智能化方法的流程示意图;
[0027]图2为本专利技术中多智能体强化学习模型中智能体i与环境交互示意图;
[0028]图3为本专利技术中一种基于多智能体强化学习的集装箱装卸智能化方法的算法流程示意图;
[0029]图4为本专利技术中多智能体强化学习模型中各智能体的奖励走势示意图;
[0030]图5为本专利技术中一种基于多智能体强化学习的集装箱装卸智能化方法的系统建模结构图;
[0031]图6为本专利技术中集装箱装卸流程中装卸成本分析对比示意图;
[0032]图7为本专利技术中集装箱装卸流程中装卸时间分析对比示意图。
具体实施方式:
[0033]下面结合附图与实施例对本专利技术作进一步说明。
[0034]应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另
有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。
[0035]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0036]实施例1.
[0037]如图1所示,一种基于强化学习的集装箱装卸智能化方法,包括:
[0038]获取集装箱尺寸数据和装卸计划;
[0039]获取多个智能体的初始状态、参数以及分配任务;
[0040]根据分配任务,利用智能体强化学习模型得出决策结果;
[0041]其中,所述智能体包括堆场智能体、装卸设备智能体和泊位智能体,所述利用智能体强化学习模型得出决策结果,包括对分配任务和智能体进行划分,建立智能体强化学习模型,并设置每个智能体在环境中的状态空间、动作空间及奖励值。
[0042]具体包括以下步骤:
[0043]1)对任务和智能体进行划分,对每个智能体建立强化学习模型,并设置智能体在环境中的状态空间、动作空间及奖励值;
[0044]首先,对集装箱装卸任务进行划分,将集装箱装卸计划按照集装箱类型分解成多个装卸子任务,并依次执行这些子任务。
[0045]在本例中,堆场按照泊位顺序,按区进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的集装箱装卸智能化方法,其特征在于,包括:获取集装箱尺寸数据和装卸计划;获取多个智能体的初始状态、参数以及分配任务;根据分配任务,利用智能体强化学习模型得出决策结果;其中,所述智能体包括堆场智能体、装卸设备智能体和泊位智能体,所述利用智能体强化学习模型得出决策结果,包括对分配任务和智能体进行划分,建立智能体强化学习模型,并设置每个智能体在环境中的状态空间、动作空间及奖励值。2.如权利要求1所述的一种基于强化学习的集装箱装卸智能化方法,其特征在于,所述智能体的初始状态包括泊位智能体的使用情况及泊位规格,装卸设备智能体的使用情况及规格、种类,堆场智能体的在场箱情况。3.如权利要求2所述的一种基于强化学习的集装箱装卸智能化方法,其特征在于,所述智能体根据分配的任务及自身状态,得到决策动作,经过K步计算后,计算已存决策动作及状态特征。4.如权利要求3所述的一种基于强化学习的集装箱装卸智能化方法,其特征在于,所述智能体将K步决策动作后将形成的状态特征、决策动作和奖励值上传至经验池,形成经验。5.如权利要求4所述的一种基于强化学习的集装箱装卸智能化方法,其特征在于,上传经验池后,对智能体的参数进行聚合处理,并将聚合结果返回给智能体进行参数更新。6.如权利要求5所述的一种基于强化学...

【专利技术属性】
技术研发人员:孔雨昕陈志勇史玉良
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1