System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多智能体强化学习的施工模拟方法及装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于多智能体强化学习的施工模拟方法及装置制造方法及图纸

技术编号:41385349 阅读:2 留言:0更新日期:2024-05-20 19:06
本发明专利技术涉及房屋建造施工仿真技术领域,尤其是涉及一种基于多智能体强化学习的施工模拟方法及装置。该方法获取基于构件的施工信息模型、施工任务流程要素、施工场地材料要素和基于班组专业信息的施工本体知识集后,基于各智能体初始的施工动作和初始的环境状态,构建基于施工马尔可夫决策过程框架的多智能体模拟系统,并利用该系统迭代更新下一阶段的环境状态以及各智能体下一阶段的目标评估和到达决策策略网络,目标评估和到达决策策略网络通过两阶段强化学习方法训练优化,当策略网络收敛时,得到最终的施工策略。与现有技术相比,本发明专利技术具有充分考量主观决策和施工场景对确定施工策略的影响、在保证施工模拟精确性的同时提高施工效率等优点。

【技术实现步骤摘要】

本专利技术涉及房屋建造施工仿真,尤其是涉及一种基于多智能体强化学习的施工模拟方法及装置


技术介绍

1、多智能体模拟是一种自下而上的模拟真实世界系统的方法。在建筑业中,基于智能体的建模被用于分析参与者在有限资源下的动态竞争、施工人员的行为等方面以降低成本或加强安全管理。有研究提出了一种针对施工场景定制的多智能体仿真系统,实现了考虑施工过程各个要素的时空仿真,但这些模拟并没有考虑到智能体,也即代理/代理人的感知和主观决策。鉴于施工过程存在许多具有主观决策的施工人员,将主观决策纳入智能体中对于深入了解施工过程中的宏观现象、理解和影响参与者决策的演变至关重要。

2、强化学习(rl)被认为非常适合多智能体任务规划和控制,有助于智能体识别最优决策策略,在施工中,rl方法的应用需要将相关问题转化为马尔可夫决策过程(mdp)。例如,受白蚁建造土丘的启发,一些研究人员实现了堆砌结构的多智能体智能建造过程。在施工实践中,多智能体路径规划方法可以帮助规划现场内设备或工人特定的位置或路径。然而,在为场地规划问题构件的mdp过程中,智能体的目标和移动环境是固定的,这使得他们不太适用过程中遇到的动态环境。在真实的施工场景中,施工人员需要到达的目标和地点不断变化,而且可能同时存在多个目标,这使得智能体很难将确定目分配给施工人员。

3、涉及多个参与者和频繁资源流动的施工场景中,智能体在动态变化的环境中评估并选择任务目标,并到达任务地点以完成任务,这带来了智能目标抉择和快速目标到达等挑战,虽然该问题可以在计算机或机器人领域中的智能体实时导航中找到参考,但是现有的实施导航决策方法没有考虑施工场景的特性,即智能体进行代理需要丰富的施工知识进行目标评估决策,并且需要花费大量时间完成施工任务而非单纯的寻找路径。因此,如何在精细化施工模拟过程中,充分考量主观决策和施工场景对确定施工策略的影响,进而在保证施工模拟精确性的同时,提高施工效率,成为本领域需要解决的问题。


技术实现思路

1、本专利技术的目的就是为了克服上述现有技术存在的在精细化施工模拟中,未考量主观决策和施工场景对发现合适施工策略的影响的缺陷而提供一种基于多智能体强化学习的施工模拟方法及装置。

2、本专利技术的目的可以通过以下技术方案来实现:

3、根据本专利技术的第一方面,提供一种基于多智能体强化学习的施工模拟方法,包括以下步骤:

4、s1,获取基于构件的施工信息模型、施工任务流程要素、施工场地材料要素和基于班组专业信息的施工本体知识集,其中,所述施工本体知识集和所述施工任务流程要素中的单构件工艺信息构成施工知识;

5、s2,基于所述基于构件的施工信息模型、所述施工任务流程要素、所述施工场地材料要素和所述施工本体知识集,获取各智能体初始的施工动作和初始的环境状态,并构建基于施工马尔可夫决策过程框架的多智能体模拟系统;

6、s3,基于所述初始的施工动作、所述初始的环境状态和所述施工知识,利用所述基于施工马尔可夫决策过程框架的多智能体模拟系统,迭代更新下一阶段的环境状态以及各智能体下一阶段的目标评估和到达决策策略网络,所述目标评估和到达决策策略网络通过两阶段强化学习方法训练优化,所述环境状态包括物理状态和施工状态;

7、s4,当所述目标评估和到达决策策略网络收敛时,得到最终的施工策略。

8、作为优选的技术方案,在所述施工马尔可夫决策过程中,每个智能体的观测包括高层级目标评估策略的观测值和低层级目标到达策略的观测值,每个智能体的动作包括施工动作、目标评估动作和目标到达动作,每个智能体的奖励包括目标评估策略的奖励和目标到达策略的奖励。

9、作为优选的技术方案,所述施工马尔可夫决策过程框架包括基于施工知识的决策和观测修饰方法以及所述目标评估和到达决策策略网络,所述决策和观测修饰方法用于使智能体具备基于所述施工知识观测并理解所述施工状态的能力,并根据固定的施工逻辑和流程做出相应的施工行为决策,所述目标评估和到达决策策略网络包括高层级的目标评估策略和低层级的目标到达策略,所述目标评估策略用于在奖励稀疏和环境剧烈变化的施工场景中识别施工目标相关指标并优化智能体的目标评估决策,所述目标到达策略用于在拥堵曲折的施工场景中指引智能体到达高价值施工目标。

10、作为优选的技术方案,所述决策和观测修饰方法通过基于施工知识的决策模型、状态转移概率以及施工状态映射与观测修正过程共同实现。

11、作为优选的技术方案,所述状态转移概率包括物理状态转移概率和施工状态转移概率,所述物理状态转移概率用于根据从目标到达策略中采样的智能体到达动作来计算下一个物理状态,所述施工状态转移概率是根据施工知识决策推导出的施工动作演化施工状态的转移概率。

12、作为优选的技术方案,所述物理状态转移概率的影响因素包括各智能体的前向速度、横向速度和转向速率,所述施工状态转移概率的影响因素包括个智能体的任务效率和材料获取效率。

13、作为优选的技术方案,所述施工状态映射与观测修正过程包括,使用智能体当前目标范围和目标对应优先级修改所述智能体的观测,所述目标对应优先级通过所述目标评估和到达决策策略网络获取。

14、作为优选的技术方案,所述通过两阶段强化学习方法训练优化所述目标评估和到达决策策略网络的过程包括:

15、第一阶段训练,取消设置任务持续时间、设备需求以及堆场库存的消耗,训练各智能体的目标评估和到达决策策略网络;

16、基于所述第一阶段的训练结果,重新设置所述任务持续时间、所述设备需求以及所述堆场库存的消耗,再次训练目标评估和到达决策策略网络。

17、作为优选的技术方案,所述两阶段强化学习方法包括mappo算法。

18、根据本专利技术的第二方面,提供一种基于多智能体强化学习的施工模拟装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现所述的方法。

19、与现有技术相比,本专利技术具有以下有益效果:

20、1、本专利技术引入施工知识,使代理人(即智能体)能够在环境中感知施工状态并根据专业知识做出对应的决策,完成所需的施工目标,统一不同施工人员的智能体决策模型,实现施工主体决策模型的集中式训练和分布式执行,提出了目标评估和到达决策策略网络,通过本方法提出的两阶段强化学习方法进行智能优化,能够为班组智能体找到密集和稀疏区域之间交错施工的施工策略,充分考虑了主观决策和施工场景对确定施工策略的影响,进而能够在保证施工模拟精确性的同时,提高施工效率;

21、2、本专利技术采用的目标评估和到达决策策略网络是一个层级化的策略模型,通过训练该层级化的策略模型实现施工过程的智能模拟,低层级目标到达策略为代理进行实时的移动决策并降低移动阻塞,高层级目标评估策略为代理提供目标评估决策以优化当前构件任务次序,进而从降低移动阻塞和优化构件任务次序两个方面有效提高了施工效率;

22、3、本专利技术统一并规范本文档来自技高网...

【技术保护点】

1.一种基于多智能体强化学习的施工模拟方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多智能体强化学习的施工模拟方法,其特征在于,在所述施工马尔可夫决策过程中,每个智能体的观测包括高层级目标评估策略的观测值和低层级目标到达策略的观测值,每个智能体的动作包括施工动作、目标评估动作和目标到达动作,每个智能体的奖励包括目标评估策略的奖励和目标到达策略的奖励。

3.根据权利要求1所述的基于多智能体强化学习的施工模拟方法,其特征在于,所述施工马尔可夫决策过程框架包括基于施工知识的决策和观测修饰方法以及所述目标评估和到达决策策略网络,所述决策和观测修饰方法用于使智能体具备基于所述施工知识观测并理解所述施工状态的能力,并根据固定的施工逻辑和流程做出相应的施工行为决策,所述目标评估和到达决策策略网络包括高层级的目标评估策略和低层级的目标到达策略,所述目标评估策略用于在奖励稀疏和环境剧烈变化的施工场景中识别施工目标相关指标并优化智能体的目标评估决策,所述目标到达策略用于在拥堵曲折的施工场景中指引智能体到达高价值施工目标。

4.根据权利要求3所述的基于多智能体强化学习的施工模拟方法,其特征在于,所述决策和观测修饰方法通过基于施工知识的决策模型、状态转移概率以及施工状态映射与观测修正过程共同实现。

5.根据权利要求4所述的基于多智能体强化学习的施工模拟方法,其特征在于,所述状态转移概率包括物理状态转移概率和施工状态转移概率,所述物理状态转移概率用于根据从目标到达策略中采样的智能体到达动作来计算下一个物理状态,所述施工状态转移概率是根据施工知识决策推导出的施工动作演化施工状态的转移概率。

6.根据权利要求5所述的基于多智能体强化学习的施工模拟方法,其特征在于,所述物理状态转移概率的影响因素包括各智能体的前向速度、横向速度和转向速率,所述施工状态转移概率的影响因素包括个智能体的任务效率和材料获取效率。

7.根据权利要求1所述的基于多智能体强化学习的施工模拟方法,其特征在于,所述施工状态映射与观测修正过程包括,使用智能体当前目标范围和目标对应优先级修改所述智能体的观测,所述目标对应优先级通过所述目标评估和到达决策策略网络获取。

8.根据权利要求1所述的基于多智能体强化学习的施工模拟方法,其特征在于,所述通过两阶段强化学习方法训练优化所述目标评估和到达决策策略网络的过程包括:

9.根据权利要求1所述的基于多智能体强化学习的施工模拟方法,其特征在于,所述两阶段强化学习方法包括MAPPO算法。

10.一种基于多智能体强化学习的施工模拟装置,包括存储器、处理器,以及存储于所述存储器中的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9中任一所述的方法。

...

【技术特征摘要】

1.一种基于多智能体强化学习的施工模拟方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多智能体强化学习的施工模拟方法,其特征在于,在所述施工马尔可夫决策过程中,每个智能体的观测包括高层级目标评估策略的观测值和低层级目标到达策略的观测值,每个智能体的动作包括施工动作、目标评估动作和目标到达动作,每个智能体的奖励包括目标评估策略的奖励和目标到达策略的奖励。

3.根据权利要求1所述的基于多智能体强化学习的施工模拟方法,其特征在于,所述施工马尔可夫决策过程框架包括基于施工知识的决策和观测修饰方法以及所述目标评估和到达决策策略网络,所述决策和观测修饰方法用于使智能体具备基于所述施工知识观测并理解所述施工状态的能力,并根据固定的施工逻辑和流程做出相应的施工行为决策,所述目标评估和到达决策策略网络包括高层级的目标评估策略和低层级的目标到达策略,所述目标评估策略用于在奖励稀疏和环境剧烈变化的施工场景中识别施工目标相关指标并优化智能体的目标评估决策,所述目标到达策略用于在拥堵曲折的施工场景中指引智能体到达高价值施工目标。

4.根据权利要求3所述的基于多智能体强化学习的施工模拟方法,其特征在于,所述决策和观测修饰方法通过基于施工知识的决策模型、状态转移概率以及施工状态映射与观测修正过程共同实现。

5.根据权利要求4所述的基于多智能体强化...

【专利技术属性】
技术研发人员:刘伯达杨彬孟馨
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1