基于强化学习的设施布局优化方法技术

技术编号:32538780 阅读:93 留言:0更新日期:2022-03-05 11:35
一种基于强化学习的设施布局优化方法,通过针对伴随图的图神经网络并与深度双层优势Q神经网络相结合,利用强化学习进行优化。本发明专利技术尝试使用强化学习模型来设计设施布局方法,采用无需标签的训练方式,即在训练过程中无需使用当前设施布局场景的最优解或次优解作为标签,从而在精度和效率中做出平衡。从而在精度和效率中做出平衡。从而在精度和效率中做出平衡。

【技术实现步骤摘要】
基于强化学习的设施布局优化方法


[0001]本专利技术涉及的是一种机器学习领域的技术,具体是一种基于强化学习的设施布局优化方法。

技术介绍

[0002]设施布局指的是在给定的设施范围内,对多个经济活动单元进行位置安排,过去几十年己激发许多学者对其理论,应用和优化技术的研究。但现有的近似方法耗时短但求解精度较差,精确方法虽然精度较高但是耗时过长,较小规模的设施布局场景都可能需要花费数个小时甚至数天求解。现有的基于机器学习的求解方法是将设施布局中的二阶目标转化为一阶目标,然而这一范式明显具有瓶颈,因为一阶目标很难完整的代表二阶目标。因此,这种做法的上升空间也十分有限。现有的基于机器学习的求解方法,大多采用监督学习和模仿学习,需要设施布局的最优解或者较优解作为标签进行训练。但是,这样的做法训练出的模型,其性能很难超过其作为标签的最优解或者较优解。

技术实现思路

[0003]本专利技术针对现有技术存在的上述不足,提出一种基于强化学习的设施布局优化方法,尝试使用强化学习模型来设计设施布局方法,采用无需标签的训练方式,即在训练过程中无需使用当前设施布局场景的已知最优解作为标签,从而在精度和效率中做出平衡。
[0004]本专利技术是通过以下技术方案实现的:
[0005]本专利技术涉及一种基于强化学习的设施布局优化方法,包括:离线阶段和在线阶段,其中:
[0006]离线阶段包括:
[0007]步骤1)从已有数据集中选择若干设施布局场景进行建模,将其抽象为在伴随图上选择节点。
[0008]所述的设施布局场景包括但不限于校园建筑物的布局、医院科室的安排等场景。
[0009]所述的建模,具体过程为:将房间与候选位置作为节点,利用三角剖分建立房间拓扑图和候选位置拓扑图,然后将两张拓扑图融合为伴随图,图上的每个节点表示将一个房间与一个候选位置匹配,从而将设施布局问题建模为在伴随图上选择若干节点的问题。
[0010]步骤2)创建智能体与对应的神经网络,并设定训练轮数。
[0011]步骤3)构建伴随图G,每个点均标为可行。
[0012]步骤4)利用神经网络对伴随图G进行特征抽取,对每个节点进行一个评估,在此基础上选择下一个可行点,作为动作;
[0013]所述的特征提取,通过针对伴随图特征抽取设计的神经网络实现,即根据相邻特征提取顶点特征,并在每次迭代中不断地融合每个节点的自身特征与邻居特征,使得每个点的特征会融合自身特征,邻居特征,与图几何结构信息,具体为:E
t+1
=ReLU(h1+h2+h3+
h4),其中:h1=X

·
θ1,E
t
为在每次迭代中对伴随图的嵌入为,h1,h2,h3,h4为的四个隐藏层,分别为节点自身特征,节点邻居特征,图结构中的点权与边权;X

为目前选择的点的矩阵为,即当前的排列阵;F为伴随图中的点权矩阵,W为伴随图中的边权矩阵,θ为神经网络中待学习的参数,n1,n2分别为原图中的点数;图神经网络在每次迭代中,先计算出h1,h2,h3,h4四个隐藏层,然后将其融合,作为新的图嵌入为;这样的迭代会重复若干次,最终使得图嵌入为能将图中所有的信息尽可能全面的融合;伴随图的初始嵌入为E0规定为0,同时使用ReLU作为神经网络的激活函数;在计算的过程中除以(n1‑
1)(n2‑
1)是为计算所有节点的平均值。
[0014]步骤5)根据步骤4中选择的动作点,更新伴随图,标注已选择的动作点和由于限制无法选择的点,具体为:通过神经网络估计选择每个动作可能获得的奖励,以选择可能获得的奖励值最高的动作。而当每选择一个动作后,我们可以得到确定的奖励值;通过与神经网络估计的Q值进行对比,以更新神经网络。
[0015]步骤6)当还有点可选时回到步骤4,否则进入步骤7;
[0016]步骤7)计算本次得到的奖励值的估计,即Q值,更新选择智能体动作的策略并通过实际获得的奖励值训练神经网络,从而实现强化学习,当训练未结束回到步骤3,训练到达设定的轮数则进入步骤8;
[0017]步骤8)预训练完成,保存模型参数,离线阶段结束。
[0018]在线阶段包括:
[0019]步骤a)对待优化的设施布局场景进行建模,将其抽象成在伴随图上选择节点。
[0020]步骤b)创建智能体与对应的神经网络,并加载离线阶段保存的模型参数。
[0021]步骤c)构建伴随图G,每个点均标为可行。
[0022]步骤d)通过对伴随图G的观察与特征抽取,利用强化学习方法选择合适的可行点,作为动作;
[0023]步骤e)根据步骤d中选择的点,更新伴随图,标注已选择的点,和由于限制无法选择的点(虚节点);
[0024]步骤f)当还有点可选时回到步骤d,否则进入步骤g;
[0025]步骤g)将所有已经选择的点整合,即得到针对输入场景的布局方法。
[0026]本专利技术涉及一种实现上述方法的系统,包括:包括离线预训练模块和在线设施布局模块,其中:离线预训练模块根据已有的数据集信息,对智能体的神经网络进行训练;在线设施布局模块根据实际的应用场景,利用训练好的神经网络,利用强化学习智能体输出一套设施布局方案。技术效果
[0027]本专利技术将设施布局问题建模为基于伴随图的匹配问题,通过针对伴随图的图神经网络并与深度双层优势Q神经网络相结合,利用强化学习进行优化。本专利技术相比于现有算法更能考虑每一次匹配对最终结果产生的影响;通过自行设计改进的图神经网络更好地利用图中的结构信息,以实现全局信息和局部信息的充分挖掘,做到一步步地输出求解过程,更好地与先验知识交互并与人工辅助相结合。
附图说明
[0028]图1为本专利技术流程图;
[0029]图中:a为建模过程中将两个图融合为伴随图的示意;b为强化学习示意;
[0030]图2为实施例示意图。
具体实施方式
[0031]本实施例涉及一种基于强化学习的设施布局优化方法,以图1中设施布局中的医院科室布局场景为例,
[0032]本实施例有1,2,3三个科室,与a,b,c三个候选位置,目的是要将三个科室分别安排在三个候选位置中,目标为:
[0033]1.不同的科室对每个位置有不同的期望的得分,比如病患较多的科室对楼层较低的位置的得分就较高;
[0034]2.每两个科室间对二者所在的位置关系有不同的期望得分,比如,当科室1与科室2的人员流动较多,那么他们当然希望二者的位置较为接近,即他们的位置a与位置b越靠近则得分越高。
[0035]这两部分得分本实施例分别称为一阶目标得分与二阶目标得分。因为需要考虑同时考虑一阶与二阶目标得分,本实施例将设施布局建模为二次指派问题,即最大化:时考虑一阶与二阶目标得分,本实施例将设施布局建模为二次指派问题,即最大化:其中:X是对设施布局求解得到的排列阵,这个排列阵每一行每一列有且仅有1,其余为0,表示将某设施安排到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的设施布局优化方法,其特征在于,包括:离线阶段和在线阶段,其中:离线阶段包括:步骤1)从已有数据集中选择若干设施布局场景进行建模,将其抽象为在伴随图上选择节点;步骤2)创建智能体与对应的神经网络,并设定训练轮数;步骤3)构建伴随图G,每个点均标为可行;步骤4)利用神经网络对伴随图G进行特征抽取,对每个节点进行一个评估,在此基础上选择下一个可行点,作为动作;步骤5)根据步骤4中选择的动作点,更新伴随图,标注已选择的动作点和由于限制无法选择的点,具体为:通过神经网络估计选择每个动作可能获得的奖励,以选择可能获得的奖励值最高的动作,当每选择一个动作后得到确定的奖励值;通过与神经网络估计的Q值进行对比,以更新神经网络;步骤6)当还有点可选时回到步骤4,否则进入步骤7;步骤7)计算本次得到的奖励值的估计,即Q值,更新选择智能体动作的策略并通过实际获得的奖励值训练神经网络,从而实现强化学习,当训练未结束回到步骤3,训练到达设定的轮数则进入步骤8;步骤8)预训练完成,保存模型参数,离线阶段结束;在线阶段包括:步骤a)对待优化的设施布局场景进行建模,将其抽象成在伴随图上选择节点;步骤b)创建智能体与对应的神经网络,并加载离线阶段保存的模型参数;步骤c)构建伴随图G,每个点均标为可行;步骤d)通过对伴随图G的观察与特征抽取,利用强化学习方法选择合适的可行点,作为动作;步骤e)根据步骤d中选择的点,更新伴随图,标注已选择的点,和由于限制无法选择的点;步骤f)当还有点可选时回到步骤d,否则进入步骤g;步骤g)将所有已经选择的点整合,即得到针对输入场景的布局方法;所述的建模,具体过程为:将房间与候选位置作为节点,利用三角剖分建立房间拓扑图和候选位置拓扑图,然后将两张拓扑图融合为伴随图,图上的每个节点表示将一个房间与一个候选位置匹配,从而将设施布局问题建模为在伴随图上选择若干节点的问题。2.根据权利要求1所述的基于强化学习的设施布局优化方法,其特征是,所述的更新选择是指:通过神经网络估计选择每个动作可能获得的奖励,以选择可能获得的奖励值最高的动作,当每选择一个动作后,得到确定的奖励值;通过与神经网络估计的Q值进行对比,以更新神经网络。3.根据权利要求1所述的基于强化学习的设施布局优化方法,其特征是,所述的特征提取,通过伴随图特征抽取神经网络实现,即根据相邻特征提取顶点特征,并在每次迭代中不断地融合每个节点的自身特征与邻居特征,使得每个点的特征会融合自身特征,邻居特征,与图几何结构信息,具体为:E
t+1
=ReLU(h1+h2+h3+h4),其中:h1=X

·
θ1,
E
t
为在每次迭代中对伴随图的嵌入为,h1,h2,h3,h4为的四个隐藏层,分别为节点自身特征,节点邻居特征,图结构中的点权与边权;X

为目前选择的点的矩阵为,即当前的排列阵;F为伴随图中的点权矩阵,W为伴随图中的边权矩阵,θ为神经网络中待学习的参数,n1,n2分别为原...

【专利技术属性】
技术研发人员:刘畅汪润中严骏驰
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1