当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于近端策略优化的二维不规则排样方法技术

技术编号:36384966 阅读:19 留言:0更新日期:2023-01-18 09:47
本发明专利技术属于二维不规则排样技术领域,提供了一种基于近端策略优化的二维不规则排样方法,用深度强化学习来解决二维不规则排样问题,将较为复杂的不规则样片转换为一维张量输入到指针网络,并使用近端策略优化算法选择不规则样片的排样顺序以及摆放角度,解决二维不规则排样过程中因为样片顺序摆放角度带来的大规模离散动作空间的搜索问题。本发明专利技术为二维不规则排样问题提供新的解决方法,可以提高排样的效率,扩大样片的样本容量,能够解决较为复杂的二维不规则排样问题。复杂的二维不规则排样问题。复杂的二维不规则排样问题。

【技术实现步骤摘要】
一种基于近端策略优化的二维不规则排样方法


[0001]本专利技术属于二维不规则排样
,具体涉及到一种基于近端策略优化的二维不规则排样方法。

技术介绍

[0002]排样问题属于装箱问题(Bin packing problem)的变体形式,也是组合优化问题的一种,在实际应用中,其目标是指在材料的切割过程中寻找到一个较高的面积利用率。排样问题属于经典的NP

Hard问题,其时间复杂度随着问题规模的增加而迅速上升,难以在合理的时间内求解大规模实例。案例如图1所示。
[0003]对于本专利技术所提到的二维不规则排样问题,主要是针对于母版形状固定,但样片较为复杂的情况,要求在满足所有样片放入母版的基础上,不规则样片之间不能发生重叠,且不规则样片不能超出母版范围。在满足约束条件下,使得母版的面积利用率最大。
[0004]传统的排样算法主要为启发式算法,例如遗传算法,启发式算法,尽管可以在一定时间内得到较优解,但往往有的时候容易陷入局部较优解,但人工智能的出现,给人们带来了新的解决思路,我们可以通过深度强化学习算法来解决二维不规则排样问题,避免陷入局部较优解,且能够解决大规模的不规则排样问题。

技术实现思路

[0005]针对上述不规则样片的形状复杂性以及样片排样顺序和摆放角度带来的大规模等问题,本专利技术提供了一种基于近端策略优化的二维不规则排样方法,解决了现有技术中的形状复杂性以及规模较大性问题。
[0006]为实现上述专利技术目的,本专利技术采用以下技术方案:一种基于近端策略优化的二维不规则排样方法,包括如下步骤:
[0007]1)确定二维不规则排样的约束条件以及优化目标;
[0008]2)构建二维不规则样片数据集dataset,所述二维不规则样片数据集dataset为一个二维张量组,二维张量组中的每一个元素为一个一维张量,对应一个样片信息,一维张量中的每一个元素对应样片的顶点到质心的距离,其中顶点i到质心的距离r(t
i
)的几何计算方式为:
[0009]r(t
i
)=([x(t
i
)

x
c
]2+[y(t
i
)

y
c
]2)
1/2
[0010](x
c
,y
c
)为不规则样片质心坐标,(x(t
i
),y(t
i
))为不规则样片的顶点坐标;
[0011]3)根据马尔可夫决策过程,配置深度强化学习训练环境;
[0012]4)训练深度强化学习网络;
[0013]5)从经验区Memory中选择奖励值最高的元素,对应的动作序列为最终的排样方案。
[0014]进一步的,上述步骤1)中,所述约束条件包括:不规则样片之间不能发生重叠、所有样片位于母版内部、不规则样片可以旋转的角度为:0,90,180,270;所述优化目标包括:
在所有样片全部排完之后,要求当前母版使用的长度最短,母版的利用率最大。
[0015]进一步的,上述步骤3)中,配置深度强化学习训练环境,包括如下步骤:
[0016]3.1)定义状态和动作,其中,每个状态S包括两个状态分量:使用长度L
min
和面积利用率ρ;初始状态为S0,表示母版中未放入样片;每个动作A包括三个子动作:样片的选择、样片的旋转角度以及样片的摆放位置;
[0017]3.2)搭建深度强化学习环境,学习环境包括:构造函数,重置函数,步骤函数;其中,构造函数用于初始化母版长度L、母版宽度W、样片个数polys;重置函数用于重置训练环境,清空母版,并返回初始状态S0;步骤函数用于执行一个动作,将样片放入母版当中;
[0018]3.3)选择近端策略优化算法作为深度强化学习智能体;
[0019]3.4)选择改进的指针网络作为深度强化学习网络模型;
[0020]3.5)设置深度强化学习的参数:所述参数包括:训练回合数train_episodes,回合计数器episodes;回合计数器episodes初值为0;
[0021]3.6)设置深度强化学习的经验区:所述经验区Memory为一个集合,其中,集合中的每一个元素包括回合计数器episodes的值,当前回合的动作序列,以及当前回合的最终奖励。
[0022]进一步的,上述步骤4)中训练深度强化学习网络,包括如下步骤:
[0023]4.1)episodes=episodes+1;
[0024]4.2)将样片数据集dataset输入到指针网络,计算每个样片的被选择概率,构建概率集合poly_list,poly_list为一个二元组集合,每个二元组中的两个元素分别表示一个样片的序号以及该样片被选择的概率;其中:第i个样片被选中的概率计算公式如下:
[0025]p
i
=softmax(v
T
tanh(W1h
j
+W2h
i
)),i∈(1,...,n)
[0026]h
j
为encoder在时间序列j次的输出,h
i
为decoder在时间序列i次的输出,W1, W2,v
T
为固定维度参数,p
i
为概率集合;
[0027]4.3)初始化样片计数器count=0,初始化当前状态curr_state=S0;
[0028]4.4)根据当前状态curr_state和智能体(PPO)中的策略网络确定动作A
count+1
,并将动作A
count+1
保存到经验区Memory的第episodes个元素中;
[0029]4.5)执行动作A
count+1
,将样片放入到母版当中,得到一个新的状态S
count+1

[0030]4.6)curr_state=S
count+1
,count=count+1;
[0031]4.7)判断所有的样片是否全部放入,如果count<=polys,则样片没有全部放入,转步骤4.4),否则,本回合结束,转下一步;
[0032]4.8)计算最终奖励R,并把奖励值R保存到经验区Memory的第episodes个元素中,其中,计算奖励公式如下:
[0033][0034]其中M
i
为第i个样片的面积,L
min
为母版的使用长度
[0035]4.9)判断是否结束训练,如果episodes<=train_episodes;则训练没有结束,清空当前状态,重置训练环境,转步骤4.1),否则转下一步骤5);
[0036]进一步的,上述步骤4.4)中,利用智能体中的策略网络确定动作A
count+1<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于近端策略优化的二维不规则排样方法,其特征在于,包括如下步骤:1)确定二维不规则排样的约束条件以及优化目标;2)构建二维不规则样片数据集dataset,所述二维不规则样片数据集dataset为一个二维张量组,二维张量组中的每一个元素为一个一维张量,对应一个样片信息,一维张量中的每一个元素对应样片的顶点到质心的距离,其中顶点i到质心的距离r(t
i
)的几何计算方式为:r(t
i
)=([x(t
i
)

x
c
]2+[y(t
i
)

y
c
]2)
1/2
(x
c
,y
c
)为不规则样片质心坐标,(x(t
i
),y(t
i
))为不规则样片的顶点坐标;3)根据马尔可夫决策过程,配置深度强化学习训练环境;4)训练深度强化学习网络;5)从经验区Memory中选择奖励值最高的元素,对应的动作序列为最终的排样方案。2.如权利要求1所述的基于近端策略优化的二维不规则排样方法,其特征在于,所述步骤1)中,所述约束条件包括:不规则样片之间不能发生重叠、所有样片位于母版内部、不规则样片可以旋转的角度为:0,90,180,270;所述优化目标包括:在所有样片全部排完之后,要求当前母版使用的长度最短,母版的利用率最大。3.如权利要求1所述的基于近端策略优化的二维不规则排样方法,其特征在于所述步骤3)中,配置深度强化学习训练环境,包括如下步骤:3.1)定义状态和动作,其中,每个状态S包括两个状态分量:使用长度L
min
和面积利用率ρ;初始状态为S0,表示母版中未放入样片;每个动作A包括三个子动作:样片的选择、样片的旋转角度以及样片的摆放位置;3.2)搭建深度强化学习环境,学习环境包括:构造函数,重置函数,步骤函数;其中,所述构造函数用于初始化母版长度L、母版宽度W、样片个数polys;所述重置函数用于重置训练环境,清空母版,并返回初始状态S0;所述步骤函数用于执行一个动作,将样片放入母版当中;3.3)选择近端策略优化算法作为深度强化学习智能体;3.4)选择改进的指针网络作为深度强化学习网络模型;3.5)设置深度强化学习的参数,所述参数包括:训练回合数train_episodes,回合计数器episodes;回合计数器episodes初值为0;3.6)设置深度强化学习的经验区,所述经验区Memory为一个集合,其中,集合中的每一个元素包括回合计数器episodes的值、当前回合的动作序列以及当前回合的最终奖励。4.如权利要求1所述的基于近端策略优化的二维不规则排样方法,其特征在于,所述步骤4)中训练深度强化学习网络,包括如下步骤:4.1)episodes=episodes...

【专利技术属性】
技术研发人员:袁浩许恺李政贾清张玉莹
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1