【技术实现步骤摘要】
一种基于近端策略优化的二维不规则排样方法
[0001]本专利技术属于二维不规则排样
,具体涉及到一种基于近端策略优化的二维不规则排样方法。
技术介绍
[0002]排样问题属于装箱问题(Bin packing problem)的变体形式,也是组合优化问题的一种,在实际应用中,其目标是指在材料的切割过程中寻找到一个较高的面积利用率。排样问题属于经典的NP
‑
Hard问题,其时间复杂度随着问题规模的增加而迅速上升,难以在合理的时间内求解大规模实例。案例如图1所示。
[0003]对于本专利技术所提到的二维不规则排样问题,主要是针对于母版形状固定,但样片较为复杂的情况,要求在满足所有样片放入母版的基础上,不规则样片之间不能发生重叠,且不规则样片不能超出母版范围。在满足约束条件下,使得母版的面积利用率最大。
[0004]传统的排样算法主要为启发式算法,例如遗传算法,启发式算法,尽管可以在一定时间内得到较优解,但往往有的时候容易陷入局部较优解,但人工智能的出现,给人们带来了新的解决思路,我们可以通过深度强化学习算法来解决二维不规则排样问题,避免陷入局部较优解,且能够解决大规模的不规则排样问题。
技术实现思路
[0005]针对上述不规则样片的形状复杂性以及样片排样顺序和摆放角度带来的大规模等问题,本专利技术提供了一种基于近端策略优化的二维不规则排样方法,解决了现有技术中的形状复杂性以及规模较大性问题。
[0006]为实现上述专利技术目的,本专利技术采用以下技术方案:一种 ...
【技术保护点】
【技术特征摘要】
1.一种基于近端策略优化的二维不规则排样方法,其特征在于,包括如下步骤:1)确定二维不规则排样的约束条件以及优化目标;2)构建二维不规则样片数据集dataset,所述二维不规则样片数据集dataset为一个二维张量组,二维张量组中的每一个元素为一个一维张量,对应一个样片信息,一维张量中的每一个元素对应样片的顶点到质心的距离,其中顶点i到质心的距离r(t
i
)的几何计算方式为:r(t
i
)=([x(t
i
)
‑
x
c
]2+[y(t
i
)
‑
y
c
]2)
1/2
(x
c
,y
c
)为不规则样片质心坐标,(x(t
i
),y(t
i
))为不规则样片的顶点坐标;3)根据马尔可夫决策过程,配置深度强化学习训练环境;4)训练深度强化学习网络;5)从经验区Memory中选择奖励值最高的元素,对应的动作序列为最终的排样方案。2.如权利要求1所述的基于近端策略优化的二维不规则排样方法,其特征在于,所述步骤1)中,所述约束条件包括:不规则样片之间不能发生重叠、所有样片位于母版内部、不规则样片可以旋转的角度为:0,90,180,270;所述优化目标包括:在所有样片全部排完之后,要求当前母版使用的长度最短,母版的利用率最大。3.如权利要求1所述的基于近端策略优化的二维不规则排样方法,其特征在于所述步骤3)中,配置深度强化学习训练环境,包括如下步骤:3.1)定义状态和动作,其中,每个状态S包括两个状态分量:使用长度L
min
和面积利用率ρ;初始状态为S0,表示母版中未放入样片;每个动作A包括三个子动作:样片的选择、样片的旋转角度以及样片的摆放位置;3.2)搭建深度强化学习环境,学习环境包括:构造函数,重置函数,步骤函数;其中,所述构造函数用于初始化母版长度L、母版宽度W、样片个数polys;所述重置函数用于重置训练环境,清空母版,并返回初始状态S0;所述步骤函数用于执行一个动作,将样片放入母版当中;3.3)选择近端策略优化算法作为深度强化学习智能体;3.4)选择改进的指针网络作为深度强化学习网络模型;3.5)设置深度强化学习的参数,所述参数包括:训练回合数train_episodes,回合计数器episodes;回合计数器episodes初值为0;3.6)设置深度强化学习的经验区,所述经验区Memory为一个集合,其中,集合中的每一个元素包括回合计数器episodes的值、当前回合的动作序列以及当前回合的最终奖励。4.如权利要求1所述的基于近端策略优化的二维不规则排样方法,其特征在于,所述步骤4)中训练深度强化学习网络,包括如下步骤:4.1)episodes=episodes...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。