当前位置: 首页 > 专利查询>季华实验室专利>正文

一种基于深度强化学习的二维异形件排样方法技术

技术编号:32772340 阅读:32 留言:0更新日期:2022-03-23 19:27
本发明专利技术提供了一种基于深度强化学习的二维异形件排样方法,涉及二维异形件排样技术领域,基于深度强化学习对排样问题的场景建模,由被切割的木块和已切割出的木块形状构建观测空间,以需要分割出的形状的尺寸建行动空间,设置奖惩机制,配置深度强化学习训练环境,通过深度强化学习训练排样策略,自动探索和采样,生成训练数据,通过反向传播不断优化策略,直到满足排样任务规定的条件。本发明专利技术有益效果:提升搜索的效率,能够应对复杂的二维异形件的排样问题,可以较低成本在不同的需求场景下例如更改母块形状、子块形状、最低切割数量等复用得到新的解决方案。等复用得到新的解决方案。等复用得到新的解决方案。

【技术实现步骤摘要】
一种基于深度强化学习的二维异形件排样方法


[0001]本专利技术属于二维异形件排样
,具体地涉及一种基于深度强化学习的二维异形件排样方法。

技术介绍

[0002]排样问题(Nesting Problem)又称为下料问题(Cutting and stock problems) 或填充问题(Packing Problem),其目标是在材料切割过程中寻找一个较高的材料利用率。排样问题属于经典的NP

Hard问题,其时间复杂度随着问题规模的增加迅速上升,难以在合理时间内精确求解大规模实例。案例如图1所示。
[0003]从一整块平面材料中,切割出多个样式不同的子块(简单任务:几个不同尺寸的矩形木块;复杂任务:除开基础形状,还需要切割出不规则形状的异形快),且满足约束条件:切割出每种型号的子块不少于指定的块数,并且最后剩下的无法分配切割区域(浪费比例)越小越好。
[0004]传统方法例如矩形排样算法、遗传算法等设计分割方案的时候,只能应对简单的场景,比如只能切割出形状较为一致的矩形子块,相较于矩形排样问题,异形件排样问题的突出特点是裁片的边界轮廓复杂,计算过程中需要复杂的几何运算,其算法复杂度将进一步上升,是学术界和工业界公认的难以求解的问题,在大多数情况下,不规则形状排样算法主要是以启发式算法和智能搜索算法为主,这类方法需要人工来设计复杂的预处理手段和复杂的探索策略,自动化困难。

技术实现思路

[0005]本专利技术提供一种基于深度强化学习的二维异形件排样方法,解决现有技术中二维异形件排样复杂、自动化困难等问题。
[0006]本专利技术提供一种基于深度强化学习的二维异形件排样方法,将用于切割排样的平面材料称为母块,需要切割出的异形件和非异形件统称为子块,包括以下步骤:
[0007]步骤1、获取排样任务信息,确定任务的状态空间和行动空间;
[0008]步骤2、引入辅助决策,减小行动空间:每次采取行动时对剩下未排样的母块区域作腐蚀处理,腐蚀的半径为候选子块的最小半径,最小半径定义为候选子块形状的几何中心距离形状轮廓点的最小距离;
[0009]步骤3、设置奖惩机制;
[0010]步骤4、配置深度强化学习训练环境,进行训练,并保存最佳模型;
[0011]步骤5、根据最佳模型,代入任务场景进行推理计算,得到最终的排样方案。
[0012]本专利技术所述步骤1中确定任务的状态空间和行动空间的具体方法为:
[0013](1)确定状态空间S:母块上已被分割为子块的区域和剩余未被分割的区域根据是否分割进行标记,共同构成状态空间S,状态空间S由一个二维空间内一个区域组成,状态空间初始为整个母块都处于未分割的状态;
[0014](2)确定行动空间A:行动空间A由子块的属性决定,属性包括子块的尺寸和放置姿态。
[0015]本专利技术所述步骤(2)中行动空间的具体确定方法为:对每个候选子块指定一个标准初始位姿,规定用于实际切割排样放置形状的时候只能相对初始位置旋转{30,60,90,120,150,180,210,240,270,300,330,360}中的一个角度。
[0016]本专利技术所述奖惩机制设置为:
[0017](1)无重叠:如果放置的子块与剩余可放置的木块区域不满足子块完全被包围,回合结束,并标记为任务结束,给予惩罚

1;
[0018](2)每次在模拟环境中成功切割出一个子块,给予0.01的奖励;
[0019](3)时间成本:每增加一步探索,给予

0.001的惩罚;
[0020](3)利用率:每次回合结束时,计算剩余未排样的面积占比 S_left/S_total,返回对本回合的奖励:γ(1

S_left/S_total),γ为超参;
[0021](4)子块最小数量要求:定义与子块最小数量有关的奖励,定义这部分奖励为未完成的子块数量占总共需要排样的子块比例的负值:

N_unfinished/N_total。
[0022]本专利技术所述步骤(3)中γ按照任务对材料利用率的要求的严格程度,在0.5~2.0之间取值。
[0023]本专利技术所述配置深度强化学习训练环境,进行训练的内容包括:
[0024](1)在母块的可切割区域内根据当前策略π得到下一步的排样动作:基于深度学习的策略π的输入为当前观测到任务场景的状态:母块中已被分割出子块的区域、未被分割的区域,其中未被分割的区域按照辅助策略做腐蚀处理后再输入,输出为二维坐标点P、候选子块n以及旋转角度α;
[0025](2)在模拟环境中,在母块上,以二维坐标点P为中心点,将候选子块n相对默认位置顺时针旋转角度α放置入母块,执行分割子块的操作,将这部分区域标记为已分割,根据奖惩机制,得到环境给予的奖励r;
[0026](3)重复步骤(1)至步骤(2)一直到回合结束,回合结束的标志为下列所述条件之一:
[0027]①
本回合已执行的步数超过设定步数,则立即结束当前回合;
[0028]②
母块中剩余区域的面积小于设定的阈值表示当前的状态下无法再分割出任何一个子块,结束当前回合;
[0029]回合结束时,记录本回合的累积奖励R,即本回合每一步的奖励r累加的和,与预设的最佳模型累积奖励阈值R_best比较,比较本回合的累积奖励 R是否大于R_best来判断当前模型是否处于最佳模型,如果是则保存本回合的模型为最佳模型,并将R_best的数值更新为当前回合的R;
[0030](4)保存本回合的每一步状态转移过程到记忆池,用于训练深度强化学习算法中的价值函数,用梯度下降的方法更新和改进策略π;
[0031](5)如果没有接收到停止训练的信号,进行下一回合的探索,重复步骤(1)~(4),直到出现以下两种状态中的一个或者多个,停止训练:
[0032]①
累计已执行回合数目超过设定步数,停止训练;
[0033]②
累积奖励R大于预设的阈值,停止训练。
[0034]本专利技术所述步骤(3)中R_best的初始化取值为

9999。
[0035]本专利技术所述步骤(3)中所述本回合已执行的步数超过设定步数3000次,则立即结束当前回合。
[0036]本专利技术所述步骤(3)中阈值设置为候选子块中最小子块面积的3倍。
[0037]本专利技术所述步骤(5)中累计已执行回合数目超过设定步数5000次,停止训练。
[0038]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本专利技术的实施例的关键或重要特征,亦非用于限制本专利技术的范围。本专利技术的其它特征将通过以下的描述变得容易理解。
[0039]本专利技术有益效果:本专利技术将二维异形件的排样问题转换为强化学习适用的场景,设置状态空间、行动空间和奖励机制,添加了辅助函数,帮助提升搜索的效率,能够应对复杂的二维异形件的排样问题本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的二维异形件排样方法,将用于切割排样的平面材料称为母块,需要切割出的异形件和非异形件统称为子块,其特征在于,包括以下步骤:步骤1、获取排样任务信息,确定任务的状态空间和行动空间;步骤2、引入辅助决策,减小行动空间:每次采取行动时对剩下未排样的母块区域作腐蚀处理,腐蚀的半径为候选子块的最小半径,最小半径定义为候选子块形状的几何中心距离形状轮廓点的最小距离;步骤3、设置奖惩机制;步骤4、配置深度强化学习训练环境,进行训练,并保存最佳模型;步骤5、根据最佳模型,代入任务场景进行推理计算,得到最终的排样方案。2.根据权利要求1所述的一种基于深度强化学习的二维异形件排样方法,其特征在于,所述步骤1中确定任务的状态空间和行动空间的具体方法为:(1)确定状态空间S:母块上已被分割为子块的区域和剩余未被分割的区域根据是否分割进行标记,共同构成状态空间S,状态空间S由一个二维空间内一个区域组成,状态空间初始为整个母块都处于未分割的状态;(2)确定行动空间A:行动空间A由子块的属性决定,属性包括子块的尺寸和放置姿态。3.根据权利要求1所述的一种基于深度强化学习的二维异形件排样方法,其特征在于,所述步骤(2)中行动空间的具体确定方法为:对每个候选子块指定一个标准初始位姿,规定用于实际切割排样放置形状的时候只能相对初始位置旋转{30,60,90,120,150,180,210,240,270,300,330,360}中的一个角度。4.根据权利要求1所述的一种基于深度强化学习的二维异形件排样方法,其特征在于,所述奖惩机制设置为:(1)无重叠:如果放置的子块与剩余可放置的木块区域不满足子块完全被包围,回合结束,并标记为任务结束,给予惩罚

1;(2)每次在模拟环境中成功切割出一个子块,给予0.01的奖励;(3)时间成本:每增加一步探索,给予

0.001的惩罚;(3)利用率:每次回合结束时,计算剩余未排样的面积占比S_left/S_total,返回对本回合的奖励:γ(1

S_left/S_total),γ为超参;(4)子块最小数量要求:定义与子块最小数量有关的奖励,定义这部分奖励为未完成的子块数量占总共需要排样的子块比例的负值:

N_unfinished/N_total。5.根据权利要求4所述的一种基于深度强化学习的二维异形件排样方法,其特征在于,所述步骤(3)中γ按照任务对材料利用率的要求的严格程度,在0.5...

【专利技术属性】
技术研发人员:张校志付鑫陈良煜
申请(专利权)人:季华实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1