基于Alpha Zero以及结合启发式策略的自动排料方法技术

技术编号：23239731 阅读：18 留言：0更新日期：2020-02-04 18:51

本发明专利技术公开了基于Alpha Zero以及结合启发式策略的自动排料方法，涉及工业生产的排料技术领域。本发明专利技术包括选取启发式策略、选择比较优势机制、选择训练方式和网络模型、模型训练以及自动排料。本发明专利技术启发式策略确定每个元件合适的摆放位置及旋转角度，并用以深度卷积神经网络为基础的策略价值网络来增强MCTS搜索的能力，来确定下一待摆放的元件，如此得到每回合最终排样方案，将当前排样方案结果与之前回合排样方案进行对比，来判断当前回合的比较优势，该回合的排样方案、比较优势又可作为训练数据，提高网络预测动作、评价局面的准确度，如此交替进行，直到训练结果不在提升；有效降低废料率，减少计算时间。

Automatic nesting method based on alpha zero and heuristic strategy

全部详细技术资料下载

【技术实现步骤摘要】
基于AlphaZero以及结合启发式策略的自动排料方法
本专利技术属于工业生产的排料
，特别是涉及基于AlphaZero以及结合启发式策略的自动排料方法。
技术介绍
生产排料，是工业生产成本控制的关键，其目标在于利用最少的原料完成元件加工。对于不同的排样问题约束可能不同，需要针对性处理。而且当元件个数较多时，传统方法往往存在耗时过长的问题。AlphaZero为结合MCTS的深度强化学习算法，该算法通过大量算力进行搜索自我博弈，并不断对网络参数进行优化，实现了只在已知棋类游戏规则，无任何人类经验辅助下，超越人类顶尖棋手的效果。围棋本质上是一个组合优化问题，该问题与二维排料也有类似之处。围棋是一个双人零和博弈，但二维排料只有优化目标，并无两人博弈。在本专利技术中，我们通过将多次排样结果进行比较获得比较优势以此来判断排样方案的好坏，如此结合AlphaZero算法的优点来求解工业排料问题。
技术实现思路
本专利技术的目的在于提供基于AlphaZero以及结合启发式策略的自动排料方法，通过启发式策略确定每个元件的摆放位置，基于多次排样结果的相互比较计算比较优势，并利用比较优势及神经网络的局面评价和动作概率来指导MCTS进行搜索以此来得到较好的排样方案，该排样方案又进一步通过损失最小的方式对模型进行训练，如此不断迭代，直到效果稳定，以此来完成自动排料，解决了现有的排料扩展性差、时间耗时过长的问题。为解决上述技术问题，本专利技术是通过以下技术方案实现的：本专利技术为基于AlphaZ...

【技术保护点】
1.基于Alpha Zero以及结合启发式策略的自动排料方法，其特征在于，包括如下步骤：/nA0：选取启发式策略：针对当前排料问题的目标及性质，选取合适的启发式策略；/nA1：选择比较优势机制：指定与排样结果进行对比的比较优势机制来确定比较优势，并作为网络训练的依据；/nA2：选择训练方式和网络模型：根据排料问题的复杂程度及计算机的承受能力，确定网络模型以及训练方式；/nA3：模型训练：利用self play方法产生训练样本，并对网络模型结构进行训练；/n其中，所述模型训练过程包括如下：/nA31：设定启发式策略以及比较优势机制；/nA32：初始化迭代数iter＝0；/nA33：初始化回合数eps＝0；/nA34：利用MCTS搜索结合比较优势进行自动排料生成训练样本；/nA35：eps＝eps+1并判断eps<neps；若是，则执行步骤A34；若否，则执行步骤A36；/nA36：利用生成的训练样本进行模型训练，网络模型的损失函数为动作概率、网络模型输出的动作概率的交叉熵与比较优势、网络模型输出价值函数的均方误差的和；/nA36：iter＝iter+1并判断iter<nite...

【技术特征摘要】
1.基于AlphaZero以及结合启发式策略的自动排料方法，其特征在于，包括如下步骤：
A0：选取启发式策略：针对当前排料问题的目标及性质，选取合适的启发式策略；
A1：选择比较优势机制：指定与排样结果进行对比的比较优势机制来确定比较优势，并作为网络训练的依据；
A2：选择训练方式和网络模型：根据排料问题的复杂程度及计算机的承受能力，确定网络模型以及训练方式；
A3：模型训练：利用selfplay方法产生训练样本，并对网络模型结构进行训练；
其中，所述模型训练过程包括如下：
A31：设定启发式策略以及比较优势机制；
A32：初始化迭代数iter＝0；
A33：初始化回合数eps＝0；
A34：利用MCTS搜索结合比较优势进行自动排料生成训练样本；
A35：eps＝eps+1并判断eps<neps；若是，则执行步骤A34；若否，则执行步骤A36；
A36：利用生成的训练样本进行模型训练，网络模型的损失函数为动作概率、网络模型输出的动作概率的交叉熵与比较优势、网络模型输出价值函数的均方误差的和；
A36：iter＝iter+1并判断iter<niter；若是，则执行步骤A33；若否，则训练完毕；
A04：自动排料：使用训练好的网络模型增强MCTS的搜索能力，完成自动排料。

2.根据权利要求1所述的基于AlphaZero以及结合启发式策略的自动排料方法，其特征在于，A0中的启发式策略为BL策略或最小面积策略或适应度策略的一种。

3.根据权利要求1所述的基于AlphaZero以及结合启...

【专利技术属性】
技术研发人员：宋艳枝，邱安东，
申请(专利权)人：合肥黎曼信息科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人