基于PCA-XGBoost-IRF的作业车间实时调度方法技术

技术编号：29676813 阅读：30 留言：0更新日期：2021-08-13 21:59

本发明专利技术公开了一种基于PCA‑XGBoost‑IRF的作业车间实时调度方法，包括步骤一：规范数据样本构建；步骤二：样本数据预处理，包括对样本数据进行异常值处理、类别不平衡处理和归一化处理，并对数据集进行切分以满足决策模型构建的输入要求；步骤三：对训练集进行特征工程处理，包括特征提取、特征重要度计算和特征选择；步骤四：基于改进随机森林的决策模型构建，包括随机森林模型构建、将RF模型进行改进得IRF模型和基于栅格搜索对IRF模型的超参数进行寻优；步骤五：基于最优参数的PCA‑XGBoost‑IRF决策模型训练；步骤六：用基于PCA‑XGBoost‑IRF的决策模型实现对动态作业车间调度规则的实时选择与决策。本发明专利技术为基于数据驱动的智能调度研究提供了一种更可靠，鲁棒性、泛化性更强的实时调度方法。

全部详细技术资料下载

【技术实现步骤摘要】
基于PCA-XGBoost-IRF的作业车间实时调度方法
本专利技术涉及一种机器学习与作业车间调度
，具体来说涉及一种基于PCA-XGBoost-IRF的作业车间实时调度方法。
技术介绍
随着人工智能、工业互联网、计算机信息技术的飞速发展，在智能制造背景下新一轮次的工业革命浪潮席卷而来。作业车间生产调度问题(Job-shopSchedulingProblem，JSP)是典型的NP难题，工程应用背景很强。其作为一个交叉性的研究领域，自从Johnson在1954年建立了第一个用于两台机器进行调度的数学模型以来，就受到了计算机、运筹学等多个交叉领域专家的广泛关注。车间作为生产制造的直接执行者，承载着大量的生产任务，同时也是大量实时信息的交汇地。随着实际生产调度问题越来越复杂，制造工艺越来越多样化，从而导致制造车间存在众多不确定因素。例如机器故障、工件返工、缺料、紧急插单、加工时间变化等扰动因素，影响了生产系统的稳定运行，甚至使计划变得不可行。因此为了满足实时动态变化的生产环境，对传统动态作业车间调度问题的解决方法提出了更高的...

【技术保护点】
1.一种基于PCA-XGBoost-IRF的作业车间实时调度方法，包括以下步骤：/nS1：规范数据样本构建/n管理人员可以从信息系统和服务器端调度规则的执行记录中获取不同调度决策时刻对应的生产系统状态与调度规则组成的数据对，构成用于调度知识挖掘的规范样本数据，即CSD＝{A1,A2,A3,...,A64,Rule}；/nS2：样本数据预处理/nS21：对样本数据进行异常值处理；/n车间状态信息的原始样本数据存在许多噪音，首先，使用相关数据分析工具对特征指标进行描述性统计分析，其次，基于箱型图查找异常值，最后，使用列均值填充缺失值、基于四分位箱线图进行异常值剔除等方式对原始数据进行初步处理，从而...

【技术特征摘要】
1.一种基于PCA-XGBoost-IRF的作业车间实时调度方法，包括以下步骤：
S1：规范数据样本构建
管理人员可以从信息系统和服务器端调度规则的执行记录中获取不同调度决策时刻对应的生产系统状态与调度规则组成的数据对，构成用于调度知识挖掘的规范样本数据，即CSD＝{A1,A2,A3,...,A64,Rule}；
S2：样本数据预处理
S21：对样本数据进行异常值处理；
车间状态信息的原始样本数据存在许多噪音，首先，使用相关数据分析工具对特征指标进行描述性统计分析，其次，基于箱型图查找异常值，最后，使用列均值填充缺失值、基于四分位箱线图进行异常值剔除等方式对原始数据进行初步处理，从而得到数据类型比较规整的规范样本数据CSD；
S22：对样本数据进行类别不平衡处理；
为了避免训练样本存在类别不平衡而导致机器学习模型失效的问题，结合实际需求，采用合成少数类过采样技术SMOTE对CSD进行处理；SMOTE算法执行流程为：
Step1:对于少数类中每一个样本xi，以欧氏距离为标准计算它到少数类样本集Smin中所有样本的距离，得到其k近邻；
Step2:根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本xi，从其k近邻中随机选择若干个样本，假设选择的近邻为
Step3:对于每一个随机选出的近邻分别与原样本按照公式(1)构建新的样本；

通过类别不平衡处理处理后得到平衡数据集BDS；
S23：对样本数据进行归一化处理；
综合考虑生产车间状态属性统计特点及车间生产状态的数据类型，采用Max-Min离差标准化对平衡数据集BDS进行归一化处理，表达式如公式(2)所示，把所有属性数据映射到[0,1]之间，避免在训练时出现某些维度占主导地位而导致的训练速度减慢，通过归一化处理得到预处理数据集PDS；

式中，xi'表示xi归一化变换后的数据，xmax代表xi的最大值，xmin代表xi的最小值；
S24：对PDS进行切分处理以满足决策模型构建的输入要求；
将PDS划分为训练数据TrainSet和测试数据TestSet，其中训练数据TrainSet比重占75％，测试数据TestSet比重占25％；同时将训练数据TrainSet作为整个决策模型的输入；
S3：对训练数据TrainSet进行特征工程处理
S31：对训练数据TrainSet进行基于主成分分析法PCA的特征提取降维处理得到低维数据集LDS，具体如下：
(1)对步骤S23中归一化后的样本数据求出协方差矩阵C；
(2)对协方差矩阵C求出其特征向量和特征值；
(3)以特征值大小按行排列相应的特征向量，舍弃特征值较小的特征向量行，将主成分累计贡献率阈值设置为99％，以实现既保留了关键信息，又降低了训练数据的维数，从而间接提高决策模型的训练效率与调度性能；
(4)通过降维处理得到低维数据集LDS；
S32：对低维数据集LDS进行基于XGBoost的特征重要度计算；
S321：XGBoost模型分类过程；
XGBoost模型分类具体的推导过程如下：
基于特征提取得到样本数据集D＝{(xi,yi)|i＝1,2,...,n；xi∈Rm；yi∈R}，其中有n个样本，每个样本有m个特征，并且对应一个目标值yi，假如有K棵回归树，则模型表达式如公式(3)所示：

式中：fk是一棵回归树；F对应了所有回归树的集合；fk(xi)代表第k棵树对数据集中第i个样本的计算分数；
目标函数如公式(4)所示：

式中：l(·)是误差函数，体现了模型拟合训练数据的程度；
为了防止过拟合，定义了正则化项Ω(fk)以惩罚复杂模型；Ω(fk)的表达式为如公式(5)所示：

式中：γ和λ表示对模型的惩罚系数；T和w分别表示第k棵树的叶子数目和叶子的权重；
由于树模型式(3)为加法模型，利用前向分步算法对目标函数训练，设为第i个样本在第t次迭代时的预测值，因此添加ft(xi)以最优化以下目标函数如公式(6)所示：

对式(6)使用二阶泰勒展开简化该函数后去掉常数项如公式(7)、(8)所示：

式中：g′i和g″i分别为损失函数的一阶导数和二阶导数，目标函数如公式(9)所示：

式中：Ij＝{i|q(xi)＝j}代表叶子j的样本组；
将目标函数转换为一个关于wj的一元二次方程求最小值的问题，假设树的结构q固定，可以计算出叶子j的最优权重如公式(10)、(11)所示：

然后计算出相应的最优目标值如公式(12)所示：

式中，fobj表示树的结构分数，值越小表示数的结构越好；
S322：特征的重要度统计；
XGBoost模型集成若干棵回归树后，每棵树的节点作为一次特征分裂，将某特征被选为分裂特征的次数作为该特征的重要度，并通过重要度计算处理得到重要度评估数据IED；
S33：对重要度评估数据IED进行特征选择处理，使得评价函数值达到最优；
S4：IRF决策模型构建
S41：RF模型构建；
随机森林算法RF核心是以多棵决策树为基础的集成分类器，通过采取多个不同的训练样本子集来加大分类模型之间的相异性，从而能够提高该模型的泛化能力以及预测能力；首先，基于Bootstrap随机重采样技术从训练数据TrainSet中有放回地抽取训练实例，形成n个新的训练实例集合；然后，每个训练实例集合分别从特征集中随机选择m个特征作为决策树分裂的特征属性，并计算最佳分类方式；最后，通过训练得到n棵决策树；由这n棵决策树组合成的RF模型为后续对模型进行改进操作提供了模型基础；
S42：基于两种优化策略对随机森林算法RF模型进行改进，并将改进后模型重命名为IRF模型；
S421：对随机森林算法RF模型增加避免相似决策树的优化策略；
通过随机森林算法RF从历史相关数据中学习调度知识SK，假设调度知识SK是对真实调度规则y的一种估计所以在理论上来说和y之间是存在一定的误差；和y之间的平方误差计算公式如式(13)所示；式中δ2是不可避免的，但可以通过减少方差或偏差来减少算法的误差，从而提高随机森林算法的性能；

式中，δ2为噪声，它指的是算法所能达到的期望泛化误差的下界；为方差，它刻画了由于数据扰动所造成的影响；为偏差，它描述了学习算法的期望预测与真实结果的偏离程度；
随机森林算法通过Bagging策略生成的决策树具有近似的分布，因此随机森林算法的方差可以看作是一组同分布的随机变量的方差，其方差计算公式如式(14)所示：

式中，n为随机森林中决策树的数量；Ti表示第i棵决策树；ρ代表决策树之间的相关性；θ2代表每棵决策树的方差；
从式(14)可知，当随机森林所包含的决策树的数量较大时，若能减少决策树之间的相关性ρ，就能减小森林算法的方差，从而可以有效提高算法的性能；
采用避免相似决策树的优化策略以减少决策树之间的相关性ρ，并最终达到提高随机森林算法性能的目的，该优化策略相似度的计算公式如式(15)，决策树之间的相似度取决于它们在使用相同特征属性并对测试实例产生相同预测次数的百分比，为了使得本发明所提方法具有更好的鲁棒性，规定如果两棵决策数之间的相似度大于60％，即被认为是相似的决策树，然后删除测试精确度低的决策树；

式中，DT1与DT2表示进行相似度计算的两棵决策树；count表示DT1与DT2对测试实例分类结果相同的次数；r...

【专利技术属性】
技术研发人员：袁逸萍，熊攀，阿地兰木·斯塔洪，任年鲁，
申请(专利权)人：新疆大学，
类型：发明
国别省市：新疆;65

全部详细技术资料下载我是这个专利的主人