当前位置: 首页 > 专利查询>新疆大学专利>正文

基于PCA-XGBoost-IRF的作业车间实时调度方法技术

技术编号:29676813 阅读:15 留言:0更新日期:2021-08-13 21:59
本发明专利技术公开了一种基于PCA‑XGBoost‑IRF的作业车间实时调度方法,包括步骤一:规范数据样本构建;步骤二:样本数据预处理,包括对样本数据进行异常值处理、类别不平衡处理和归一化处理,并对数据集进行切分以满足决策模型构建的输入要求;步骤三:对训练集进行特征工程处理,包括特征提取、特征重要度计算和特征选择;步骤四:基于改进随机森林的决策模型构建,包括随机森林模型构建、将RF模型进行改进得IRF模型和基于栅格搜索对IRF模型的超参数进行寻优;步骤五:基于最优参数的PCA‑XGBoost‑IRF决策模型训练;步骤六:用基于PCA‑XGBoost‑IRF的决策模型实现对动态作业车间调度规则的实时选择与决策。本发明专利技术为基于数据驱动的智能调度研究提供了一种更可靠,鲁棒性、泛化性更强的实时调度方法。

【技术实现步骤摘要】
基于PCA-XGBoost-IRF的作业车间实时调度方法
本专利技术涉及一种机器学习与作业车间调度
,具体来说涉及一种基于PCA-XGBoost-IRF的作业车间实时调度方法。
技术介绍
随着人工智能、工业互联网、计算机信息技术的飞速发展,在智能制造背景下新一轮次的工业革命浪潮席卷而来。作业车间生产调度问题(Job-shopSchedulingProblem,JSP)是典型的NP难题,工程应用背景很强。其作为一个交叉性的研究领域,自从Johnson在1954年建立了第一个用于两台机器进行调度的数学模型以来,就受到了计算机、运筹学等多个交叉领域专家的广泛关注。车间作为生产制造的直接执行者,承载着大量的生产任务,同时也是大量实时信息的交汇地。随着实际生产调度问题越来越复杂,制造工艺越来越多样化,从而导致制造车间存在众多不确定因素。例如机器故障、工件返工、缺料、紧急插单、加工时间变化等扰动因素,影响了生产系统的稳定运行,甚至使计划变得不可行。因此为了满足实时动态变化的生产环境,对传统动态作业车间调度问题的解决方法提出了更高的要求。随着云计算、大数据等先进信息技术的推广应用,制造业生产车间智能化水平不断提高,使得制造企业信息系统存中储了海量有价值的数据。这为生产加工过程实现智能化实时决策提供了可能。在智能制造背景下,如何有效地利用制造系统相关历史数据并从中挖掘调度知识来指导实际车间生产活动是目前工业界与学术界的研究热点。由于调度规则具有计算效率高、实际可操作性强、操作简单等优点,而被广泛应用与实时调度研究中。针对不确定环境下基于数据驱动的车间实时调度问题,许多专家学者已经展开深入研究,例如:Azadeh等针对不确定环境下作业车间动态调度问题,提出了一种基于计算机仿真和自适应神经模糊推理系统的混合算法。以完工时间最小化为调度目标,实现最优调度规则的实时决策与动态选择。Shiue等人提出了一种基于数据挖掘技术的动态最优调度规则选择机制。利用遗传算法进行特征选择,并基于支持向量机构造了一种新的调度规则选择器,实现规则的实时选择。Mouelhi等人针对流水车间调度问题,提出了一种基于神经网络算法的调度规则选择模型。同济大学的马玉敏等人针对于半导体生产调度优化问题,设计了一种基于数据驱动的调度框架。Yu等人提出了一种基于遗传算法的实时调度方法用于解决动态作业车间调度问题。张国辉等人针对柔性作业车间动态调度问题,构建了一种数据驱动的调度模型。Ma等人针对车间不同实时状态的规则组合问题,设计并提出了一种数据驱动的基于SVR的动态调度模型。汤洪涛等人设计了一种基于数据挖掘的柔性作业车间动态调度方法。Nagahara等提出了一种数据驱动的仿真建模方法,对历史生产数据进行仿真分析,并使用机器学习技术来挖掘调度规则。Metan等利用决策树分类算法来根据实时生产数据动态选择最优的调度规则。Shahzad等提出一种基于数据挖掘的调度系统框架,从利用禁忌搜索算法所获得的作业车间调度优化解中提取新的调度知识,指导实际生产。孙琳等人提出了一种基于数据驱动的BP神经网络实时调度方法,用于求解混流车间的生产调度问题,并最终实现了调度规则的实时选取。Shiue等针对柔性制造系统动态调度问题,提出了一种基于强化学习的实时调度模型,实现最优调度规则的动态选择。综上所述,尽管上述研究已经取得了非常不错的效果,但是随着生产环境复杂性的增加,这些方法的泛化性能和学习效率仍然存在局限性。例如,启发式算法在迭代循环过程中存在陷入局部最优的风险;决策树由于泛化能力不足,所以不适合大规模、高维度历史数据的知识挖掘;支持向量机作为一类监督学习式的机器学习算法,虽然能够通过该方法进行非线性分类,但SVM仅适用于小样本数据且算法收敛速度较慢;基于神经网络的调度方法,在训练过程中需要大量训练样本进行知识学习,因此耗时较长,可解释性较差。强化学习算法虽然能实现自适应决策,但强化学习算法通常使用策略表来存储所有可能的状态和相应的动作,当生产场景变得更加复杂时,会导致维度灾难问题,这使得调度性能可能会显著下降。而且随着生产规模的扩大,导致生产系统运行中的不确定性急剧增加,传统动态调度方法难以适应复杂多样的实时生产环境。因此在车间调度中必须将其加以考虑,及进行动态调度。与此同时由于人工操作、设备可靠性、供应链稳定性和紧急订单等不确定性因素存在。随着系统运行时间增加,误差逐步累积,预调度结果会逐渐偏离生产实际。因此,需要考虑生产系统的实时性调度。随机森林(RandomForest,RF)是集成学习模型中的典型代表,由于其具有容噪能力强、能够避免过拟合、泛化性好等优点,而广泛应用于网络安全检测、故障诊断、可靠性预测和图像识别等领域。但目前对随机森林在智能调度领域应用的研究相对较少。
技术实现思路
本专利技术所要解决的技术问题是:为了克服传统作业车间实时调度方法实际可操作性不高、计算时间成本高与对车间扰动的实时响应能力不足的问题,本专利技术提供一种实际可操作性强、计算效率高、可以对车间扰动做出实时响应的基于PCA-XGBoost-IRF的作业车间实时调度方法。本专利技术的技术方案是通过以下措施来实现的:一种基于PCA-XGBoost-IRF的作业车间实时调度方法,包括以下步骤:S1:规范数据样本构建管理人员可以从信息系统和服务器端调度规则的执行记录中获取不同调度决策时刻对应的生产系统状态与调度规则组成的数据对,构成用于调度知识挖掘的规范样本数据,即CSD={A1,A2,A3,...,A64,Rule};S2:样本数据预处理S21:对样本数据进行异常值处理;车间状态信息的原始样本数据存在许多噪音,首先,使用相关数据分析工具对特征指标进行描述性统计分析,其次,基于箱型图查找异常值,最后,使用列均值填充缺失值、基于四分位箱线图进行异常值剔除等方式对原始数据进行初步处理,从而得到数据类型比较规整的规范样本数据CSD;S22:对样本数据进行类别不平衡处理;为了避免训练样本存在类别不平衡而导致机器学习模型失效的问题,结合实际需求,采用合成少数类过采样技术SMOTE对CSD进行处理;SMOTE算法执行流程为:Step1:对于少数类中每一个样本xi,以欧氏距离为标准计算它到少数类样本集Smin中所有样本的距离,得到其k近邻;Step2:根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本xi,从其k近邻中随机选择若干个样本,假设选择的近邻为Step3:对于每一个随机选出的近邻分别与原样本按照公式(1)构建新的样本;通过类别不平衡处理处理后得到平衡数据集BDS;S23:对样本数据进行归一化处理;综合考虑生产车间状态属性统计特点及车间生产状态的数据类型,采用Max-Min离差标准化对平衡数据集BDS进行归一化处理,表达式如公式(2)所示,把所有属性数据映射到[0,1]之间,避免在训练时出现某些维度占主导地位而导致的训练速度减慢,通过归一化处理得到预处理数据集PDS;本文档来自技高网
...

【技术保护点】
1.一种基于PCA-XGBoost-IRF的作业车间实时调度方法,包括以下步骤:/nS1:规范数据样本构建/n管理人员可以从信息系统和服务器端调度规则的执行记录中获取不同调度决策时刻对应的生产系统状态与调度规则组成的数据对,构成用于调度知识挖掘的规范样本数据,即CSD={A1,A2,A3,...,A64,Rule};/nS2:样本数据预处理/nS21:对样本数据进行异常值处理;/n车间状态信息的原始样本数据存在许多噪音,首先,使用相关数据分析工具对特征指标进行描述性统计分析,其次,基于箱型图查找异常值,最后,使用列均值填充缺失值、基于四分位箱线图进行异常值剔除等方式对原始数据进行初步处理,从而得到数据类型比较规整的规范样本数据CSD;/nS22:对样本数据进行类别不平衡处理;/n为了避免训练样本存在类别不平衡而导致机器学习模型失效的问题,结合实际需求,采用合成少数类过采样技术SMOTE对CSD进行处理;SMOTE算法执行流程为:/nStep1:对于少数类中每一个样本x

【技术特征摘要】
1.一种基于PCA-XGBoost-IRF的作业车间实时调度方法,包括以下步骤:
S1:规范数据样本构建
管理人员可以从信息系统和服务器端调度规则的执行记录中获取不同调度决策时刻对应的生产系统状态与调度规则组成的数据对,构成用于调度知识挖掘的规范样本数据,即CSD={A1,A2,A3,...,A64,Rule};
S2:样本数据预处理
S21:对样本数据进行异常值处理;
车间状态信息的原始样本数据存在许多噪音,首先,使用相关数据分析工具对特征指标进行描述性统计分析,其次,基于箱型图查找异常值,最后,使用列均值填充缺失值、基于四分位箱线图进行异常值剔除等方式对原始数据进行初步处理,从而得到数据类型比较规整的规范样本数据CSD;
S22:对样本数据进行类别不平衡处理;
为了避免训练样本存在类别不平衡而导致机器学习模型失效的问题,结合实际需求,采用合成少数类过采样技术SMOTE对CSD进行处理;SMOTE算法执行流程为:
Step1:对于少数类中每一个样本xi,以欧氏距离为标准计算它到少数类样本集Smin中所有样本的距离,得到其k近邻;
Step2:根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本xi,从其k近邻中随机选择若干个样本,假设选择的近邻为
Step3:对于每一个随机选出的近邻分别与原样本按照公式(1)构建新的样本;



通过类别不平衡处理处理后得到平衡数据集BDS;
S23:对样本数据进行归一化处理;
综合考虑生产车间状态属性统计特点及车间生产状态的数据类型,采用Max-Min离差标准化对平衡数据集BDS进行归一化处理,表达式如公式(2)所示,把所有属性数据映射到[0,1]之间,避免在训练时出现某些维度占主导地位而导致的训练速度减慢,通过归一化处理得到预处理数据集PDS;



式中,xi'表示xi归一化变换后的数据,xmax代表xi的最大值,xmin代表xi的最小值;
S24:对PDS进行切分处理以满足决策模型构建的输入要求;
将PDS划分为训练数据TrainSet和测试数据TestSet,其中训练数据TrainSet比重占75%,测试数据TestSet比重占25%;同时将训练数据TrainSet作为整个决策模型的输入;
S3:对训练数据TrainSet进行特征工程处理
S31:对训练数据TrainSet进行基于主成分分析法PCA的特征提取降维处理得到低维数据集LDS,具体如下:
(1)对步骤S23中归一化后的样本数据求出协方差矩阵C;
(2)对协方差矩阵C求出其特征向量和特征值;
(3)以特征值大小按行排列相应的特征向量,舍弃特征值较小的特征向量行,将主成分累计贡献率阈值设置为99%,以实现既保留了关键信息,又降低了训练数据的维数,从而间接提高决策模型的训练效率与调度性能;
(4)通过降维处理得到低维数据集LDS;
S32:对低维数据集LDS进行基于XGBoost的特征重要度计算;
S321:XGBoost模型分类过程;
XGBoost模型分类具体的推导过程如下:
基于特征提取得到样本数据集D={(xi,yi)|i=1,2,...,n;xi∈Rm;yi∈R},其中有n个样本,每个样本有m个特征,并且对应一个目标值yi,假如有K棵回归树,则模型表达式如公式(3)所示:



式中:fk是一棵回归树;F对应了所有回归树的集合;fk(xi)代表第k棵树对数据集中第i个样本的计算分数;
目标函数如公式(4)所示:



式中:l(·)是误差函数,体现了模型拟合训练数据的程度;
为了防止过拟合,定义了正则化项Ω(fk)以惩罚复杂模型;Ω(fk)的表达式为如公式(5)所示:



式中:γ和λ表示对模型的惩罚系数;T和w分别表示第k棵树的叶子数目和叶子的权重;
由于树模型式(3)为加法模型,利用前向分步算法对目标函数训练,设为第i个样本在第t次迭代时的预测值,因此添加ft(xi)以最优化以下目标函数如公式(6)所示:



对式(6)使用二阶泰勒展开简化该函数后去掉常数项如公式(7)、(8)所示:






式中:g′i和g″i分别为损失函数的一阶导数和二阶导数,目标函数如公式(9)所示:



式中:Ij={i|q(xi)=j}代表叶子j的样本组;
将目标函数转换为一个关于wj的一元二次方程求最小值的问题,假设树的结构q固定,可以计算出叶子j的最优权重如公式(10)、(11)所示:






然后计算出相应的最优目标值如公式(12)所示:



式中,fobj表示树的结构分数,值越小表示数的结构越好;
S322:特征的重要度统计;
XGBoost模型集成若干棵回归树后,每棵树的节点作为一次特征分裂,将某特征被选为分裂特征的次数作为该特征的重要度,并通过重要度计算处理得到重要度评估数据IED;
S33:对重要度评估数据IED进行特征选择处理,使得评价函数值达到最优;
S4:IRF决策模型构建
S41:RF模型构建;
随机森林算法RF核心是以多棵决策树为基础的集成分类器,通过采取多个不同的训练样本子集来加大分类模型之间的相异性,从而能够提高该模型的泛化能力以及预测能力;首先,基于Bootstrap随机重采样技术从训练数据TrainSet中有放回地抽取训练实例,形成n个新的训练实例集合;然后,每个训练实例集合分别从特征集中随机选择m个特征作为决策树分裂的特征属性,并计算最佳分类方式;最后,通过训练得到n棵决策树;由这n棵决策树组合成的RF模型为后续对模型进行改进操作提供了模型基础;
S42:基于两种优化策略对随机森林算法RF模型进行改进,并将改进后模型重命名为IRF模型;
S421:对随机森林算法RF模型增加避免相似决策树的优化策略;
通过随机森林算法RF从历史相关数据中学习调度知识SK,假设调度知识SK是对真实调度规则y的一种估计所以在理论上来说和y之间是存在一定的误差;和y之间的平方误差计算公式如式(13)所示;式中δ2是不可避免的,但可以通过减少方差或偏差来减少算法的误差,从而提高随机森林算法的性能;



式中,δ2为噪声,它指的是算法所能达到的期望泛化误差的下界;为方差,它刻画了由于数据扰动所造成的影响;为偏差,它描述了学习算法的期望预测与真实结果的偏离程度;
随机森林算法通过Bagging策略生成的决策树具有近似的分布,因此随机森林算法的方差可以看作是一组同分布的随机变量的方差,其方差计算公式如式(14)所示:



式中,n为随机森林中决策树的数量;Ti表示第i棵决策树;ρ代表决策树之间的相关性;θ2代表每棵决策树的方差;
从式(14)可知,当随机森林所包含的决策树的数量较大时,若能减少决策树之间的相关性ρ,就能减小森林算法的方差,从而可以有效提高算法的性能;
采用避免相似决策树的优化策略以减少决策树之间的相关性ρ,并最终达到提高随机森林算法性能的目的,该优化策略相似度的计算公式如式(15),决策树之间的相似度取决于它们在使用相同特征属性并对测试实例产生相同预测次数的百分比,为了使得本发明所提方法具有更好的鲁棒性,规定如果两棵决策数之间的相似度大于60%,即被认为是相似的决策树,然后删除测试精确度低的决策树;



式中,DT1与DT2表示进行相似度计算的两棵决策树;count表示DT1与DT2对测试实例分类结果相同的次数;r...

【专利技术属性】
技术研发人员:袁逸萍熊攀阿地兰木·斯塔洪任年鲁
申请(专利权)人:新疆大学
类型:发明
国别省市:新疆;65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1