设备生产状态归类方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:36034850 阅读:14 留言:0更新日期:2022-12-21 10:38
本发明专利技术涉及设备生产状态归类方法、装置、计算机设备及存储介质,该方法,包括:收集目标设备的样本数据;对样本数据聚类,构造目标设备生产状态聚类簇;剔除压缩聚类树时删除的节点,对剩余簇进行排序编号,以得到编号簇,使用编号簇和极限惩罚梯度提升决策树构建目标设备生产状态分类预测模型;对目标设备生产状态进行预测,以得到预测生产状态;将预测生产状态与目标设备的实际生产状态进行比对,建立分类标签和目标设备的实际生产状态的一一映射。本发明专利技术通过利用聚类分析不需要人工标注的特性,找出数据聚集而成的簇群,找到不同类的特征,再对未分类的数据进行分类,解决了分类分析缺乏标签的问题,提高了工作效率,减少了人力物力的消耗。力物力的消耗。力物力的消耗。

【技术实现步骤摘要】
设备生产状态归类方法、装置、计算机设备及存储介质


[0001]本专利技术涉及设备生产状态归类
,尤其是指设备生产状态归类方法、装置、计算机设备及存储介质。

技术介绍

[0002]分类(Categorization or Classification)指的是按照某种标准给对象贴标签(label),再根据标签来区分归类。分类是事先定义好类别,类别数不变。聚类(Clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。聚类不需要人工标注和预先训练分类器,类别(Cluster)在聚类过程中自动生成,类别数不确定。
[0003]物联网采集设备的时序数据(随着时间变化,产生带时间戳的数据),工业设备产生的时序数据,如震动/温度/电流/电压等观测数据,现实技术中需要发现一些其中的特征,做一些分类,但是由于时序数据的属性特征、所处环境、以及不属于人的知识框架或者记忆,所以基本无人凭借经验进行打标签。
[0004]企业级客户希望对生产行为进行画像,对不同生产状态进行归类,以便进一步优化生产,提高效率。由于分类分析属于有指导学习范畴,需要企业提供人工标注的标签数据进行训练拟合,而在大多数情况下,企业没有足够的人力物力提供这种数据,因此无法满足需求。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提供设备生产状态归类方法、装置、计算机设备及存储介质。
[0006]为了解决上述技术问题,本专利技术采用如下技术方案:
[0007]第一方面,本实施例提供了一种设备生产状态归类方法,包括以下步骤:
[0008]收集目标设备的样本数据;
[0009]对样本数据聚类,构造目标设备生产状态聚类簇;
[0010]根据目标设备生产状态聚类簇,剔除压缩聚类树时删除的节点,对剩余簇进行排序编号,以得到编号簇,使用编号簇和极限惩罚梯度提升决策树构建目标设备生产状态分类预测模型;
[0011]根据目标设备生产状态分类预测模型,对目标设备生产状态进行预测,以得到预测生产状态;
[0012]将预测生产状态与目标设备的实际生产状态进行比对,建立分类标签和目标设备的实际生产状态的一一映射。
[0013]其进一步技术方案为:所述样本数据包括目标设备处于不同工况下的时序数据和目标设备参数数据。
[0014]其进一步技术方案为:所述对样本数据聚类,构造目标设备生产状态聚类簇步骤
中,构造目标设备生产状态聚类簇包括以下内容:
[0015]对样本数据进行处理,对缺失值进行删除或填充,清洗异常数据,通过对离散分类变量编码,生成其虚拟变量;
[0016]对时间序列中每一个维度的数据分别进行正规化处理,分别计算每一维度的最大值max和最小值min,通过对样本数据x进行归一化,把数值放缩到0到1的小区间中,归一化后的数据为x
*

[0017][0018]样本数据中的数据点需要计算两个量:样本数据与第k个最近邻样本数据点的核心距离和两个样本数据点的互达距离;
[0019]将样本数据x与第k个最近邻样本数据点的距离称为核心距离,并表示为core
k
(x)=d(x,N
k
(x));其中,N
k
(x)代表样本数据点x的第k个最近邻样本数据点,d代表两点间的直接距离;
[0020]两点,即a和b的互达距离为各自的核心距离和直接距离的最大值,并表示为:d
mreach

k
(a,b)=max{core
k
(a),core
k
(b),d(a,b)};
[0021]其中,d(a,b)是样本数据点a和样本数据点b的直接距离;core
k
(a)和core
k
(b)分别是样本数据点a和样本数据点b的核心距离;d(a,b),core
k
(a)和core
k
(b)中的最大值即为样本数据点a和样本数据点b的互达距离;
[0022]对样本数据中的数据点进行空间互换,即用互达距离来表示两个样本数据点之间的距离;
[0023]构建最小生成树,构建聚类层次结构,获得拥有少量节点的聚类树,即λ为距离的倒数,其中,distance是两个样本数据点直接的互达距离;
[0024]自下而上遍历整棵树,以完成构造目标设备生产状态聚类簇。
[0025]其进一步技术方案为:所述根据目标设备生产状态聚类簇,剔除压缩聚类树时删除的节点,对剩余簇进行排序编号,以得到编号簇,使用编号簇和极限惩罚梯度提升决策树构建目标设备生产状态分类预测模型步骤中,极限惩罚梯度提升决策树采用XGBoost模型;
[0026]在XGBoost算法中,每次迭代之后生成的新决策树都会累加到之前形成的树簇中,并通过引入模型复杂度来衡量算法的运算效率,以此实现运算速度和模型表现的平衡,其目标函数如下:
[0027][0028]其中,i为数据集中的第i个样本;m代表导入第k颗数时的数据总量,K表示所建立的树的总量,f
k
表示第k颗决策树;
[0029]目标函数中的第一项代表损失函数,其目的是衡量真实值与预测值之前的差异;
[0030]第二项为模型的复杂度计算公式,由叶子数目与正则项相加而得,其
公式为:
[0031][0032]其中,T为树上叶子节点的个数,ω
j
表示各个叶子节点的分数,γ和λ分别为控制上述叶子节点个数及分数的参数;
[0033]其值越大代表复杂度越高,进而模型的泛化能力越弱,该项可用于帮助防止过拟合的情况的产生;在建立每一棵树的迭代过程中,在实现最小化来求解得到预测值的最优值得同时,尽可能的提升模型的准确性和降低模型的复杂度;
[0034]不同于传统的梯度提升决策树在求解目标函数的过程中只使用了一阶导数的信息,而XGBoost对损失函数进行二阶泰勒级数展开,显著提升模型精度;在进行第k次迭代时,基于已生成的总计k

1颗树,可对式(1)进行改写如下:
[0035][0036]其一阶导数和二阶导数分别为:
[0037][0038][0039]再将目标函数在处进行二阶泰勒级数展开,只保留一阶和二阶项,定义I
j
={i|q(x
i
)=j}作为叶子节点j的实数集;
[0040]再定义则式(3)可改写为:
[0041][0042]其中,ω
j
表示叶子节点j的分数,令上式导数为零,可得最小目标函数为:
[0043][0044]式(4)是一个评价树结构优劣的函数,L值越小代表树结构越好。
[0045]第二方面,本实施例提供了一种设备生产状态归类装置,包括:收集单元,聚类构造单元,剔本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.设备生产状态归类方法,其特征在于,包括以下步骤:收集目标设备的样本数据;对样本数据聚类,构造目标设备生产状态聚类簇;根据目标设备生产状态聚类簇,剔除压缩聚类树时删除的节点,对剩余簇进行排序编号,以得到编号簇,使用编号簇和极限惩罚梯度提升决策树构建目标设备生产状态分类预测模型;根据目标设备生产状态分类预测模型,对目标设备生产状态进行预测,以得到预测生产状态;将预测生产状态与目标设备的实际生产状态进行比对,建立分类标签和目标设备的实际生产状态的一一映射。2.根据权利要求1所述的设备生产状态归类方法,其特征在于,所述样本数据包括目标设备处于不同工况下的时序数据和目标设备参数数据。3.根据权利要求2所述的设备生产状态归类方法,其特征在于,所述对样本数据聚类,构造目标设备生产状态聚类簇步骤中,构造目标设备生产状态聚类簇包括以下内容:对样本数据进行处理,对缺失值进行删除或填充,清洗异常数据,通过对离散分类变量编码,生成其虚拟变量;对时间序列中每一个维度的数据分别进行正规化处理,分别计算每一维度的最大值max和最小值min,通过对样本数据x进行归一化,把数值放缩到0到1的小区间中,归一化后的数据为x
*
:样本数据中的数据点需要计算两个量:样本数据与第k个最近邻样本数据点的核心距离和两个样本数据点的互达距离;将样本数据x与第k个最近邻样本数据点的距离称为核心距离,并表示为core
k
(x)=d(x,N
k
(x));其中,N
k
(x)代表样本数据点x的第k个最近邻样本数据点,d代表两点间的直接距离;两点,即a和b的互达距离为各自的核心距离和直接距离的最大值,并表示为:d
mreach

k
(a,b)=max{core
k
(a),core
k
(b),d(a,b)};其中,d(a,b)是样本数据点a和样本数据点b的直接距离;core
k
(a)和core
k
(b)分别是样本数据点a和样本数据点b的核心距离;d(a,b),core
k
(a)和core
k
(b)中的最大值即为样本数据点a和样本数据点b的互达距离;对样本数据中的数据点进行空间互换,即用互达距离来表示两个样本数据点之间的距离;构建最小生成树,构建聚类层次结构,获得拥有少量节点的聚类树,即λ为距离的倒数,其中,distance是两个样本数据点直接的互达距离;自下而上遍历整棵树,以完成构造目标设备生产状态聚类簇。4.根据权利要求1所述的设备生产状态归类方法,其特征在于,所述根据目标设备生产状态聚类簇,剔除压缩聚类树时删除的节点,对剩余簇进行排序编号,以得到编号簇,使用
编号簇和极限惩罚梯度提升决策树构建目标设备生产状态分类预测模型步骤中,极限惩罚梯度提升决策树采用XGBoost模型;在XGBoost算法中,每次迭代之后生成的新决策树都会累加到之前形成的树簇中,并通过引入模型复杂度来衡量算法的运算效率,以此实现运算速度和模型表现的平衡,其目标函数如下:其中,i为数据集中的第i个样本;m代表导入第k颗数时的数据总量,K表示所建立的树的总量,f
k
表示第k颗决策树;目标函数中的第一项代表损失函数,其目的是衡量真实值与预测值之前的差异;第二项为模型的复杂度计算公式,由叶子数目与正则项相加而得,其公式为:其中,T为树上叶子节点的个数,ω
j
表示各个叶子节点的分数,γ和λ分别为控制上述叶子节点个数及分数的参数;其值越大代表复杂度越高,进而模型的泛化能力越弱,该项可用于帮助防止过拟合的情况的产生;在建立每一棵树的迭代过程中,在实现最小化来求解得到预测值的最优值得同时,尽可能的提升模型的准确性和降低模型的复杂度;不同于传统的梯度提升决策树在求解目标函数的过程中只使用了一阶导数的信息,而XGBoost对损失函数进行二阶泰勒级数展开,显著提升模型精度;在进行第k次迭代时,基于已生成的总计k

1颗树,可对式(1)进行改写如下:其一阶导数和二阶导数分别为:其一阶导数和二阶导数分别为:再将目标函数在处进行二阶泰勒级数展开,只保留一阶和二阶项,定义I
j
={i|q(x
i
)=j}作为叶子节点j的实数集;
再定义则式(3)可改写为:其中,ω
j
表示叶子节点j的分数,令上式导数为零,可得最小目标函数为:式(4)是一个评价树结构优劣的函数,L值越小代表树结构越好。5.设备生产状态归类装置,其特征在于,包括:收集单元,聚类构造单元,剔除排序构建单元,预测单元及比对建立单元;所述收集单元,用于收集目标设备的样本数据;所述聚类构造单元,用于对样本数据聚类,构造目标设备生产...

【专利技术属性】
技术研发人员:曹正之宁晶陈侠航李文丰
申请(专利权)人:杭州艾想科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1