基于改进特征选择和分层模型的物联网异常数据检测方法技术

技术编号:37122377 阅读:15 留言:0更新日期:2023-04-01 05:18
本发明专利技术涉及一种基于改进特征选择和分层模型的物联网异常数据检测方法,主要包括以下步骤:采集物联网数据,进行数据缺失值、异常值和Z

【技术实现步骤摘要】
基于改进特征选择和分层模型的物联网异常数据检测方法


[0001]本专利技术涉及物联网异常数据检测和机器学习领域,更具体地,涉及一种基于改进特征和分层模型的物联网异常数据检测方法。

技术介绍

[0002]随着物联网技术的不断发展,连接到物联网的设备数量激增,数据数量和设备数量也呈爆炸式增长,这导致物联网系统呈现出:设备种类不一、设备数量过多、设备数据海量、交互十分复杂和运行状况监测难以有效进行的特点。针对海量物联网设备运行状态的监测显得尤为重要,有效及时的检测能够帮助管理人员及时发现排查物联网设备的错误,避免重大损失。针对物联网设备产生的大量数据,可以应用机器学习算法训练模型,用于异常数据的检测和判断。通过训练好的算法模型,将物联网设备数据输入模型,得出的分析结果能够帮助管理人员发现设备是否异常,以便进行设备的运行状况监测。在传统的检测技术中,面临单一的算法构建模型存在检测效果低等问题。虽然现有研究表明,通过模型融合的方式能够改善这种问题,但是传统的融合模型方式,比如Stacking由于采用K折交叉验证,大量样本的情况下训练时间和复杂度较高;如Blending不需要K折交叉验证,虽然解决了Stacking的训练慢的问题,但它对数据集的使用有很大的浪费;同时在大多数机器学习任务中,如何选择合理的特征是影响学习的主要因素之一,使用高维数据集来训练分类模型可能会导致学习模型与训练数据的过拟合,所以需要一种特征选择的算法加入到学习模型中来解决此类问题。综上所述,这些异常数据检测方法仍存在一些缺点,还不能全面和准确的对各种类型的异常数据进行有效的检测,特别是针对物联网设备产生的数据进行有效检测。

技术实现思路

[0003]鉴于现有技术的以上缺点或改进需求,本专利技术提供一种基于改进特征选择和分层模型的物联网异常数据检测方法,其目的在于,解决现有机器学习算法中的物联网异常数据方法存在的维数高、检测准确率低和效率慢的问题。
[0004]为实现上述目的,本专利技术提供一种基于改进特征选择和分层模型的物联网异常数据检测方法,包括如下步骤:步骤A.获取物联网设备产生的数据,标记数据为集合S=[s1,s2,s3,

,sn]T
,S∈R
n
×
m
;其中n表示数据集S有n个样本,对于每个样本si=[xi1,xi2,xi3,

,xim,yi],i=1,2,3

m,表示si含有n维特征集合x=[xi1,xi2,xi3,

,xim]和一个标签类别y
i
;对数据集S进行缺失值、异常值和标准化数据预处理,得到处理后的数据集S
new
,然后进入步骤B。
[0005]步骤B.将由步骤A得到的数据集步骤B.将由步骤A得到的数据集的
特征集合和标签类别进行划分,得到总的特征集合和标签类别集合Y=[y1,y2,y3,

,yn]T
;使用基于改进的相关性特征选择算法进行特征集合X的特征选择,剔除冗余特征,实现特征降维,得到最优特征子集其中c≤m,c表示筛选后每个样本的最优特征个数。
[0006]优选地,步骤A具体为,将待训练数据集S=[s1,s2,s3,

,sn]T
,进行数据的缺失值处理,根据公式用平均数进行填补;如有异常值,则删除异常值,然后将待训练数据集S=[s1,s2,s3,

,sn]T
,根据公式,根据公式计算标准差,然后根据公式进行Z

score标准化,得到最终数据集合S
new

[0007]优选的,步骤B具体为,将数据集优选的,步骤B具体为,将数据集的特征集合和标签类别进行划分,得到总的特征集合和标签类别集合Y=[y1,y2,y3,

,yn]T

[0008]进一步的,定义空的已选特征集合待选特征集合Z
m
={X

Z
s
},Z
m
初始为特征集合X中的m个特征,给出基于改进的相关性特征选择算法:其中,J(x
j
)中所涉及的公式为:)中所涉及的公式为:I(x
j
;x
i
;Y)=I(x
j
,x
i
;Y)

I(x
j
;Y)

I(x
i
;Y);Y)
其中,x
j
表示待选特征,其来自于待选特征集合Z
m
;x
i
表示已选特征,其来自于已选特征集合Z
s
;Y表示标签,其来自于标签类别集合Y=[y1,y2,y3,

,yn]T
;I(x
j
;Y|x
i
)为条件互信息,表示待选特征x
j
和标签类别Y在已选特征x
i
影响下的信息量度;I(x
i
;Y|x
j
)为条件互信息,表示已选特征x
i
和标签类别Y在待选特征x
j
影响下的信息量度;I(x
j
;x
i
;Y)为交互信息,表示已选特征x
i
、标签类别Y和待选特征x
j
三者的信息相关性;H(Y)为标签类别的信息熵;H(x
j
)为待选特征的信息熵;H(x
i
)为已选特征的信息熵;I(x
j
;x
i
)为互信息,表示已选特征x
i
和待选特征x
j
之间的信息相关性;对待选特征集合Z
m
中的所有特征使用基于改进的互信息特征选择算法J(x
j
)进行评价,得到集合Z
m
中每个待选特征的分数。
[0009]进一步的,从每个待选特征的分数中选择分数最高的特征,将其索引加入已选特征集合Z
s
中;同时更新待选特征集合Z
m
={X

Z
s
},即移除该特征;更新特征选择算法J(x
j
);然后,若已选特征集合Z
s
中的元素个数不等于设定的最优特征子集的个数c,则重复执行上诉步骤;否则,则停止整个算法流程;最终,将得到的已选特征集合Z
s
,遍历集合Z
s
;其中Z
s
保存的元素为待选特征集合Z
m
中每个特征的索引,根据其索引构建最优特征子集Z=[z1,z2,z3,

,zc]T
,其中c≤m;然后进入步骤C。
[0010]步骤C.将步骤B得到的最优特征子集Z和对应的标签类别集合Y,进行数据划分。划分结果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于改进特征选择和分层模型的物联网异常数据检测方法,其特征在于,包括如下步骤:步骤A.获取物联网设备产生的数据,标记数据为集合S=[s1,s2,s3,

,sn]
T
,S∈R
n
×
m
;其中n表示数据集S有n个样本,对于每个样本si=[xi1,xi2,xi3,

,xim,yi],i=1,2,3

m,表示si含有n维特征集合x=[xi1,xi2,xi3,

,xim]和一个标签类别yi;对数据集S进行缺失值、异常值和标准化数据预处理,得到处理后的数据集S
new
,然后进入步骤B;步骤B.将由步骤A得到的数据集的特征集合和标签类别进行划分,得到总的特征集合和标签类别集合Y=[y1,y2,y3,

,yn]
T
;使用基于改进的相关性特征选择算法进行特征集合X的特征选择,剔除冗余特征,实现特征降维,得到最优特征子集其中c≤m,c表示筛选后每个样本的最优特征个数,然后进入步骤C;步骤C.将步骤B得到的最优特征子集Z和对应的标签类别集合Y,进行数据划分;划分结果为:Z={Z
train
,Z
test
},Y={Y
train
,Y
test
};其中训练集Z
train
对应标签Y
train
,测试集Z
test
对应标签Y
test
;训练集Z
train
和对应标签Y
train
被划分为三部分,表示为Z
train
={Z
train1
,Z
val2
,Z
val3
}和Y
train
={Y
train1
,Y
val2
,Y
val3
},其中Z
train1
为子训练集,对应标签Y
train1
;Z
val2
和Z
val3
为子验证集分别对应标签Y
val2
和Y
val3
;然后进入步骤D;步骤D.将步骤C中得到的Z
train1
和Y
train1
输入分层模型的第一层学习器T1={T1_M1,T1_M2,T1_M3,T1_M4,T1_M5}中进行训练,保存为训练模型T1_train,然后进入步骤E;步骤E.将步骤B中得到的子验证集Z
val2
输入步骤D中训练好的模型T1_train中进行验证,由于有5组学习器,故会得到5组预测结果,将5组预测结果合并为新样本数据Z
pro2
,然后进入步骤F;步骤F.将步骤C和E中得到的Y
val2
和Z
pro2
输入分层模型的第二层学习器T2={T2_M1,T2_M2}中进行训练,保存训练模型T2_train,然后进入步骤G;步骤G.将步骤C中得到的子验证集Z
val3
输入步骤F中训练好的模型T2_train中进行验证,由于有2组学习器,故会得到2组预测结果,将2组预测结果合并为新样本数据Z
pro3
,然后进入步骤H中;步骤H.将步骤C和G中得到Y
val3
和Z
pro3
输入分层模型的第三层模型中进行训练,第3层采用算法CatBoost进行训练,保存整个训练模型,然后进入步骤I;步骤I.将步骤C中得到的测试集Z
test
和对应标签Y
test
输入整体分层模型进行测试,设置最终测试准确率>=T%;如果不满足要求,则返回步骤D,将每层模型进行重新参数调优,直
至最终测试结果满足要求,然后进入步骤J;步骤J.将步骤I中训练好的分层模型用于物联网异常数据检测,模型部署于本地物联网设备检测端或云平台,将物联网设备采集的数据输入训练好的模型进行实时数据异常检测,得到最终检测结果。2.根据权利要求1所述的基于改进特征选择和分层模型的物联网异常数据检测方法,其特征在于,步骤A包括如下子步骤:步骤A1.将待训练数据集S=[s1,s2,s3,

,sn]
T
,进行数据的缺失值处理,根据公式用平均数进行填补;如有异常值,则删除异常值,然后进入步骤A2;步骤A2.将待训练数据集S=[s1,s2,s3,

,sn]
T
,根据公式计算标准差,然后根据公式进行Z

score标准化,得到最终数据集合S
new
,然后进入步骤B。3.根据权利要求1所述的基于改进特征选择和分层模型的物联网异常数据检测方法,其特征在于,步骤B包括如下子步骤:步骤B1.将数据集的特征集合和标签类别进行划分,得到总的特征集合和标签类别集合Y=[y1,y2,y3,

,yn]
T
;然后进入步骤B2;步骤B2.定义空的已选特征集合待选特征集合Z
m
={X

Z
s
},Z
m
初始为特征集合X中的m个特征;给出基于改进的相关性特征选择算法:其中x
j
表示待选特征,其来自于待选特征集合Z
m
;x
i
表示已选特征,其来自于已选特征集合Z
s
;Y表示标签,其来自于标签类别集合Y=[y1,y2,y3,

,yn]
T
;I(x
j
;Y|x
i
)为条件互信息,表示待选特征x
j
和标签类别Y在已选特征x
i
影响下的信息量度;I(x
i
;Y|x
j
)为条件互信息,表示已选特征x
i
和标签类别Y在待选特征x
j
影响下的信息量度;I(x
j
;x
i
;Y)为交互信息,表示已选特征x
i
、标签类别Y和待选特征x
j
三者的信息相关性;H(Y)为标签类别的信息熵;H(x
j
)为待选特征的信息熵;H(x
i
)为已选特征的信息熵;I(x
...

【专利技术属性】
技术研发人员:赵稳邬惠峰
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1