The present invention relates to an anomaly data detection method for wireless sensor networks based on weighted mixed isolated forests. The method uses historical data collected by sensor nodes. Firstly, based on isolated forests algorithm, a set of isolated trees iforest of a certain scale is constructed, and the samples to be tested and their sample centers are introduced into each leaf node. Based on the distance information and the diversity measure, the weight coefficients of isolated trees are set. Finally, the improved isolated forest algorithm is used to judge the data anomalies in wireless sensor networks. Experiments on data sets of sensor nodes show that the proposed algorithm improves the accuracy of anomaly detection and has broad application prospects.
【技术实现步骤摘要】
基于加权混合孤立森林的无线传感网络异常数据检测方法
本专利技术涉及无线传感器网络数据可靠性领域,特别是涉及基于加权混合孤立森林的无线传感网络异常数据检测方法。
技术介绍
数据作为无线传感网络中的载体,通常都有很多有用的信息,尤其是异常数据中潜在更多信息的暗示(除去节点本身故障),因此,想要了解各类事物的变化规律,就必须通过各种异常检测技术找出异常数据,并通过它们获取对我们有帮助的信息知识。在各领域异常检测技术作为近年较为深入研究的问题,无线传感器网络独特的特点及严格的约束条件使得该问题的研究更具有挑战性。针对无线传感器网络中异常数据的检测问题,目前已有很多种方法,按检测手段可分为基于统计学原理、基于近邻、基于聚类、基于分类以及基于谱分解的方法。此外,按照传感器网络体系结构异常检测技术又可以分为集中式的和分布式的。F.T.Liu等人提出的孤立森林算法在数据异常检测中具有广泛应用,该算法主要是通过对历史数据集构建孤立树集成模型,并以测试样本的平均搜索深度计算其异常分值s(Y),对当前检测样本集的异常分值降序排列并取前一定数目的样本作为检测出来的异常值,从而决定其异常与否。该方法的优点是原理简单、算法复杂度较低且检测精度理想,但其对于一些凹面数据集的异常检测适用性较低,并且忽略了森林中各棵树对最终异常分值的计算所给予的贡献应当不同,该方法在无线传感器网络异常数据检测应用中尚未见到。现有技术文献如下:F.T.Liu,K.M.TingandZ.H.Zhou,Isolation-basedAnomalyDetection,TKDD,2011.AryalS,KaiMT, ...
【技术保护点】
1.一种基于孤立森林的异常数据检测方法,其特征在于,包括:步骤1:以所述数据集中训练数据集构建Whiforest中的子模型即孤立树,包括参数bootstrap采样数ψ、森林规模大小T、权值系数阈值μ、验证样本集Val_W大小和已知异常样本添加率ratio的设定;步骤2:随机选取少量已知异常样本加入到已经训练完毕的Itrees中;步骤3:计算每棵树的叶子结点中的训练样本中心Cen‑s,以及每个待测样本x在叶节点中与上述的Cen‑s间的距离,将其在森林中的每棵树的均值记作sc(x);sc(x)=E(δ(x))步骤4:在其叶子结点中计算异常样本中心Cen‑a(若某些叶节点无异常样本,则记为0),并计算每个待测样本x在叶节点中与上述的Cen‑a间的距离记作δa(x),并将δ(x)和δa(x)在所有孤立树中均值的比值记作sa(x);
【技术特征摘要】
1.一种基于孤立森林的异常数据检测方法,其特征在于,包括:步骤1:以所述数据集中训练数据集构建Whiforest中的子模型即孤立树,包括参数bootstrap采样数ψ、森林规模大小T、权值系数阈值μ、验证样本集Val_W大小和已知异常样本添加率ratio的设定;步骤2:随机选取少量已知异常样本加入到已经训练完毕的Itrees中;步骤3:计算每棵树的叶子结点中的训练样本中心Cen-s,以及每个待测样本x在叶节点中与上述的Cen-s间的距离,将其在森林中的每棵树的均值记作sc(x);sc(x)=E(δ(x))步骤4:在其叶子结点中计算异常样本中心Cen-a(若某些叶节点无异常样本,则记为0),并计算每个待测样本x在叶节点中与上述的Cen-a间的距离记作δa(x),并将δ(x)和δa(x)在所有孤立树中均值的比值记作sa(x);步骤5:根据历史采集的数据集选取一定数目的样本Val-W,并使用Whiforest对其检测,结合集成学习中基分类器多样性的思想,通过不合度量对森林中孤立树间的多样性进行计算,得到一个对角为0的N*N对称矩阵diversity;步骤6:对所述diversity矩阵按列求和并按森林规模大小T作商得到B,此刻将B中值与阈值μ比较,权值设置如下所示;步骤7:设定B中值大于等于μ的树的权值w1=B(index)+1,小于μ的树的权值w2=1-B(index),对后边用到的几个变量都乘以w1和w2,以下式计算sc(x)和sa(x)δ(x)=W*δ(x)δa(x)=W*δa(x)步骤8:将当前数据窗口内样本的原始Score分值以及目前引入的基于距离的2个分值即{Score,sa(x),sc(x)}进行归一化...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。