当前位置: 首页 > 专利查询>江南大学专利>正文

基于加权混合孤立森林的无线传感网络异常数据检测方法技术

技术编号:19391379 阅读:35 留言:0更新日期:2018-11-10 02:57
本发明专利技术涉及基于加权混合孤立森林的无线传感网络异常数据检测方法,该方法利用传感器节点采集的历史数据集,首先以孤立森林算法为基础构造一定规模的孤立树集合iforest,在其各叶子节点上引入待测样本与其各类样本中心的距离信息,并结合多样性度量对孤立树进行权值系数的设定,最终利用改进的孤立森林算法对无线传感网络数据异常情况进行判定。通过对各传感器节点数据集进行实验,结果表明,本发明专利技术提出的算法提高了异常检测的精度,具有广阔的应用前景。

Abnormal data detection in wireless sensor networks based on weighted hybrid isolated forests

The present invention relates to an anomaly data detection method for wireless sensor networks based on weighted mixed isolated forests. The method uses historical data collected by sensor nodes. Firstly, based on isolated forests algorithm, a set of isolated trees iforest of a certain scale is constructed, and the samples to be tested and their sample centers are introduced into each leaf node. Based on the distance information and the diversity measure, the weight coefficients of isolated trees are set. Finally, the improved isolated forest algorithm is used to judge the data anomalies in wireless sensor networks. Experiments on data sets of sensor nodes show that the proposed algorithm improves the accuracy of anomaly detection and has broad application prospects.

【技术实现步骤摘要】
基于加权混合孤立森林的无线传感网络异常数据检测方法
本专利技术涉及无线传感器网络数据可靠性领域,特别是涉及基于加权混合孤立森林的无线传感网络异常数据检测方法。
技术介绍
数据作为无线传感网络中的载体,通常都有很多有用的信息,尤其是异常数据中潜在更多信息的暗示(除去节点本身故障),因此,想要了解各类事物的变化规律,就必须通过各种异常检测技术找出异常数据,并通过它们获取对我们有帮助的信息知识。在各领域异常检测技术作为近年较为深入研究的问题,无线传感器网络独特的特点及严格的约束条件使得该问题的研究更具有挑战性。针对无线传感器网络中异常数据的检测问题,目前已有很多种方法,按检测手段可分为基于统计学原理、基于近邻、基于聚类、基于分类以及基于谱分解的方法。此外,按照传感器网络体系结构异常检测技术又可以分为集中式的和分布式的。F.T.Liu等人提出的孤立森林算法在数据异常检测中具有广泛应用,该算法主要是通过对历史数据集构建孤立树集成模型,并以测试样本的平均搜索深度计算其异常分值s(Y),对当前检测样本集的异常分值降序排列并取前一定数目的样本作为检测出来的异常值,从而决定其异常与否。该方法的优点是原理简单、算法复杂度较低且检测精度理想,但其对于一些凹面数据集的异常检测适用性较低,并且忽略了森林中各棵树对最终异常分值的计算所给予的贡献应当不同,该方法在无线传感器网络异常数据检测应用中尚未见到。现有技术文献如下:F.T.Liu,K.M.TingandZ.H.Zhou,Isolation-basedAnomalyDetection,TKDD,2011.AryalS,KaiMT,WellsJR,etal.ImprovingiForestwithRelativeMass[C]//Pacific-AsiaConferenceonKnowledgeDiscoveryandDataMining.Springer,Cham,2014:510-521.MarteauPF,Soheily-KhahS,BéchetN.HybridIsolationForest-ApplicationtoIntrusionDetection[J].2017.
技术实现思路
基于此,有必要针对上述技术问题,提供一种基于加权混合孤立森林的无线传感网络异常数据检测方法,该方法利用传感器节点采集的历史数据集,首先以孤立森林算法为基础构造一定规模的孤立树集合iforest,在其各叶子节点上引入待测样本与其各类样本中心的距离信息,并结合多样性度量对孤立树进行权值系数的设定,最终利用改进的孤立森林算法对无线传感网络数据异常情况进行判定。通过对各传感器节点数据集进行实验,结果表明,本专利技术提出的算法提高了异常检测的精度,具有广阔的应用前景。一种基于孤立森林的异常数据检测方法,包括:步骤1:以数据集中训练数据集构建Whiforest中的子模型即孤立树,包括参数bootstrap采样数ψ、森林规模大小T、权值系数阈值μ、验证样本集Val_W大小和已知异常样本添加率ratio的设定;步骤2:随机选取少量已知异常样本加入到已经训练完毕的Itrees中;步骤3:计算每棵树的叶子结点中的训练样本中心Cen-s,以及每个待测样本x在叶节点中与上述的Cen-s间的距离,将其在森林中的每棵树的均值记作sc(x);sc(x)=E(δ(x))步骤4:在其叶子结点中计算异常样本中心Cen-a(若某些叶节点无异常样本,则记为0),并计算每个待测样本x在叶节点中与上述的Cen-a间的距离记作δa(x),并将δ(x)和δa(x)在所有孤立树中均值的比值记作sa(x);步骤5:根据历史采集的数据集选取一定数目的样本Val-W,并使用Whiforest对其检测,结合集成学习中基分类器多样性的思想,通过不合度量对森林中孤立树间的多样性进行计算,得到一个对角为0的N*N对称矩阵diversity;步骤6:对所述diversity矩阵按列求和并按森林规模大小T作商得到B,此刻将B中值与阈值μ比较,权值设置如下所示;步骤7:设定B中值大于等于μ的树的权值w1=B(index)+1,小于μ的树的权值w2=1-B(index),对后边用到的几个变量都乘以w1和w2,以下式计算sc(x)和sa(x)δ(x)=W*δ(x)δa(x)=W*δa(x)步骤8:将当前数据窗口内样本的原始Score分值以及目前引入的基于距离的2个分值即{Score,sa(x),sc(x)}进行归一化处理,使用的归一化公式如下所示,其中s(x)代指的就是上述3个分值,为归一化后的值,最终以下式融合3个分值得到最终的窗口样本异常分值sfinal;步骤9:降序排列sfinal,根据领域知识或参考原先数据集已知的异常数目比例ratio,得到异常分值最高的一定数目的数据样本,再和待测数据样本标记对比,计算检测率以及误报率相关评价指标;步骤10:若节点检测到数据窗口内有异常样本,则将其所属顺序编号传递到簇头节点,进行下一步的验证或处理。一种基于加权混合孤立森林的无线传感网络异常数据检测方法,包括:步骤1:对传感器节点采集所得的历史数据集进行划分,分别为训练集和测试集;步骤2:利用训练集通过孤立森林模型的训练得到iforest模型;步骤3:对所得所述iforest模型手动添加少量已知异常样本,并利用权利要求1所述的基于孤立森林的异常数据检测方法建立Whiforest模型;步骤4:对于各分布节点,当有一定数量的新样本进入数据窗口内时,使用已经训练好的所述Whiforest模型对这些新数据进行检测得到异常分值并判断数据是否异常;步骤5:若步骤4中存在样本异常,则将节点对数据的检测结果传递给簇头节点,以便执行进一步的后续操作。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现任一项所述方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现任一项所述方法的步骤。一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。上述基于加权混合孤立森林的无线传感网络异常数据检测方法,该方法利用传感器节点采集的历史数据集,首先以孤立森林算法为基础构造一定规模的孤立树集合iforest,在其各叶子节点上引入待测样本与其各类样本中心的距离信息,并结合多样性度量对孤立树进行权值系数的设定,最终利用改进的孤立森林算法对无线传感网络数据异常情况进行判定。通过对各传感器节点数据集进行实验,结果表明,本专利技术提出的算法提高了异常检测的精度,具有广阔的应用前景。附图说明图1为本申请实施例提供的一种基于孤立森林的异常数据检测方法的流程示意图。图2为基于加权混合孤立森林的无线传感网络异常数据检测方法中的AGD数据集示意图之一。图3为基于加权混合孤立森林的无线传感网络异常数据检测方法中的AGD数据集示意图之二。图4为基于加权混合孤立森林的无线传感网络异常数据检测方法中的传统iforest模型的异常分值图。图5为基于加权混合孤立森林的无线传感网络异常数据检测方法中的Whiforest模型的异常分值图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图本文档来自技高网
...

【技术保护点】
1.一种基于孤立森林的异常数据检测方法,其特征在于,包括:步骤1:以所述数据集中训练数据集构建Whiforest中的子模型即孤立树,包括参数bootstrap采样数ψ、森林规模大小T、权值系数阈值μ、验证样本集Val_W大小和已知异常样本添加率ratio的设定;步骤2:随机选取少量已知异常样本加入到已经训练完毕的Itrees中;步骤3:计算每棵树的叶子结点中的训练样本中心Cen‑s,以及每个待测样本x在叶节点中与上述的Cen‑s间的距离,将其在森林中的每棵树的均值记作sc(x);sc(x)=E(δ(x))步骤4:在其叶子结点中计算异常样本中心Cen‑a(若某些叶节点无异常样本,则记为0),并计算每个待测样本x在叶节点中与上述的Cen‑a间的距离记作δa(x),并将δ(x)和δa(x)在所有孤立树中均值的比值记作sa(x);

【技术特征摘要】
1.一种基于孤立森林的异常数据检测方法,其特征在于,包括:步骤1:以所述数据集中训练数据集构建Whiforest中的子模型即孤立树,包括参数bootstrap采样数ψ、森林规模大小T、权值系数阈值μ、验证样本集Val_W大小和已知异常样本添加率ratio的设定;步骤2:随机选取少量已知异常样本加入到已经训练完毕的Itrees中;步骤3:计算每棵树的叶子结点中的训练样本中心Cen-s,以及每个待测样本x在叶节点中与上述的Cen-s间的距离,将其在森林中的每棵树的均值记作sc(x);sc(x)=E(δ(x))步骤4:在其叶子结点中计算异常样本中心Cen-a(若某些叶节点无异常样本,则记为0),并计算每个待测样本x在叶节点中与上述的Cen-a间的距离记作δa(x),并将δ(x)和δa(x)在所有孤立树中均值的比值记作sa(x);步骤5:根据历史采集的数据集选取一定数目的样本Val-W,并使用Whiforest对其检测,结合集成学习中基分类器多样性的思想,通过不合度量对森林中孤立树间的多样性进行计算,得到一个对角为0的N*N对称矩阵diversity;步骤6:对所述diversity矩阵按列求和并按森林规模大小T作商得到B,此刻将B中值与阈值μ比较,权值设置如下所示;步骤7:设定B中值大于等于μ的树的权值w1=B(index)+1,小于μ的树的权值w2=1-B(index),对后边用到的几个变量都乘以w1和w2,以下式计算sc(x)和sa(x)δ(x)=W*δ(x)δa(x)=W*δa(x)步骤8:将当前数据窗口内样本的原始Score分值以及目前引入的基于距离的2个分值即{Score,sa(x),sc(x)}进行归一化...

【专利技术属性】
技术研发人员:李光辉许欧阳
申请(专利权)人:江南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1