基于半监督与孤立森林的大比例异常数据检测方法及系统技术方案

技术编号:37870204 阅读:26 留言:0更新日期:2023-06-15 20:59
本发明专利技术公开了一种基于半监督与孤立森林的大比例异常数据检测方法,包括以下步骤:步骤一:数据采集、预处理阶段:采集实际生产过程中的数据,进行预处理形成混合数据集与纯净数据集;步骤二:模型训练阶段:运用混合数据集训练孤立森林,将纯净数据集输入孤立森林得到节点白名单;步骤三:异常检测阶段:结合孤立森林与节点白名单进行异常检测。本发明专利技术提供的基于半监督与孤立森林的大比例异常数据检测方法,以孤立森林算法为基础,结合半监督、白名单机制等技术,从异常得分与节点白名单两个角度进行异常检测,既保留了无监督异常检测方法节省人工的优势,又提高了异常数据占比较大时的检测效果。测效果。测效果。

【技术实现步骤摘要】
基于半监督与孤立森林的大比例异常数据检测方法及系统


[0001]本专利技术涉及机器学习
,具体涉及基于半监督与孤立森林的大比例异常数据检测方法及系统。

技术介绍

[0002]异常检测是机器学习常见的应用之一,旨在检测数据中的特殊点,适用于网络入侵检测、故障诊断、疾病检测、身份识别、欺诈检测等场景。
[0003]当前,异常检测技术根据训练集的不同大致分为三类:全监督异常检测、半监督异常检测、无监督异常检测。其中,全监督与半监督异常检测技术需要对全部或部分训练样本进行标记,之后根据训练集进行模型训练,可以得到较为精确的检测效果,但在现实情况中,由于标记样本是非常复杂的过程,需要耗费大量的人力,因此,这两种检测技术应用范围受到限制。无监督异常检测技术不需要对数据集进行标记,该技术以异常数据在总体数据样本中占比小、与正常数据差异性大的特性为理论基础,使用不含标签的样本数据集进行训练得到检测模型,其优点在于省去了大量的人力劳动,符合实际生产需求,应用较为广泛,其缺点在于若异常数据占比较大时模型的检测精度会有较大程度的影响。在当前工业化和信息本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于半监督与孤立森林的大比例异常数据检测方法,其特征在于,包括以下步骤:步骤一:数据采集、预处理阶段:采集实际生产过程中的数据,进行预处理形成混合数据集与纯净数据集;步骤二:模型训练阶段:运用混合数据集训练孤立森林,将纯净数据集输入孤立森林得到节点白名单;步骤三:异常检测阶段:结合孤立森林与节点白名单进行异常检测。2.根据权利要求1所述的一种基于半监督与孤立森林的大比例异常数据检测方法,其特征在于,步骤一中,数据采集、预处理阶段包括:Q1:采集实际生产过程中的数据,其中包含正常数据与异常数据,并进行预处理形成混合数据集;Q2:通过人工从混合数据集中筛选出部分正常数据形成纯净数据集。3.根据权利要求1所述的一种基于半监督与孤立森林的大比例异常数据检测方法,其特征在于,步骤二中,模型训练阶段包括:W1:将步骤一中的混合数据集作为输入数据,并初始化孤立森林;W2:对于步骤一中的输入数据,随机选择若个样本点作为子样本集,放入一棵孤立树的根节点;W3:随机指定一个维度,在当前节点数据中随机产生一个分割点,分割点位于当前指定维度的最大值与最小值之间;W4:以W3中随机产生的分割点生成一个超平面,将当前节点的数据空间划分为2个子空间,将当前节点在指定维度上小于W3分割点的样本放在左子树的根节点上,将大于分割点的样本放到右子树的根节点上;W5:在子节点中递归W3和W4,不断构造新的子树,直至满足终止条件:

数据本身不可再分,只包含一个样本或该节点全部样本都相同;

树达到指定的最大深度;W6:重复步骤W2到步骤W5,构造t棵孤立树构成孤立森林;W7:将步骤一中的纯净数据集输入孤立森林;W8:以X
k
={X0,X1,

,X
P
}的形式输出纯净数据集在每棵孤立树叶子节点中的分布情况,其中k=0,1,2,...,t为孤立树的编号,X
i
=[a,b]为二维向量,其中X
i
[0]=a为叶子节点编号,X
i
[1]=b为该节点中所包含的正常样本数量,且X
i
依照样本数量从高到低排序;W9:设定正常度参数m,m处于0到1之间,依照得出每棵孤立树的白名单节点X
k

={X0[0],X1[0],

【专利技术属性】
技术研发人员:安玲玲韩潇哲李琳周睿康赵梓桐
申请(专利权)人:中国电子技术标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1