【技术实现步骤摘要】
一种基于子空间的离群点检测算法
本专利技术属于数据挖掘领域,具体涉及一种基于子空间的离群点检测算法。
技术介绍
20世纪60年代以来,数据挖掘技术已经成为应用人工智能的一个重要分支。而离群点检测作为数据挖掘的一项重要任务,经过不断发展完善已经形成了许多针对不同任务的方法:1)基于密度的离群点检测算法,该方法试用于局部离群点。2)基于距离的离群点检测算法,该方法试用于检测全局离群点。3)基于集成的异常点检测,Liu等人提出了SCiForest和iForest算法,能够快速高效的检测大数据中的异常点。以上方法各自有其优缺点,因此不同的挖掘任务采用的方法也不尽相同。但上述算法不适合高维海量数据中检测离群点,因此本文提出了一种基于子空间的离群点检测算法。
技术实现思路
本专利技术的目的在于克服上述不足,提供一种基于子空间的离群点检测算法,该算法基于iForest算法改进,将改进后的算法命名为NIF。NIF算法通过引入信息增益公式计算属性信息量,通过信息量来选取切割维度,提高算法检测精度。为了达到上述目的, ...
【技术保护点】
1.一种基于子空间的离群点检测算法,其特征在于,包括以下步骤:/n步骤一,在有标签的数据D中随机选择Φ个样本作为根节点,根据信息增益方法选择切割子空间的属性T;/n步骤二,计算属性T的熵;/n步骤三,根据属性的熵计算属性T给分类C带来的信息增益;/n步骤四,通过熵的计算公式推得属性T与类别的信息增益公式;/n步骤五,计算每个属性的信息增益值,按照信息增益值排序,筛选属性,构成新的属性子空间;/n步骤六,新的属性子空间中随机选择一个属性p构成的超平面来切割空间,把小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子;/n步骤七:在孩子节点中递归构造新的孩子 ...
【技术特征摘要】
1.一种基于子空间的离群点检测算法,其特征在于,包括以下步骤:
步骤一,在有标签的数据D中随机选择Φ个样本作为根节点,根据信息增益方法选择切割子空间的属性T;
步骤二,计算属性T的熵;
步骤三,根据属性的熵计算属性T给分类C带来的信息增益;
步骤四,通过熵的计算公式推得属性T与类别的信息增益公式;
步骤五,计算每个属性的信息增益值,按照信息增益值排序,筛选属性,构成新的属性子空间;
步骤六,新的属性子空间中随机选择一个属性p构成的超平面来切割空间,把小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子;
步骤七:在孩子节点中递归构造新的孩子节点,直到满足以下条件中的一个:
1)孩子节点中只有一个数据;
2)孩子节点已到达限定高度;
3)当前子树的所有节点值的所有属性完全一致;
停止...
【专利技术属性】
技术研发人员:张瑶瑶,韩博,谭薇,王丹,杜丰,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。