一种基于数据特征的权重来构建孤立森林的异常检测算法制造技术

技术编号：30050210 阅读：18 留言：0更新日期：2021-09-15 10:52

本文公开了一种基于数据特征的权重来构建孤立森林的异常检测算法。该方法主要包括：通过终端设备实时采集待检测数据；对待检测数据进行特征的提取并通过熵权法计算特征权重；将采集数据作为训练集进行训练，根据特征的不同权重完成孤立树的构建并组合成为孤立森林；将采集数据作为测试数据输入孤立森林模型，得到其在每颗孤立树的路径长度，并根据权重来进行计算总得路径长度；通过路径长度计算出异常得分，与设置的阈值进行比较来判断是否异常。本发明专利技术通过为不同的特征引入不同的权重，并根据权重来建立模型和计算异常得分，异常检测效果提高明显。果提高明显。果提高明显。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据特征的权重来构建孤立森林的异常检测算法

[0001]本专利技术涉及机器学习模型优化以及异常数据检测领域，具体涉及一种基于数据特征的权重来构建孤立森林的异常检测方法。

技术介绍

[0002]在机器学习异常检测领域，怎样快速准确的对异常数据进行检测一直都是研究的重点。传统中，人工盯看监控大盘来监控数据的方式效率不仅低下，还对应着巨大的人力成本。而现存的监控数据自动监控需要管理员去挨个配置各个环境数据的合理范围，超出合理范围的会触发告警系统。但管理员对数据的合理波动范围往往并不全都清楚，随着监控设备的陡增，这项工作量也变得非常大。
[0003]现有的基于无监督学习算法的代表是孤立森林算法。首先，对训练数据集进行预处理和特征提取；然后进行孤立树的构建，构建方法是在特征集中随机选取一个特征，然后在训练数据集中该特征下的最大值和最小值间随机选择一个分割值，通过这个分割值来对数据进行划分从而构建左右子树，直到数据无法被划分或者已经达到树高限制，这种划分方式会使异常数据点在孤立树中的更靠近根节点，通过合并孤立树完成孤立森林的构建；最后计算测试数据在每个孤立树中路径长度，通过路径长度计算出异常得分，根据异常得分来判断数据是否异常。
[0004]上面传统孤立森林方法存在以下几个问题：i)数据的不同特征对于其是否异常的影响程度不同，对异常影响程度较大的应该具有更大的概率被选取作为分割特征来划分数据集，所以随机选取特征的方式会孤立树的质量变低，进而影响到算法的检测性能；ii)当不同特征对异常的影响程度不同时，权重...

【技术保护点】

【技术特征摘要】
1.一种基于特征权重的孤立森林异常检测方法，其特征在于，该方法包括以下步骤：步骤S1：通过终端设备实时采集待检测数据，形成一个训练数据集合；步骤S2：对训练数据集进行特征的提取和权重的计算；步骤S3：根据特征权重进行孤立森林的构建；步骤S4：根据特征权重来计算测试数据在孤立森林中的异常得分；步骤S5：根据计算出的异常得分来判断是否为异常数据；2.根据权利要求1所述的一种基于特征权重的孤立森林异常检测方法，其特征在于，优选的，步骤S2的通过熵权法计算特征权重。3.根据权利要求1所述的一种基于特征权重的孤立森林异常检测方法，其特征在于，优选的，步骤S3的根据特征权重进行...

【专利技术属性】
技术研发人员：张永军，谢炎昆，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人