基于改进的孤立森林的异常样本检测方法及相关设备技术

技术编号:30145442 阅读:19 留言:0更新日期:2021-09-23 15:18
本申请涉及人工智能技术领域,提供一种基于改进的孤立森林的异常样本检测方法及相关设备,所述方法包括:解析接收的异常样本检测请求,获取原始样本数据集;计算每个维度的样本数据集的变异系数;根据多个维度的样本数据集的多个变异系数对原始样本数据集进行维度选择,及对原始样本数据集进行分割处理;根据维度选择过程和分割处理过程构建多颗目标孤立树,并集成多颗目标孤立树构成孤立森林;根据原始样本数据集在孤立森林中的平均遍历路径,对原始样本数据集进行异常检测。本申请通过对所述原始样本数据集进行分割处理,避免随机选取分割值导致的分割次数多的问题,提高目标样本的分割速度,进而提高了异常样本检测效率。率。率。

【技术实现步骤摘要】
基于改进的孤立森林的异常样本检测方法及相关设备


[0001]本申请涉及人工智能
,具体涉及一种基于改进的孤立森林的异常样本检测方法及相关设备。

技术介绍

[0002]孤立森林是用于结构化数据异常检测的一种算法,一般来说它基于异常样本检测是稀疏的,现有技术通过较少次划分将样本数据归结到单独区域中进行异常检测。
[0003]然而,专利技术人发现现有的孤立森林是基于单棵树结构的集成算法,可能会引起异常监测结果不稳定和单棵孤立树过深的问题,导致异常样本检测效率和准确率低;同时,在处理大规模数据时,孤立森林采用的随机划分特征方法会使得异常样本检测速度较慢。
[0004]因此,有必要提出一种可以快速准确的异常样本检测的方法。

技术实现思路

[0005]鉴于以上内容,有必要提出一种基于改进的孤立森林的异常样本检测方法及相关设备,通过对所述原始样本数据集进行分割处理,避免随机选取分割值导致的分割次数多的问题,提高目标样本的分割速度,进而提高了异常样本检测效率。
[0006]本申请的第一方面提供一种基于改进的孤立森林的异常样本检测方法,所述方法包括:解析接收的异常样本检测请求,获取原始样本数据集,其中,所述原始样本数据集中包含有多个维度的样本数据集;计算每个所述维度的样本数据集的变异系数;根据所述多个维度的样本数据集的多个变异系数对所述原始样本数据集进行维度选择,及对所述原始样本数据集进行分割处理;根据维度选择过程和分割处理过程构建多颗目标孤立树,并集成所述多颗目标孤立树构成孤立森林;根据所述原始样本数据集在所述孤立森林中的平均遍历路径,对所述原始样本数据集进行异常检测。
[0007]可选地,所述根据所述原始样本数据集在所述孤立森林中的平均遍历路径,对所述原始样本数据集进行异常检测包括:从所述原始样本数据集中随机选取一个样本,基于每个所述样本遍历所述孤立森林的每一颗孤立树,计算每个所述样本在所述孤立森林的每一颗孤立树上的深度;根据每个所述样本在所述孤立森林的每一颗孤立树上的深度计算每个所述样本的异常值,所述异常值采用如下公式计算得到:,其中,表示所述原始样本数据集中的任意一个样本,表示任意一个样本在
所述孤立森林的每一颗孤立树上的深度,表示所述任意一个样本在所述孤立森林中的深度平均值,表示所述孤立森林中的多个目标样本中的任意一个目标样本,表示所述任意一个目标样本在所述孤立森林中的深度平均值,表示所述任意一个样本在所述孤立森林中的每一棵孤立树上的深度与对应孤立树深度之差的深度平均值;将计算得到的每个所述样本的异常值与预设的异常阈值进行比较;当每个所述样本的异常值大于或者等于所述预设的异常阈值时,确定每个所述样本的异常值对应的样本异常。
[0008]可选地,所述计算每个所述维度的样本数据集的变异系数包括:将每个所述维度的样本数据集的标准差除以对应维度的样本数据集的平均值之商数,确定为每个所述维度的样本数据集的变异系数。
[0009]可选地,所述对所述原始样本数据集进行分割处理包括:从所述原始样本数据集中的每个所述维度的样本数据集中随机挑选出多个目标样本,形成每个所述维度的目标样本数据集;按照预设的转换规则将每个所述维度的目标样本数据集中的每个目标样本转换为装箱值,根据每个目标样本的装箱值进行装箱处理,得到多个箱子,并记录每个箱子中的样本数;遍历每个所述箱子,计算每个所述箱子的右侧所有箱子中的目标样本数之和与对应箱子的左侧所有箱子中的目标样本数之和的差值的绝对值,从所述绝对值中选取最大绝对值对应的箱子的装箱值,确定为每个所述维度的目标样本数据集的分割值。
[0010]可选地,所述根据维度选择过程和分割处理过程构建多颗孤立树包括:根据维度选择过程确定目标维度,并对所述目标维度构建一棵目标孤立树,其中,所述对所述目标维度构建一棵目标孤立树包括:根据所述分割处理过程确定所述目标维度的目标样本集的分割值;将所述分割值左侧所有箱子的目标样本放入预设孤立树的左分支,将所述分割值右侧所有箱子的目标样本放入预设孤立树的右分支;重复执行所述维度选择过程和所述分割处理过程,直至所述预设孤立树的叶子节点上只有一个数据或者所述预设孤立树达到了预设高度,结束所述预设孤立树的构建,并将构建好的所述预设孤立树,确定为所述目标维度的目标孤立树。
[0011]可选地,所述根据所述多个维度的样本数据集的多个变异系数对所述原始样本数据集进行维度选择包括:对所述多个维度的多个变异系数进行降序排序;从所述降序排序结果的队头开始依次进行维度的选择。
[0012]可选地,所述解析接收的异常样本检测请求,获取原始样本数据集包括:解析异常样本检测请求获取多个维度及每个维度的样本数据集的调用接口;根据所述异常样本检测请求及每个维度的样本数据集的调用接口组成调用接口列表;通过所述调用接口列表的第一个调用接口开始依次获取对应维度的样本数据集;
将所述多个维度的样本数据集进行合并得到原始样本数据集。
[0013]本申请的第二方面提供一种基于改进的孤立森林的异常样本检测装置,所述装置包括:解析模块,用于解析接收的异常样本检测请求,获取原始样本数据集,其中,所述原始样本数据集中包含有多个维度的样本数据集;计算模块,用于计算每个所述维度的样本数据集的变异系数;选择和分割模块,用于根据所述多个维度的样本数据集的多个变异系数对所述原始样本数据集进行维度选择,及对所述原始样本数据集进行分割处理;构建模块,用于根据维度选择过程和分割处理过程构建多颗目标孤立树,并集成所述多颗目标孤立树构成孤立森林;异常检测模块,用于根据所述原始样本数据集在所述孤立森林中的平均遍历路径,对所述原始样本数据集进行异常检测。
[0014]本申请的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于改进的孤立森林的异常样本检测方法。
[0015]本申请的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于改进的孤立森林的异常样本检测方法。
[0016]综上所述,本申请所述的基于改进的孤立森林的异常样本检测方法及相关设备,一方面,根据所述多个维度的样本数据集的多个变异系数对所述原始样本数据集进行维度选择,通过在计算得到多个维度的样本数据集的多个变异系数时优先挑选变异系数大对应的维度的样本数据集构建孤立树的第一层,在后续的异常样本检测过程中可以消除不同维度变异系数,提高了后续异常样本检测的速度;另一方面,对所述原始样本数据集进行分割处理,在进行每个维度的孤立树构建之前,通过从每个维度的样本数据集中随机挑选出多个目标样本,通过将目标样本转换为装箱值后,并对目标样本进行装箱处理后确定分割值,避免随机选取分割值导致的分割次数多的问题,可以提高目标样本的分割速度,进而提高异常样本检测效率;最后,根据原始样本数据集在所述孤立森林中的平均遍历路径,对所述原始样本数据集进行异常检测,通过在计算每个所述样本的异常值时考本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进的孤立森林的异常样本检测方法,其特征在于,所述方法包括:解析接收的异常样本检测请求,获取原始样本数据集,其中,所述原始样本数据集中包含有多个维度的样本数据集;计算每个所述维度的样本数据集的变异系数;根据所述多个维度的样本数据集的多个变异系数对所述原始样本数据集进行维度选择,及对所述原始样本数据集进行分割处理;根据维度选择过程和分割处理过程构建多颗目标孤立树,并集成所述多颗目标孤立树构成孤立森林;根据所述原始样本数据集在所述孤立森林中的平均遍历路径,对所述原始样本数据集进行异常检测。2.如权利要求1所述的基于改进的孤立森林的异常样本检测方法,其特征在于,所述根据所述原始样本数据集在所述孤立森林中的平均遍历路径,对所述原始样本数据集进行异常检测包括:从所述原始样本数据集中随机选取一个样本,基于每个所述样本遍历所述孤立森林的每一颗孤立树,计算每个所述样本在所述孤立森林的每一颗孤立树上的深度;根据每个所述样本在所述孤立森林的每一颗孤立树上的深度计算每个所述样本的异常值,所述异常值采用如下公式计算得到:,其中,表示所述原始样本数据集中的任意一个样本,表示任意一个样本在所述孤立森林的每一颗孤立树上的深度,表示所述任意一个样本在所述孤立森林中的深度平均值,表示所述孤立森林中的多个目标样本中的任意一个目标样本,表示所述任意一个目标样本在所述孤立森林中的深度平均值,表示所述任意一个样本在所述孤立森林中的每一棵孤立树上的深度与对应孤立树深度之差的深度平均值;将计算得到的每个所述样本的异常值与预设的异常阈值进行比较;当每个所述样本的异常值大于或者等于所述预设的异常阈值时,确定每个所述样本的异常值对应的样本异常。3.如权利要求1所述的基于改进的孤立森林的异常样本检测方法,其特征在于,所述计算每个所述维度的样本数据集的变异系数包括:将每个所述维度的样本数据集的标准差除以对应维度的样本数据集的平均值之商数,确定为每个所述维度的样本数据集的变异系数。4.如权利要求1所述的基于改进的孤立森林的异常样本检测方法,其特征在于,所述对所述原始样本数据集进行分割处理包括:从所述原始样本数据集中的每个所述维度的样本数据集中随机挑选出多个目标样本,形成每个所述维度的目标样本数据集;按照预设的转换规则将每个所述维度的目标样本数据集中的每个目标样本转换为装
箱值,根据每个目标样本的装箱值进行装箱处理,得到多个箱子,并记录每个箱子中的样本数;遍历每个所述箱子,计算每个所述箱子的右侧所有箱子中的目标样本数之和与对应箱子的左侧所有箱子中的目标样本数之和的差值的绝对值,从所述绝对值中选取最大绝对值对应的箱子的装箱值,确定为每个所述维度的目标样本...

【专利技术属性】
技术研发人员:吴志成张莉乔延柯
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1