一种基于大数据的异常行为检测的方法与系统技术方案

技术编号:31767564 阅读:49 留言:0更新日期:2022-01-05 16:53
本发明专利技术公开了一种基于大数据的异常行为检测的方法与系统,其中所述方法包括:获取海量待训练数据,并将所述海量待训练数据导入第一存储器;对所述第一存储器中的海量待训练数据进行预处理得到第一数据集;基于所述第一数据集生成二叉森林,所述二叉森林为由若干二叉树构成的集合,所述二叉树基于所述第一数据集的子集获取;基于所述二叉森林进行异常行为检测。本发明专利技术可以提升有效超平面的生成效率,并通过对超平面进行评分,剔除精度较低的超平面,以降低内存占用,提升了运算速度、稳定性和可解释性。可解释性。可解释性。

【技术实现步骤摘要】
一种基于大数据的异常行为检测的方法与系统


[0001]本专利技术属于异常检测方法领域,尤其涉及一种基于大数据的异常行为检测的方法与系统。

技术介绍

[0002]在生产制造、医疗或金融等诸多领域,都会遇到需要对海量数据进行自动化异常检测的问题。从大量的数据样本和数据维度中找到异常点,有助于我们快速识别可能存在异常的样本。由于这些异常样本往往具有极少的标签,所以当前主流且效果较好的模型仍然是无监督模型,例如iForest模型,该模型由于高效且不依赖于具体数据分布,而被业内广泛使用。如现有专利号为ZL202010025249.3的中国专利技术专利,其公开一种基于iForest模型验证的SMT焊点缺陷检测方法。通过将图像样本进行局部二值模式值及边缘检测,得到二值模式纹理特征向量,根据构建并验证的孤立森林模型得到准确的训练样本,对异常样本进行筛选,以此构建准确的BP神经网络模型,进而获得焊点的缺陷检测结果。该现有专利虽然能够采用图像处理技术,及孤立森林模型的快速准确划分技术对样本数据进行筛选,提高对样本数据的准确性,并通过构建的BP神经网络模型完成焊点图本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的异常行为检测的方法,其特征在于,包括以下步骤:获取海量待训练数据,并将所述海量待训练数据导入第一存储器;对所述第一存储器中的海量待训练数据进行预处理得到第一数据集;基于所述第一数据集生成二叉森林,所述二叉森林为由若干二叉树构成的集合,所述二叉树基于所述第一数据集的子集获取;基于所述二叉森林进行异常行为检测。2.如权利要求1所述方法,其特征在于,所述第一数据集包括N个训练样本和m个特征数据。3.如权利要求2所述方法,其特征在于,所述二叉树基于所述第一数据集的子集获取,具体包括:在所述N个训练样本中随机选取n个样本,其中N大于或等于n;为所述m个特征数据分配第一权重概率;基于所述第一权重概率,随机生成基于所述n个样本的超平面;基于所述超平面对所述n个样本进行划分,形成二叉树。4.如权利要求3所述方法,其特征在于,为所述m个特征数据分配第一权重概率,具体包括:对每一个特征数据,计算其维度熵,记特征d
i
,1≤i≤m的维度熵为ent(d
i
);将随机选取的b个样本p,依据特征d
i
的取值进行等距切割为bin组,统计每组j的样本数量b
j
,则该特征数据对应的维度熵为:,所述维度熵为第一权重概率。5.如权利要求4所述方法,其特征在于,所述基于所述第一权重概率,随机生成基于所述n个样本的超平面,具体包括:构建三维超平面,则用于划分的超平面方程为ax+by+cz+u=0;n个样本满足ax+by+cz+u<0的被划分到左子树;满足ax+by+cz+u>0的被划分到右子树;在每一次构造超平面划分时,特征被选中作为超平面中特征数据的概率为,随后在这些被选出的特征数据中对每个特征数据随机赋予系数即可得到超平面,所述二叉树的深度不超过值。6.如权利要求5所述方法,其特征在于,所述超平面包括任意数量的维度,每一个超平面能够将一棵决策树的节点划分为左右两棵子树。7.如权利要求5所述方法,其特征在于,所述超平面划分具体包括:对于训练样本p,按照所述超平面划...

【专利技术属性】
技术研发人员:邵俊张孜勉万友平
申请(专利权)人:深圳索信达数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1