一种海量地理数据异常检测场景中的检测方法技术

技术编号:30791024 阅读:18 留言:0更新日期:2021-11-16 07:54
本发明专利技术公开了一种海量地理数据异常检测场景中的检测方法,包括如下步骤:S1、海量数据特征处理;S2、构建异常检测模型;S3、输出异常数据,本发明专利技术基于孤立隔离法进行无监督异常检测处理,充分利用地理空间数据中矢量特征与连续特征的差异性引入不同的计算因子进行残差分析,优化异常检测模型的准确率,通过特征降维与特征转换将地理数据巧妙映射至二维,减少计算资源,使模型计算效率提升,实现了海量地理数据异常检测的目标,相比于传统的地理异常检测器与人工区域抽样检测方式,本异常检测模型检测出的异常样本更加高效与合理,并在极海量数据场景下效果更加合理且灵活,使数据评估与修复更加智能化,可谓一举多得之法。可谓一举多得之法。可谓一举多得之法。

【技术实现步骤摘要】
一种海量地理数据异常检测场景中的检测方法


[0001]本专利技术涉及机器学习及空间数据异常检测
,具体为一种海量地理数据异常检测场景中的检测方法。

技术介绍

[0002]孤立隔离算法又称孤立隔离树,目前学术界对异常的定义存在多种分类,而数据源的差异与数据使用场景的变迁使异常检测方法也会有所不同,通过优化孤立隔离法,将容易被孤立的离群点逐步转化为在二维空间中分布稀疏且密度高的离群体较远的点位,从而表现出在特征空间中,分布稀疏的区域表示事件发生在该区域的概率很低,因而便可认为落在这些区域中的数据是异常;
[0003]利用机器学习中无监督学习的方法对海量地理数据进行异常检测预估,此方法可应用于数据评估场景,可以有效降低针对地理数据的评估成本,并结合异常检测分析从而极大提升线上海量地理数据的置信度与准确度,并可根据不同地理数据使用场景不断更新训练集与优化参数,但是目前缺少将海量地理数据通过智能化进行异常检测评估的方法。

技术实现思路

[0004]本专利技术提供一种海量地理数据异常检测场景中的检测方法,可以有效解决上述
技术介绍
中提出如何将海量地理数据通过智能化进行异常检测评估的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种海量地理数据异常检测场景中的检测方法,包括如下步骤:
[0006]S1、海量数据特征处理;
[0007]S2、构建异常检测模型;
[0008]S3、输出异常数据。
[0009]根据上述技术方案,所述S1中,海量数据特征处理是指对获取的海量地理数据进行预处理,具体包括对海量地理数据进行特征切分、特征聚合和特征连续化处理;
[0010]在对海量地理数据进行特征切分和特征聚合处理后,通过对海量地理数据进行特征连续化的转化处理,实现将离散化的特征变换为连续化的特征。
[0011]根据上述技术方案,所述S2中,构建异常检测模型具体包括如下步骤:
[0012]A、构建孤立隔离树;
[0013]B、计算异常分数;
[0014]C、测试异常分数排序。
[0015]根据上述技术方案,所述A中,构建孤立隔离树是指在对数据特征进行连续化处理后,通过递归随机分割的方式建立完整的孤立隔离树,再利用构建的孤立隔离树(iTree)来对特征的相关性进行验证;
[0016]在具体的验证过程中,假设T是孤立隔离树中没有子节点的叶子节点或者是只有两个子节点(T1,Tn)的内部节点,每一步分割,都包含特征q和分割值p,将q<p<p的数据分到
T1,将q≥p≥p的数据分到Tn。
[0017]根据上述技术方案,在步骤A中的验证过程中,给定n个样本数据集X={x1,

,xn},特征的维度为dd,为了构建一棵孤立隔离树,需要随机选择一个特征m及其分割值d,递归地分割样本数据集X,直到满足以下任意一个条件:
[0018](1)、孤立隔离树达到了限制的高度;
[0019](2)、节点上只有一个样本;
[0020](3)、节点上的样本所有特征都相同。
[0021]根据上述技术方案,所述B中,计算异常分数是指在评判地理数据是否为异常值时,数据的异常分数将会切分成两部分进行:
[0022](1)、连续特征异常检测因子;
[0023](2)、矢量特征异常检测因子;
[0024]连续特征异常检测因子与样本集的孤立隔离树的平均路径长度成正相关,由此孤立隔离树平均路径长度便可通过公式进行计算。
[0025]根据上述技术方案,在步骤B中通过公式计算孤立隔离树平均路径长度时,假设给定一个包含m个样本的样本集,则孤立隔离树的平均路径长度的计算公式为:
[0026]c(m)=2F(m

1)

2(m

1)
×
m
‑1;
[0027]在式中,F(m)为调和数,该值可以被估计为:ln(m)+0.5772156649,c(m)为给定样本数m时,孤立隔离树路径的长度平均值,用来标准化样本x的路径长度f(x),从而使连续特征的异常得分定义为:
[0028][0029]从而生成连续特征异常分数。
[0030]根据上述技术方案,所述C中,在测试异常分数的排序时,通过矢量特征异常检测因子与球面欧几里得的距离算法结果成正相关的关系,将矢量特征属性获取质心再带入以下欧几里得的公式:
[0031][0032]获得矢量特征的异常因子比。
[0033]根据上述技术方案,在步骤C中,通过公式获得矢量特征的异常因子比后,再将其通过统计映射的方法转换至异常分数区间,并将连续特征异常分数与矢量特征异常分数求和,从而获得地理数据异常检测分数;
[0034]再根据地理数据异常检测分数来进行排序,并利用映射分析可迅速识别出可能异常的数据。
[0035]根据上述技术方案,所述S3中,输出异常数据是指通过离群残差计算构建异常分数来进行异常分数排序,以此来筛选出可能异常的数据其异常特征,最后将筛选出的异常数据和异常特征输出即可。
[0036]与现有技术相比,本专利技术的有益效果:
[0037]本专利技术基于孤立隔离法进行无监督异常检测处理,能够充分利用地理空间数据中矢量特征与连续特征的差异性引入不同的计算因子进行残差分析,优化异常检测模型的准确率,通过特征降维与特征转换将地理数据巧妙映射至二维,减少计算资源,使模型计算效
率大大提升,达到了海量地理数据异常检测的目标,实现了集成多种特征工程算法与空间距离算法的方式,通过聚合多种空间距离计算方法来提升准确度;
[0038]并且,本专利技术相比于传统的地理异常检测器与人工区域抽样检测方式,通过本异常检测模型检测出的异常样本更加高效与合理,并在极海量数据场景下效果更加合理且灵活,使数据评估与修复更加智能化,可谓一举多得之法。
附图说明
[0039]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0040]图1是本专利技术检测方法的流程框图。
具体实施方式
[0041]以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。
[0042]实施例1:如图1所示,本专利技术提供一种技术方案,一种海量地理数据异常检测场景中的检测方法,包括如下步骤:
[0043]S1、海量数据特征处理;
[0044]S2、构建异常检测模型;
[0045]S3、输出异常数据。
[0046]基于上述技术方案,S1中,海量数据特征处理是指对获取的海量地理数据进行预处理,具体包括对海量地理数据进行特征切分、特征聚合和特征连续化处理;
[0047]在对海量地理数据进行特征切分和特征聚合处理后,通过对海量地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种海量地理数据异常检测场景中的检测方法,其特征在于:包括如下步骤:S1、海量数据特征处理;S2、构建异常检测模型;S3、输出异常数据。2.根据权利要求1所述的一种海量地理数据异常检测场景中的检测方法,其特征在于:所述S1中,海量数据特征处理是指对获取的海量地理数据进行预处理,具体包括对海量地理数据进行特征切分、特征聚合和特征连续化处理;在对海量地理数据进行特征切分和特征聚合处理后,通过对海量地理数据进行特征连续化的转化处理,实现将离散化的特征变换为连续化的特征。3.根据权利要求1所述的一种海量地理数据异常检测场景中的检测方法,其特征在于:所述S2中,构建异常检测模型具体包括如下步骤:A、构建孤立隔离树;B、计算异常分数;C、测试异常分数排序。4.根据权利要求3所述的一种海量地理数据异常检测场景中的检测方法,其特征在于:所述A中,构建孤立隔离树是指在对数据特征进行连续化处理后,通过递归随机分割的方式建立完整的孤立隔离树,再利用构建的孤立隔离树(iTree)来对特征的相关性进行验证;在具体的验证过程中,假设T是孤立隔离树中的一个节点,它要么是没有子节点的叶子节点,要么是只有两个子节点(T1,Tn)的内部节点,每一步分割,都包含特征q和分割值p,将q<p<p的数据分到T1,将q≥p≥p的数据分到Tn。5.根据权利要求4所述的一种海量地理数据异常检测场景中的检测方法,其特征在于:在步骤A中的验证过程中,给定n个样本数据集X={x1,

,xn},特征的维度为dd,为了构建一棵孤立隔离树,需要随机选择一个特征m及其分割值d,递归地分割样本数据集X,直到满足以下任意一个条件:(1)、孤立隔离树达到了限制的高度;(2)、节点上只有一个样本;(3)、节点上的样本所有特征都相同。6.根据权利要求3所述的一种海量地理数据异常检测场景中的检测方法,其特征在于:所述B中,计算异常分数是指在评判地理数据是...

【专利技术属性】
技术研发人员:朱与墨田鹏飞储鑫淼
申请(专利权)人:亿景智联北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1