一种基于区间划分的基站数据异常检测方法技术

技术编号:23984107 阅读:22 留言:0更新日期:2020-04-29 12:42
本发明专利技术公开了一种基于区间划分的基站数据异常检测方法,包括:对原始轨迹数据集预处理,将处理后数据集划分为动态区间和静态区间;动态区间表示为任意多个连续的近邻孤立点的下标构成的范围,静态区间表示为原数据集中除去所有动态区间,所剩各数据片段的起止下标构成的范围;对所述动态区间使用多维高斯模型和滑窗距离模型进行异常点提取;对所述静态区间使用重心距离评分法进行异常点提取;使用五元组表示动态异常点和静态异常点,构成五元组集合表示异常点集。本发明专利技术所公开的方法,适合处理在线数据,时间短、准确度高,能有效评测新的异常模式,误判率较低。

An anomaly detection method of base station data based on interval division

【技术实现步骤摘要】
一种基于区间划分的基站数据异常检测方法
本专利技术公开了一种基于区间划分的基站数据异常检测方法,涉及人工智能计算机领域中的数据挖掘,特别是时空轨迹数据异常检测

技术介绍
随着定位技术和普适计算的蓬勃发展,人们的日常行为数据被多种方式采集,轨迹大数据因此诞生。轨迹大数据表现为定位设备所产生的大规模高速时空数据流,有效地对以数据流形式出现的轨迹大数据进行分析处理,可以发现隐含在轨迹数据中的异常现象,从而服务于城市规划、安全管控等应用。现有的轨迹数据异常检测技术包括基于分类的检测、基于历史数据相似度的检测、基于距离的检测、基于聚类的检测等。这些法存在以下不足:1.轨迹流数据中的异常是未知的、时变的,基于分类不适合处理在线数据;2.基于距离的方法涉及大量轨迹数据的近邻查询和距离计算,时间开销大,准确度不高;3.基于历史数据的方法,依赖大量历史数据,不能有效评测新的异常模式;4.基于聚类的方法对特征和类簇的选取要求高,通常误判率较高。
技术实现思路
本专利技术所要解决的技术问题是:针对现有技术的缺陷,提供一种基于区间划分的基站数据异常检测方法,首先根据基站采集数据的特征将原始数据集划分成若干个子集,然后对不同类型的子集采用不同的模型进行求解。最终得到异常点候选集。本专利技术为解决上述技术问题采用以下技术方案:一种基于区间划分的基站数据异常检测方法,所述方法包括以下步骤:步骤(1)、对原始轨迹数据集预处理,将处理后数据集划分为动态区间和静态区间;所述动态区间表示为任意多个连续的近邻孤立点的下标构成的范围,所述静态区间表示为原数据集中除去所有动态区间,所剩各数据片段的起止下标构成的范围;步骤(2)、模型求解,对所述动态区间使用多维高斯模型和滑窗距离模型进行异常点提取;对所述静态区间使用重心距离评分法进行异常点提取;步骤(3)使用五元组表示动态异常点和静态异常点,构成五元组集合表示异常点集。作为本专利技术的进一步优选方案,步骤(1)中所述预处理的规则为:清洗数据中不包含预先设定的字段的数据;对清洗后的数据进行去重,并按时间排序。作为本专利技术的进一步优选方案,步骤(1)中,利用动态区间搜索算法将原始轨迹数据集进行区间划分,包括以下步骤:101、孤立点选取,令指定时间范围内仅出现一次的数据作为孤立点,表达公式如下:其中,lt=(lont,latt)表示某个时刻t的空间位置,由该时刻的经度lon和纬度lat组成,表示以时刻ti为中心时刻的时间片段;如果则lt为孤立点;102、动态区间搜索,设定任意多个连续的近邻孤立点的起止下标构成的范围称为动态区间:上式表示两个孤立点lx,ly的近邻关系,其中index(lt)表示孤立点lt在原始数据集中的索引下标,则lx,ly近邻当且仅当对于多个孤立点组成的集合L={l1,l2,l3…li},中任意子集如果则称L为i-近邻孤立点集;近邻孤立点集的起止元素的下标组成的范围为动态区间,表示为I=[index(l1),index(li)];103、静态区间生成,在预处理结果集的下标范围内,除去所有的动态区间,剩下的所有区间称为静态区间;令原始数据集下标区间S=[0,n],假定动态区间I1=[i,i+k],I2=[j,j+u],其中k,u>0,i>0,j>i+k,j+u<n,则区间J1=[0,i-1],J2=[i+k+1,j-1],J3=[j+u+1,n]称为静态区间。作为本专利技术的进一步优选方案,步骤(2)中,所述动态区间的模型求解包含以下步骤:201、提取数据样本的经度、纬度、提取时间、位置切换速率四个维度代入高斯模型计算整个数据集中各项数据的概率密度,对概率值进行从小到大排序,选取前λ个概率值对应的数据加入异常点候选集E1,多维高斯模型的计算公式如下:其中,μ为N维均值向量,∑为N×N协方差矩阵,|∑|为∑的行列式;202、建立滑窗距离模型,在预处理结果集上选取任意连续并且大小为2k+1的数据W=wi-k,…,wi-1,wi,wi+1,…,wi+k作为一个窗口,其中wi为窗口W的中心,wup=wi-k,…,wi-1表示长度为k的上半窗,wdown=wi+1,…,wi+k表示长度为k的下半窗。令R(wi,wup)表示中心点wi与上半窗wup的关联关系,表示为:其中,distance(wi,wi-1)表示窗口中心wi和上文信息wi-1的欧式距离,表示上半窗wup中任意两位置距离的最大值;则窗口中心wi与上半窗wup相关当且仅当R(wi,wup)=1;令R(wi,wdown)表示中心点wi与下半窗wdown的关联关系,表示为:其中,distance(wi,wi+1)表示窗口中心wi和下文信息wi+1的欧式距离,表示下半窗wdown中任意两位置距离的最大值;则窗口中心wi与下半窗wdown相关当且仅当R(wi,wdown)=1;将在预处理结果集上寻找异常点的过程转换成将窗口W以固定步长Step平移,寻找符合条件R(wi,wup)=0∩R(wi,wdown)=0的窗口中心的过程,将该窗口中心点加入异常点候选集E2。作为本专利技术的进一步优选方案,步骤(2)中,使用重心距离评分方法对静态区间进行异常点求解,包括以下步骤:203、重心点选取,令M表示静态区间J内所有数据的集合,则L′={l|l∈M,freqM(l)>γ}表示集合M中出现频次大于阈值γ的位置数据,其中freqM(l)表示位置l在集合M中出现的频次,采用加权平均的方式求区间重心点O,表示为:其中,表示权重,为位置li的经度,为位置li的纬度,n为L′中元素个数;204、距离评分计算,令distance(lx,ly)表示任意两个位置的距离,则集合L中任意元素与重心点距离的最大值称之为距离半径,表示为进而对于集合M中任意数据m的评分scorem表示为:则静态区间异常点候选集E3={m|m∈M,scorem=1}。作为本专利技术的进一步优选方案,所述步骤(3)具体包括以下步骤:301、将动态区间求解得到的异常点候选集E1和E2做交集,其中相同的元素提取为异常点;302、静态区间求解得到的异常点候选集E3中元素即为异常点;303、定义五元组Error=[Account,Lon,Lat,Cptime,ErrFlag]表示上述提取的异常点,其中ErrFlag表示异常点类型,ErrFlag=0表示动态异常点,ErrFlag=1表示静态异常点。本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:本专利技术所公开的方法,适合处理在线数据,时间短、准确度高,能有效评测新的异常模式,误判率较低。附图说明图1是本专利技术的整体流程图。图2是本专利技术中,区间划分示意图。图3是本专利技术中,滑窗距离本文档来自技高网...

【技术保护点】
1.一种基于区间划分的基站数据异常检测方法,其特征在于,所述方法包括以下步骤:/n步骤(1)、对原始轨迹数据集预处理,将处理后数据集划分为动态区间和静态区间;所述动态区间表示为任意多个连续的近邻孤立点的下标构成的范围,所述静态区间表示为原数据集中除去所有动态区间,所剩各数据片段的起止下标构成的范围;/n步骤(2)、模型求解,对所述动态区间使用多维高斯模型和滑窗距离模型进行异常点提取;对所述静态区间使用重心距离评分法进行异常点提取;/n步骤(3)使用五元组表示动态异常点和静态异常点,构成五元组集合表示异常点集。/n

【技术特征摘要】
1.一种基于区间划分的基站数据异常检测方法,其特征在于,所述方法包括以下步骤:
步骤(1)、对原始轨迹数据集预处理,将处理后数据集划分为动态区间和静态区间;所述动态区间表示为任意多个连续的近邻孤立点的下标构成的范围,所述静态区间表示为原数据集中除去所有动态区间,所剩各数据片段的起止下标构成的范围;
步骤(2)、模型求解,对所述动态区间使用多维高斯模型和滑窗距离模型进行异常点提取;对所述静态区间使用重心距离评分法进行异常点提取;
步骤(3)使用五元组表示动态异常点和静态异常点,构成五元组集合表示异常点集。


2.如权利要求1所述的一种基于区间划分的基站数据异常检测方法,其特征在于,步骤(1)中所述预处理的规则为:清洗数据中不包含预先设定的字段的数据;对清洗后的数据进行去重,并按时间排序。


3.如权利要求1所述的一种基于区间划分的基站数据异常检测方法,其特征在于,步骤(1)中,利用动态区间搜索算法将原始轨迹数据集进行区间划分,包括以下步骤:
101、孤立点选取,令指定时间范围内仅出现一次的数据作为孤立点,表达公式如下:



其中,lt=(lont,latt)表示某个时刻t的空间位置,由该时刻的经度lon和纬度lat组成,表示以时刻ti为中心时刻的时间片段;
如果则lt为孤立点;
102、动态区间搜索,设定任意多个连续的近邻孤立点的起止下标构成的范围称为动态区间:



上式表示两个孤立点lx,ly的近邻关系,其中index(lt)表示孤立点lt在原始数据集中的索引下标,则lx,ly近邻当且仅当
对于多个孤立点组成的集合L={l1,l2,l3…li},中任意子集如果则称L为i-近邻孤立点集;
近邻孤立点集的起止元素的下标组成的范围为动态区间,表示为I=[index(l1),index(li)];
103、静态区间生成,在预处理结果集的下标范围内,除去所有的动态区间,剩下的所有区间称为静态区间;
令原始数据集下标区间S=[0,n],假定动态区间I1=[i,i+k],I2=[j,j+u],其中k,u>0,i>0,j>i+k,j+u<n,则区间J1=[0,i-1],J2=[i+k+1,j-1],J3=[j+u+1,n]称为静态区间。


4.如权利要求1所述的一种基于区间划分的基站数据异常检测方法,其特征在于,步骤(2)中,所述动态区间的模型求解包含以下步骤:
201、提取数据样本的经度、纬度、提取时间、位置切换速率四个维度代入高斯模型计算整个数据集中各项数据的概率密度,对概率值进行从小到大排序,选取前λ个概率值对应的数据加入异常点候选集E1,多维高斯模型的计算公式如下:



其中,μ为N维均值向量,∑为N×N协方差矩阵,|∑|为...

【专利技术属性】
技术研发人员:刘海波廖闻剑卢山张俊杰张坤
申请(专利权)人:南京烽火天地通信科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1