当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于多元自适应回归的地理空间异常探测方法技术

技术编号:17346172 阅读:26 留言:0更新日期:2018-02-25 11:18
本发明专利技术公开了一种基于多元自适应回归的地理空间异常探测方法,充分考虑了地理空间数据的相关性与异质性,针对获取的探测变量及其它地理变量进行数据预处理及回归变量的确定,以构建自适应空间邻近域,并基于自适应带宽的权函数选择和空间邻域实体专题属性变化梯度修复,构建地理加权回归模型,然后计算所有空间实体的稳健空间异常度,并组成集合,最后将异常度偏离均值一定倍数的采样点判别为空间异常。本发明专利技术不仅顾及空间相关性的自适应带宽选择和空间异质性的探测变量与其它地理变量间关系的定量表达,还增强了本发明专利技术的实用性和解释性。

【技术实现步骤摘要】
一种基于多元自适应回归的地理空间异常探测方法
本专利技术属于空间数据挖掘与空间分析领域,尤其涉及一种基于多元自适应回归的地理空间异常探测方法
技术介绍
异常探测最初源自统计学中的粗差探测研究,但在实践中发现有些“粗差”并不一定是错误,而往往隐含了某种特殊的规律或性质,具有重要的应用价值。空间异常探测是传统异常探测方法在地球信息科学领域的扩展和延伸,作为空间数据挖掘的一种重要手段,旨在从海量空间数据发现偏离整体或局部普遍分布模式的小部分异常实体,这部分异常实体通常蕴含着地理现象或地理过程的特殊发展规律。Hawkins最早给出异常的本质性定义,即“严重偏离其它对象的观测数据,以至于令人怀疑它是由不同机制产生的”。Shekhar等进一步拓展“异常”的定义到空间域,给出空间异常“专题属性与空间邻近域内的其它参考实体的专题属性显著不同的空间实体”,即违背地理学第一定律越近越相似的实体。地理现象通常是多种地理要素综合作用的结果,且构成地理现象的各种地理要素都不是独立出现的,它们之间相互作用,可能是相互抑制,也可能是相互促进的。当前顾及多元数据的空间异常探测方法大多认为探测变量(即因变量,如气温)与其它地理变量(即自变量,如经纬度、海拔)之间具有等同的影响,采用马氏距离等进行等权处理,或者采用全局回归分析的方法进行处理。实际上不同地理变量对探测变量的影响存在很大差异,且全局方法无法顾及空间异质性对回归分析的影响,因此本专利技术采用地理加权回归的思想,定量描述探测变量与其它地理变量间的关系。地理加权回归模型(GeographicallyWeightedRegression,GWR)是一种对空间子区域上自变量和因变量之间关系随着空间变化进行建模的非参数局部空间回归分析方法,其中自变量的回归系数是随着空间位置而变化的,是在局部加权回归模型的基础上引入局部光滑的思想对空间异质性进行建模,对于空间数据具有强大的局部分析能力。地理加权回归模型的核心在于空间权重的定义,包括权重函数选择与带宽选择。现有研究表明,权重函数的选择对地理加权回归模型的影响较小,而对带宽的选择非常敏感。且在参与回归的数据点包含潜在异常时会对回归结果造成较大影响。同时,现有多元空间异常探测大多没有顾及不同影响变量贡献权重的差异,且没有考虑空间异质性对回归因子的影响。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:地理空间异常探测中存在着难以顾及多元数据的稳健异常度量、在地理加权回归模型中难以处理潜在异常影响以及自适应选择带宽。
技术实现思路
为了解决上述技术问题,本专利技术提供一种基于多元自适应回归的地理空间异常探测方法,旨在解决多种地理变量相互作用下的地理空间异常模式的提取。本专利技术中,探测变量即指因变量,其它地理变量即指自变量,其技术方案如下:步骤一数据预处理及回归变量的确定1)针对获取的探测变量及其它地理变量,检验是否存在缺失,若存在,则进行插补;2)对探测变量进行均值、中值、范围、标准差、变异系数、峰度和偏度等描述性统计;3)针对其它地理变量,以模型拟合优度的检验统计量F1为检验统计量,采用逐步回归法(包括向前选择法、向后剔除法和逐步选择法)确定用来构建模型的回归变量。步骤二自适应空间邻近域构建1)根据待检测实体的空间位置(X、Y,若是经纬度则转换为投影坐标)构建Delaunay三角网,表达实体的粗空间邻接关系;2)把Delaunay三角网所有边长按升序排列,构成边长序列E,序列中位于上、下四分位数之间所有边长的平均值作为稳健平均边长,利用下列公式进行计算:其中,表示边ei的边长,n表示Delaunay三角网的边长数目。3)采用如下公式获取并打断Delaunay三角网中所有不合理边Unreasonable_E,表达采样点的细空间邻接关系:其中,α为调节因子,用于调整不合理边的判断阈值,取值范围为[2,4],默认设为3。4)在打断不合理边的Delaunay三角网中,针对每个空间实体,采用如下公式计算其空间邻域半径R(Pi):其中,Mean2(Pi)表示点Pi的2阶邻域内所有边长的平均值;STD(Pj)表示点Pj1阶邻域内边长的标准差。5)落在每个空间实体对应的空间邻域半径范围内的其它实体即为该实体的空间邻域。步骤三地理加权回归模型构建1)针对探测变量及其它独立地理变量,构建如下地理加权回归模型:其中,(ui,vi)表示第i个采样点的地理坐标,yi与xi1,xi2,...,xip表示自变量y和因变量x1,x2,...,xp在位置(ui,vi)处的观测值;βj(ui,vi)(j=1,2,...,p)是第i个采样点上的第j个回归参数;εi~N(0,σ2),Cov(εi,εj)=0,(i≠j)。2)基于自适应带宽的权函数选择:针对每个空间实体,根据距离回归点的距离远近,把实体空间邻域中的回归实体重新排序,空间邻域中距离回归点最远的空间实体的距离dij设为带宽b。设最近数据点(该点可以是回归点自身)的权重为1(该点可以是回归点自身),其他数据点的权重按如下公式衰减:3)空间邻域实体专题属性变化梯度修复a)针对每个实体P,根据其空间邻域,采用下式计算专题变化梯度:其中,f(P)表示采样点P的专题属性值,即探测变量值,D(P,Pi)表示实体P与邻域实体Pi间的欧氏空间距离。b)令f(P)=0,分别计算实体P与其空间邻域实体Pi间的专题属性变化梯度G(P,Pi),并按升序排列获取序列G(P),计算序列中位数M(P);c)针对任一邻域实体,采用下式计算专题属性变化梯度偏离GD(Pi),并升序排列获取序列GD(P):GD(Pi)=|G(P,Pi)-M(P)|d)将邻域实体按专题属性变化梯度偏离划分为大、中、小三个等级,处于最大等级的[(n+1)/3]个实体组成待修复集合R(P),采用如下公式进行修复:fR(Pi)=M(P)*D(P,Pi),说明:修复是暂时的,是在每个实体地理加权回归的过程中进行,并不改变采样点的固有专题属性值。4)采样下式进行回归参数估计:其中,Wi为位置(ui,vi)处的权重矩阵,Wi=diag(wil,wi2,...,win),yR为经过专题属性变化梯度修复的因变量矩阵。步骤四稳健异常度量与异常判别1)针对每个空间实体P,探测变量观测数据与地理加权回归预测数据间的差异即为实体P的稳健空间异常度RSOM(RobustSpatialOutlierMeasure),采用下列公式计算:其中,f(P)表示空间实体P的探测变量观测数据,表示空间实体P的探测变量的地理加权回归预测值。2)针对所有空间实体的稳健空间异常度,组成集合SRsoM={RSOM(P1),RSOM(P2),...,RSOM(Pn)},其中异常度偏离均值一定倍数的采样点判别为空间异常,采用下列公式计算:Soutlier={Pi|RSOM(Pi)-μ>kσ,Pi∈SDB}其中,μ表示稳健异常度均值,σ表示稳健异常度标准差,k表示判别系数,默认设置为2。本专利技术的有益效果在于:本专利技术提出的一种基于多元自适应回归的地理空间异常探测方法,充分考虑了空间数据的相关性与异质性,主要技术优点如下:1)顾及空间相关性的自适应带宽选择,增强了本专利技术的实用性;2)顾及空间异质性的探测变量与其它地理变量间关系的本文档来自技高网
...
一种基于多元自适应回归的地理空间异常探测方法

【技术保护点】
一种基于多元自适应回归的地理空间异常探测方法,其特征在于,包括如下步骤:步骤一:针对获取的探测变量及其它地理变量进行数据预处理及回归变量的确定;

【技术特征摘要】
1.一种基于多元自适应回归的地理空间异常探测方法,其特征在于,包括如下步骤:步骤一:针对获取的探测变量及其它地理变量进行数据预处理及回归变量的确定;步骤二:构建自适应空间邻近域;步骤三:针对探测变量及其它独立地理变量,构建地理加权回归模型;步骤四:计算所有空间实体的稳健空间异常度,并组成集合,其中异常度偏离均值一定倍数的采样点判别为空间异常。2.根据权利要求1所述的基于多元自适应回归的地理空间异常探测方法,其特征在于,所述步骤一,1)针对获取的探测变量及其它地理变量,检验是否存在缺失,若存在,则进行插补;2)对探测变量进行均值、中值、范围、标准差、变异系数、峰度或偏度进行描述性统计;3)针对其它地理变量,以模型拟合优度的检验统计量F1为检验统计量,采用逐步回归法确定用来构建模型的回归变量;所述逐步回归法包括向前选择法、向后剔除法或逐步选择法。3.根据权利要求1所述的基于多元自适应回归的地理空间异常探测方法,其特征在于,所述步骤二,1)根据待检测实体的空间位置构建Delaunay三角网,表达实体的粗空间邻接关系;2)把Delaunay三角网所有边长按升序排列,构成边长序列E,序列中位于上、下四分位数之间所有边长的平均值作为稳健平均边长,利用下列公式进行计算:其中,表示边ei的边长,n表示Delaunay三角网的边长数目;3)采用如下公式获取并打断Delaunay三角网中所有不合理边Unreasonable_E,表达采样点的细空间邻接关系:其中,为调节因子,用于调整不合理边的判断阈值,取值范围为[2,4];4)在打断不合理边的Delaunay三角网中,针对每个空间实体,采用如下公式计算其空间邻域半径R(Pi):其中,表示点Pi的2阶邻域内所有边长的平均值;STD(Pj)表示点Pj1阶邻域内边长的标准差;5)落在每个空间实体对应的空间邻域半径范围内的其它实体即为该实体的空间邻域。4.根据权利要求3所述的基于多元自适应回归的地理空间异常探测方法,其特征在于,所述空间位置为经纬度时,则将其转换为投影坐标。5.根据权利要求1所述的基于多元自适应回归的地理空间异常探测方法,其特征在于,所述步骤三,1)针对探测变量及其它独立地理变量,构建如下地理加权回归模型:,i=1,2,…,n;j=1,2,…,p其中,(ui,vi)表示...

【专利技术属性】
技术研发人员:邓敏杨学习石岩唐建波蔡建南
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1