当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于频率属性和PCA的时空索引建立方法技术

技术编号:21891699 阅读:27 留言:0更新日期:2019-08-17 14:26
一种基于频率属性和PCA的时空索引建立方法,1)数据采集,采集并获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间以及查询频率四个特征(称为基于频率属性的时空特征)的数据,数据的这四个特征字段不能存在任何缺失;2)数据预处理,将获取的当前划分的数据块中所有数据看作时空三维坐标系中的点,选取前K个(默认为4)频率最大的数据点,根据PCA算法得到这四个点对应的投影平面;3),索引计算,根据在投影面上的四个点,连接这四个点构成一个凸四边形,选取四条边的中点并连接对边的中点以此构建两个划分平面;4)索引建立,递归的进行步骤2和步骤3的划分操作,每一个划分的空间块即可对应为树中的一个结点。

A Spatio-temporal Index Establishment Method Based on Frequency Attribute and PCA

【技术实现步骤摘要】
一种基于频率属性和PCA的时空索引建立方法
本专利技术涉及数据索引建立领域,主要应用于数据库中,具体涉及对基于频率属性的时空数据建立索引。
技术介绍
随着传感器技术的快速发展,基于物联网、云计算、移动计算的空间定位技术和通信技术的日益成熟,各应用场景中对象的活动与交互产生的大量具有时空信息的数据,得以被探测、传输与记录。面对大量涌现的时空数据,如何针对这些数据的时空特性进行存储,面临着巨大的挑战。在进行大规模时空数据处理时,经常会遇到时空数据查询效率低的问题。大规模数据必须存储于数据库中,而数据库带来的好处很重要的一方面是查询效率的显著提升,但面对具有频率属性的时空特性的数据,传统关系型数据库对数据时空特征建立的索引往往不能带来时空查询效率的显著提升,需要针对数据的访问频率特性采取针对性的方法建立索引,来应对日趋增长的时空查询需求。PCA(PrincipalComponentAnalysis,主成分分析)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。传统关系型数据库对数据的时空三维特征字段建立索引的方法是:为每个特征单独建立一个索引。这样会导致在进行时空查询的时候,要根据三个索引执行三次数据查找操作,查询响应时间会很长,而建立基于频率属性的一个索引树,可以在进行时空查询时,查询频率高的数据索引时间大大缩短,从而大幅缩短平均查找时间。
技术实现思路
本专利技术主要解决的技术问题是,针对拥有频率属性的时空数据的特点,建立专用的时空树索引,加快时空查询的速率。基于频率属性建立时空索引树,使用PCA算法辅助进行递归的划分空间操作,进一步减少索引树的高度,提升搜索的速度。技术方案:为实现上述目的,本专利技术采用的技术方案为:一种基于频率属性和PCA的时空索引建立方法,包括如下步骤:步骤1,数据采集,采集并获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间以及查询频率四个特征(称为基于频率属性的时空特征)的数据块,数据块这四个特征字段不能存在任何缺失;步骤2,数据预处理,将获取的当前划分的数据块中所有数据看作时空三维坐标系中的点,选取前K个(默认为4)频率最大的数据点,根据PCA算法得到这四个数据点对应的投影平面;首先对当前的分区内的所有数据点基于频率属性的值来进行排序,选取出频率属性最大的四个节点,对这四个节点通过PCA算法,为了递归的进行操作,所以在寻找投影平面的时候不进行中心化的操作,直接对于原始数据点进行计算,通过此方法找到对应的投影平面。步骤2步骤如下:步骤2a)对当前的采集到的数据块分区内的所有数据点基于频率属性的值来进行排序;步骤2b)选取出频率最高的K个数据点;不进行中心化操作;步骤2c)根据原始的K个数据点运用PCA算法;步骤2d)得到对应的投影平面方程;步骤3,索引计算,根据在投影面上的四个点,若连接这四个点能构成一个凸四边形,则选取四条边的中点并连接对边的中点以此构建两个划分平面,若不能构成一个凸四边形,即第四点在三角形内,则连接三个顶点和第四个点,得到的三条边分别取中点,连接可得到三条直线,任取两条作为划分直线,方法如下:步骤3a)基于几何的划分方法,根据四个数据点的投影坐标,选取一种连接方式构成一个凸四边形或者三角形及内部一点;步骤3b)若为凸四边形则计算出四条边的中点,将每条边的中点和它的对边的中点进行连线,得到两条中线,若为三角形及内部一点则连接三个顶点和内部的点,计算出连线的中点并连线,任取其中两条直线;步骤3c)分别计算出过两条直线而且垂直于投影平面的平面方程,即得到对于平面的两个划分平面;步骤3d)根据划分平面将原始空间(数据块分区)划分为四个分区;步骤4,索引建立,递归的进行步骤2和步骤3的划分操作,每一个划分的空间块(分区)即可对应为树中的一个结点,每一个数据点在树中的位置描述即为其索引,具体方法如下:步骤4a)建立树的根节点,代表时空索引;步骤4b)在当前的分块(数据块分区)中进行划分平面选择的操作,将当前的分块划分为四个更小的分块(四个分区),将划分的依据方程的条件作为索引结点的一个内容存储,由上一级的索引建立指向本次新建立的四个索引的指针;步骤4c)进行递归的划分操作,每次都对当前分块进行划分以及建立索引,然后建立上一级索引指向当前级索引的指针,递归的运行直到新的划分分区中的节点个数不满足大于等于四;步骤4d)根据以上步骤,自顶向下的构建出了一个时空数据索引树,每一个非叶子节点中都存储了当前的投影平面以及对应的划分平面的方程和划分条件。本专利技术相比现有技术,具有以下有益效果:面对大量涌现的具有时空三维特征的数据,使用传统关系型数据库存储,使用其建立索引的方法为时空三维特征建立索引,因为数据量越来越大导致查询速度越来越慢,已经无法满足日益增长的时空查询需求。本专利技术对基于频率属性的时空特征统一建立一个树索引,可大幅加快对于时空三维特征进行数据查找的速度,比传统关系型数据库中对三维特征分别建立索引查询效率更高;并且,结合了PCA算法的优点,可以使划分平面的选取更加科学合理。本专利技术使用基于频率属性和PCA的方法,使得时空查询时间复杂度为O(logk(n));与此同时,借助PCA算法能够显著的降低建立的时空索引树的高度,使得能够进一步增加查找的速度。附图说明图1为本专利技术的方法整体流程图;图2为本专利技术使用PCA算法进行数据预处理过程的流程图。图3为本专利技术进行索引计算的流程图。具体实施方式下面结合附图和具体实施例,进一步阐明本专利技术,应理解这些实例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。一种基于频率和PCA的时空索引建立方法,包括如下步骤:步骤1,数据采集,获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间以及查询频率四个特征(称为基于频率属性的时空特征)的数据,这四个特征字段不能存在任何缺失。步骤2,数据预处理,将当前划分的数据块中所有数据看作时空三维坐标系中的点,用(x,y,z)来表示,其中x∈[-180,180]为经度,负值代表西经,正值代表东经,y∈[-90,90]代表纬度,负值代表南纬,正值代表北纬,z∈[0,+∞]代表时间,以步骤1中采集数据的最早时刻为时间零点。选取前K个(默认为4)频率最大的数据点,根据PCA算法得到这四个点对应的投影平面,方法如下:步骤2a)标准的PCA算法的处理流程需要对数据的时空三维坐标进行中心化处理,即对x、y、z分别减去μx、μy、μz,三者分别为数据在该维的均值,每个数据中心化后的坐标为(x',y',z')=(x-μx,y-μy,z-μz),但是在这里因为要递归的进行划分,而且只是为了选取一个投影面所以选择不进行中心化处理,仍然选择原始的坐标点(x,y,z)。;步骤2b)选取出频率最高的K个数据点;步骤2c)计算K个数据点的协方差矩阵,对协方差矩阵进行特征值分解,将特征值按照从大到小的顺序排列,相应的,将特征值对应的特征向量也按照相应的顺序排列,形成坐标转移矩阵W;步骤2d)得到对应的投影平面方程aX+bY+cZ+d=0。;步骤3,索引计本文档来自技高网...

【技术保护点】
1.一种基于频率属性和PCA的时空索引建立方法,其特征在于,包括如下步骤:步骤1,数据采集,采集并获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间以及查询频率四个特征(称为基于频率属性的时空特征)的数据,数据的这四个特征字段不能存在任何缺失;步骤2,数据预处理,将获取的当前划分的数据块中所有数据看作时空三维坐标系中的点,选取前K个(默认为4)频率最大的数据点,根据PCA算法得到这四个点对应的投影平面;步骤3,索引计算,根据在投影面上的四个点,连接这四个点构成一个凸四边形,选取四条边的中点并连接对边的中点以此构建两个划分平面;步骤4,索引建立,递归的进行步骤2和步骤3的划分操作,每一个划分的空间块即可对应为树中的一个结点,每一个数据点在树中的位置描述即为其索引。

【技术特征摘要】
1.一种基于频率属性和PCA的时空索引建立方法,其特征在于,包括如下步骤:步骤1,数据采集,采集并获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间以及查询频率四个特征(称为基于频率属性的时空特征)的数据,数据的这四个特征字段不能存在任何缺失;步骤2,数据预处理,将获取的当前划分的数据块中所有数据看作时空三维坐标系中的点,选取前K个(默认为4)频率最大的数据点,根据PCA算法得到这四个点对应的投影平面;步骤3,索引计算,根据在投影面上的四个点,连接这四个点构成一个凸四边形,选取四条边的中点并连接对边的中点以此构建两个划分平面;步骤4,索引建立,递归的进行步骤2和步骤3的划分操作,每一个划分的空间块即可对应为树中的一个结点,每一个数据点在树中的位置描述即为其索引。2.根据权利要求1所述基于频率属性和PCA的时空索引建立方法,其特征在于:步骤2中步骤2a)对当前的分区内的所有数据点基于频率属性的值来进行排序;步骤2b)选取出频率最高的K个数据点;不进行中心化操作;步骤2c)根据原始的K个数据点运用PCA算法;步骤2d)得到对应的投影平面方程。3.根据权利要求1所述基于频率属性和PCA的时空索引建立方法,其特征在于:所述步骤3使用基于几何的划分方法,根据四个数据点的投影坐标,选取一种连接方式构成一个凸四边形,然后计算出四条边的中点,将每条边的中点和它的对边的中点进行连线,得到两条中线,根据这两条中线,分别计算出过该中线而且垂直于投影平面的平面方程,即得到对于平面的两个划分平面,通过这种划分,能够将原始的空间划分为四个部分。步骤3,索引计算,根据在投影面上的四个点,若连接这四个点能构成一个凸...

【专利技术属性】
技术研发人员:吴骏史鹏许磊姚懿容张洛一程浩王崇骏
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1