【技术实现步骤摘要】
基于哈希和PCA的时空索引建立方法
本专利技术涉及数据索引建立领域,主要应用于数据库中,具体涉及对数据时空三维特征建立统一索引。
技术介绍
随着传感器技术的快速发展,基于物联网、云计算、移动计算的空间定位技术和通信技术的日益成熟,各应用场景中对象的活动与交互产生的大量具有时空信息的数据,得以被探测、传输与记录。面对大量涌现的时空数据,如何针对这些数据的时空特性进行存储,面临着巨大的挑战。在进行大规模时空数据处理时,经常会遇到时空数据查询效率低的问题。大规模数据必须存储于数据库中,而数据库带来的好处很重要的一方面是查询效率的显著提升,但面对具有时空特性的数据,传统关系型数据库对数据时空特征建立的索引往往不能带来时空查询效率的显著提升,需要针对数据的时空特性采取针对性的方法建立索引,来应对日趋增长的时空查询需求。传统关系型数据库对数据的时空三维特征字段建立索引的方法是:为每个特征单独建立一个索引。这样会导致在进行时空查询的时候,要根据三个索引执行三次数据查找操作,查询响应时间会很长,而对时空三维特征字段统一建立一个索引,可以在进行时空查询时,只根据时空索引执行一次查询 ...
【技术保护点】
1.一种基于哈希和PCA的时空索引建立方法,其特征在于,包括如下步骤:步骤1,数据采集,获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间三个特征、称为时空三维特征的数据,这三个特征字段不能存在任何缺失;步骤2,数据预处理,将所有时空三维特征的数据看作时空三维坐标系中的点,采用PCA算法将该坐标系的坐标轴进行旋转,得到数据在新坐标系中的坐标;步骤3,索引计算,根据每个时空三维特征的数据的新坐标计算哈希值,并根据时空三维特征的数据分布情况调整哈希计算过程的参数;步骤4,索引建立,为三级索引分别建立三张表,第三级索引的表存储指向时空三维特征的数据的指针,其余表存储指向下一级索引的指针。
【技术特征摘要】
1.一种基于哈希和PCA的时空索引建立方法,其特征在于,包括如下步骤:步骤1,数据采集,获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间三个特征、称为时空三维特征的数据,这三个特征字段不能存在任何缺失;步骤2,数据预处理,将所有时空三维特征的数据看作时空三维坐标系中的点,采用PCA算法将该坐标系的坐标轴进行旋转,得到数据在新坐标系中的坐标;步骤3,索引计算,根据每个时空三维特征的数据的新坐标计算哈希值,并根据时空三维特征的数据分布情况调整哈希计算过程的参数;步骤4,索引建立,为三级索引分别建立三张表,第三级索引的表存储指向时空三维特征的数据的指针,其余表存储指向下一级索引的指针。2.根据权利要求1所述基于哈希和PCA的时空索引建立方法,其特征在于:步骤2中首先采用PCA算法的处理流程,对数据的时空三维特征进行中心化处理,即将每一维特征值都减去所有数据该维特征字段的均值;接着计算所有数据的协方差矩阵;再对协方差矩阵进行特征值分解,将特征值按照从大到小的顺序排列,相应的,将特征值对应的特征向量也按照相应的顺序排列,形成坐标转移矩阵;将数据的原始空三维坐标乘以转移矩阵,得到数据在新坐标系中的坐标;最后确定新坐标系中每一维的最小值,并将所有新坐标减去最小值,得到最终坐标。3.根据权利要求1所述基于哈希和PCA的时空索引建立方法,其特征在于:所述步骤3使用基于公式的计算方法,根据每个数据的最终坐标,从左到右,对坐标的每一维计算的一个时空索引哈希值,最后将三个哈希值按序连接,形成最终索引值,该索引值具有块结构,第一块代表最终坐标第一维的哈希值,以此类推;为了节省存储空间,公式的参数根据实际步骤1采集到的数据的分布调整:步骤3a)使用基于公式的计算方法,根据每个数据的最终坐标,从左到右,对坐标...
【专利技术属性】
技术研发人员:张雷,张洛一,杜云涛,史鹏,徐鸣,王崇骏,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。