【技术实现步骤摘要】
针对空间大数据频繁项集的索引架构的构建和检索方法
[0001]本专利技术涉及空间大数据检索
,尤其涉及一种针对空间大数据频繁项集的索引架构的构建和检索方法。
技术介绍
[0002]记录海量空间实体对象的空间位置和文本属性特征的数据集为空间大数据或空间位置大数据,该类数据不仅记录空间实体的位置信息(经纬度、空间坐标等),也保存大量结构复杂的非空间属性。以空间位置信息和文本属性为检索关键字,检索最邻近空间对象集的算法叫做空间关键字查询算法。
[0003]由于空间大数据容量巨大,结构复杂,实现针对空间大数据的空间关键字查询往往需要特定空间数据索引结构的支持。现有的空间大数据索引结构通常是由空间位置索引和文本属性索引组成的混合索引结构。其中,常用的空间索引结构有R
‑
tree、Quadtree、Grid结构等等;常用的文本索引结构有倒排文件(Inverted File)、位图索引(bitmap)等。混合索引结构大多对空间大数据的空间属性和非空间属性分别构建索引结构,以支持空间对象相应属性的检索。
[0004]频繁项集分析是针对非空间属性进行的,是常见的数据挖掘应用目标。目前流行的频繁项集挖掘算法有Apriori算法和Fptree算法等。其中,Apriori算法和 Fptree算法通过遍历所有属性组合的方式查找所有的频繁项,并存入表格中,频繁项的检索则需要通过遍历频繁项表实现。当数据量较大时,这种频繁项的生成和检索方法将会占用较大存储空间,且检索效率较低。虽然将Apriori算法和 Fp
【技术保护点】
【技术特征摘要】
1.一种针对空间大数据频繁项集的索引架构的构建方法,其特征在于,包括:步骤A1:从空间大数据集中取出每一个空间对象d,将d的位置信息d.p以及编号信息id存入R
‑
tree中,构造得到空间索引结构步骤A2:从空间大数据集中取出需要的文本属性形成关键字集合K,作为形式背景的横轴;将空间大数据集中的所有空间对象取出形成对象集D,作为形式背景的纵轴;步骤A3:遍历的所有结点,对于每一个概念格关联结点,遍历该结点的子树,取出子树所有数据结点的id,并从步骤2形成的形式背景中取出对应的数据,构建得到新的形式背景F,根据F内的偏序关系,构造当前概念格关联结点对应的概念格;其中,所述概念格关联结点是指子树的数据结点数量在[δ
min
,δ
max
]范围内的R
‑
tree结点;步骤A4:将所有概念格关联结点对应的概念格存储到列表中,与共同组成针对空间大数据频繁项集的索引结构2.根据权利要求1所述的一种针对空间大数据频繁项集的索引架构的构建方法,其特征在于,所述空间索引结构的公式如式(1)所示:其中,r表示的根结点,θ=[θ
min
,θ
max
]为结点的分支数量范围,<n1,n2,...,n
i
>为的结点集,n
i
=<id,mbr,level,pn,cns,dn,ds>表示的一个结点,id为结点编号,mbr为结点MBR范围,level为结点在树中层级,pn与cns分别为结点的父结点与子结点集,ds与dn分别为结点的子树的数据结点集与数据结点数量。3.根据权利要求2所述的一种针对空间大数据频繁项集的索引架构的构建方法,其特征在于,所述列表的公式如式(2)所示:其中,表示的一个概念格,nid表示中概念格关联结点的id,为L
i
的概念,≤为偏序关系,L
i
.F.size表示L
i
对应的形式背景F的数据量,δ=[δ
min
,δ
max
]。4.一种针对空间大数据频繁项集的检索方法,其特征在于...
【专利技术属性】
技术研发人员:许涛,许遨鹏,马夏青,张自祥,沈夏炯,韩道军,张磊,丁文珂,沈亚田,
申请(专利权)人:河南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。