当前位置: 首页 > 专利查询>河南大学专利>正文

针对空间大数据频繁项集的索引架构的构建和检索方法技术

技术编号:32336398 阅读:21 留言:0更新日期:2022-02-16 18:44
本发明专利技术提供一种针对空间大数据频繁项集的索引架构的构建和检索方法。该构建方法包括:步骤A1:从空间大数据集中取出每一个空间对象d,将d的位置信息以及编号信息存入R

【技术实现步骤摘要】
针对空间大数据频繁项集的索引架构的构建和检索方法


[0001]本专利技术涉及空间大数据检索
,尤其涉及一种针对空间大数据频繁项集的索引架构的构建和检索方法。

技术介绍

[0002]记录海量空间实体对象的空间位置和文本属性特征的数据集为空间大数据或空间位置大数据,该类数据不仅记录空间实体的位置信息(经纬度、空间坐标等),也保存大量结构复杂的非空间属性。以空间位置信息和文本属性为检索关键字,检索最邻近空间对象集的算法叫做空间关键字查询算法。
[0003]由于空间大数据容量巨大,结构复杂,实现针对空间大数据的空间关键字查询往往需要特定空间数据索引结构的支持。现有的空间大数据索引结构通常是由空间位置索引和文本属性索引组成的混合索引结构。其中,常用的空间索引结构有R

tree、Quadtree、Grid结构等等;常用的文本索引结构有倒排文件(Inverted File)、位图索引(bitmap)等。混合索引结构大多对空间大数据的空间属性和非空间属性分别构建索引结构,以支持空间对象相应属性的检索。
[0004]频繁项集分析是针对非空间属性进行的,是常见的数据挖掘应用目标。目前流行的频繁项集挖掘算法有Apriori算法和Fptree算法等。其中,Apriori算法和 Fptree算法通过遍历所有属性组合的方式查找所有的频繁项,并存入表格中,频繁项的检索则需要通过遍历频繁项表实现。当数据量较大时,这种频繁项的生成和检索方法将会占用较大存储空间,且检索效率较低。虽然将Apriori算法和 Fptree算法这些频繁项集挖掘算法结合空间索引结构可以达到对空间大数据进行频繁项集挖掘的目的,然而为了能够保证用户提供的关键字可以顺利索引, Apriori和Fptree需要设定极低的最小支持度以保证不会忽略部分数据,这就导致了计算频繁项集需要大量时间与空间开销,并且构造的频繁项集表冗长,导致查询时的遍历时间极长。

技术实现思路

[0005]鉴于传统频繁集挖掘算法存在的时间和空间开销大的问题,本专利技术使用概念格作为空间大数据频繁项集挖掘工具,基于概念格技术,提出一种针对空间大数据的混合索引结构,对空间大数据的频繁项进行挖掘,用以获取区域内拥有最频繁特征且满足用户索引关键字的地理对象集,实现空间大数据频繁项集的高效检索。
[0006]一方面,本专利技术提供一种针对空间大数据频繁项集的索引架构的构建方法,包括:
[0007]步骤A1:从空间大数据集中取出每一个空间对象d,将d的位置信息d.p以及编号信息id存入R

tree中,构造得到空间索引结构
[0008]步骤A2:从空间大数据集中取出需要的文本属性形成关键字集合K,作为形式背景的横轴;将空间大数据集中的所有空间对象取出形成对象集D,作为形式背景的纵轴;
[0009]步骤A3:遍历的所有结点,对于每一个概念格关联结点,遍历该结点的子树,取出子树所有数据结点的id,并从步骤2形成的形式背景中取出对应的数据,构建得到新的形式背景F,根据F内的偏序关系,构造当前概念格关联结点对应的概念格;其中,所述概念格关联结点是指子树的数据结点数量在 [δ
min
,δ
max
]范围内的R

tree结点;
[0010]步骤A4:将所有概念格关联结点对应的概念格存储到列表中,与共同组成针对空间大数据频繁项集的索引结构
[0011]进一步地,所述空间索引结构的公式如式(1)所示:
[0012][0013]其中,r表示的根结点,θ=[θ
min
,θ
max
]为结点的分支数量范围, <n1,n2,...,n
i
>为的结点集,n
i
=<id,mbr,level,pn,cns,dn,ds>表示的一个结点,id为结点编号,mbr为结点MBR范围,level为结点在树中层级,pn与 cns分别为结点的父结点与子结点集,ds与dn分别为结点的子树的数据结点集与数据结点数量。
[0014]进一步地,所述列表的公式如式(2)所示:
[0015][0016]其中,表示的一个概念格,nid表示中概念格关联结点的id,为L
i
的概念,≤为偏序关系,L
i
.F.size表示L
i
对应的形式背景F的数据量,δ=[δ
min
,δ
max
]。
[0017]另一方面,本专利技术提供一种针对空间大数据频繁项集的检索方法,包括:
[0018]步骤B1:生成一次频繁项查询步骤B1:生成一次频繁项查询为查询坐标,为查询关键字属性,且满足k为索引请求的空间对象数量,为针对空间大数据频繁项集的索引结构;
[0019]步骤B2:遍历将中每一个结点MBR与进行位置判断,如果存在且对于每一个都存在则进行步骤B3;n.mbr 表示R

tree中结点n的最小边界矩形,n
s
表示结点n的子结点,n.cns表示结点n的子结点集,n
s
.mbr表示结点n
s
的最小边界矩形;
[0020]步骤B3:若步骤B2获取的结点n为概念格关联结点,则从中对取出该结点关联的概念格,并进行步骤B4;若步骤B2获取的结点n不是概念格关联结点,则向上或向下寻找距离最近的概念格关联结点集,进行步骤B4;
[0021]步骤B4:对步骤B3获取的所有概念格分别进行遍历,具体为:针对每个概念格,从顶级概念开始向下遍历格结构,若遍历的当前概念C
i
的内涵C
i
.intent满足则计算该概念的每个直接子概念的频繁度;
[0022]步骤B5:使用评分公式对步骤B4获取的每个概念的外延进行评分排序,将评分较高的前k个对象作为检索结果返回至查询用户。
[0023]进一步地,步骤B3中,若步骤B2获取的结点n不是概念格关联结点,则向上或向下寻找概念格关联结点,进行步骤B4,具体包括:
[0024]若该结点的祖先结点是概念格关联结点,则针对该祖先结点对应的概念格执行步
骤B4;若该结点的子孙结点为概念格关联结点,则取出该结点的所有子分支的最高层级的概念格关联结点并进行步骤B4。
[0025]进一步地,在步骤B5之前,还包括:
[0026]若在步骤B4之后所获得的概念的外延数量小于k,则返回至步骤B2,重新执行步骤B2至步骤B4,直至外延数量大于k或寻找到根结点r为止。
[0027]进一步地,所述评分公式如公式(3)所示:
[0028][0029]其中,为欧式距离,max(dist)为所有待排序对象中与查询点的最大欧式距离,max(L.g(d
i
.intent).size)为该对象所属概念的频繁度。
[0030]本专利技术的有益效果:...

【技术保护点】

【技术特征摘要】
1.一种针对空间大数据频繁项集的索引架构的构建方法,其特征在于,包括:步骤A1:从空间大数据集中取出每一个空间对象d,将d的位置信息d.p以及编号信息id存入R

tree中,构造得到空间索引结构步骤A2:从空间大数据集中取出需要的文本属性形成关键字集合K,作为形式背景的横轴;将空间大数据集中的所有空间对象取出形成对象集D,作为形式背景的纵轴;步骤A3:遍历的所有结点,对于每一个概念格关联结点,遍历该结点的子树,取出子树所有数据结点的id,并从步骤2形成的形式背景中取出对应的数据,构建得到新的形式背景F,根据F内的偏序关系,构造当前概念格关联结点对应的概念格;其中,所述概念格关联结点是指子树的数据结点数量在[δ
min

max
]范围内的R

tree结点;步骤A4:将所有概念格关联结点对应的概念格存储到列表中,与共同组成针对空间大数据频繁项集的索引结构2.根据权利要求1所述的一种针对空间大数据频繁项集的索引架构的构建方法,其特征在于,所述空间索引结构的公式如式(1)所示:其中,r表示的根结点,θ=[θ
min

max
]为结点的分支数量范围,<n1,n2,...,n
i
>为的结点集,n
i
=<id,mbr,level,pn,cns,dn,ds>表示的一个结点,id为结点编号,mbr为结点MBR范围,level为结点在树中层级,pn与cns分别为结点的父结点与子结点集,ds与dn分别为结点的子树的数据结点集与数据结点数量。3.根据权利要求2所述的一种针对空间大数据频繁项集的索引架构的构建方法,其特征在于,所述列表的公式如式(2)所示:其中,表示的一个概念格,nid表示中概念格关联结点的id,为L
i
的概念,≤为偏序关系,L
i
.F.size表示L
i
对应的形式背景F的数据量,δ=[δ
min

max
]。4.一种针对空间大数据频繁项集的检索方法,其特征在于...

【专利技术属性】
技术研发人员:许涛许遨鹏马夏青张自祥沈夏炯韩道军张磊丁文珂沈亚田
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1