当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于封闭外壳片段立方体的水利普查数据挖掘方法技术

技术编号:20484744 阅读:47 留言:0更新日期:2019-03-02 18:55
本发明专利技术公开了一种基于封闭外壳片段立方体的水利普查数据挖掘方法,首先将高维数据分成低维片段,再计算各低维片段的封闭立方体;利用位图索引、倒排索引相结合,建立存储结构表,快速判断聚集单元的封闭性,用封闭查询位图来代替封闭单元进行存储,仅保留不重复的基本单元、封闭查询位图以及对应的TID‑List集合,在查询封闭外壳片段立方体时,利用查询位图和倒排索引进行查找,查找范围由原来的完全立方体所有数据单元缩小到所有基本单元,快速定位查询结果。本发明专利技术在保证查询效率的前提下,使高维数据立方体得到进一步压缩。

【技术实现步骤摘要】
一种基于封闭外壳片段立方体的水利普查数据挖掘方法
本专利技术属于数据挖掘
,具体涉及一种基于封闭外壳片段立方体的水利普查数据挖掘方法。
技术介绍
近年来,为了提高数据立方体生成和查询效率、减少数据立方体占用的存储空间,多种数据立方体计算方法被提出,如IcebergCube、CondensedCube、QuotientCube和QC-Trees等。但物化高维数据集时,数据立方体中的聚集单元数量将随着维度数量的增加呈指数级增长,导致十分昂贵的数据立方体物化代价。采用上述物化方法,并不能从根本上解决数据量爆炸的问题。基于上述情况,必须采用部分物化的策略进行数据立方体的计算存储,即有选择地计算整个立方体的一些子集,在存储空间和查询时间之间寻求合理的平衡。外壳立方体(ShellCube)就是应用在一些商业化数据仓库系统的一种常用的部分物化技术。该方法在计算数据立方体时,仅预计算少量维度的聚集单元及其度量聚集值。在用户提交查询条件时,若符合查询条件的聚集单元被物化,则返回已计算的度量聚集值;若未被物化,则实时计算符合条件的度量聚集值。但是该方法存在两点不足:(1)计算量仍较大;(2)超过外本文档来自技高网...

【技术保护点】
1.一种基于封闭外壳片段立方体的水利普查数据挖掘方法,其特征在于,包括以下步骤:1)生成封闭外壳片段立方体,具体为:11)基于外壳片段立方体方法划分维片段,即将非层次维度属性的高维数据按照维度属性互不相交的原则划分为大小为F的k个低维数据片段;12)依次对低维数据片段进行编号FID,基于基本事实表创建每个低维数据片段对应的维度属性值对照表和度量索引对照表,所述维度属性值对照表包括索引号TID以及对应的维度属性值,所述度量索引对照表包括索引号TID以及对应的度量属性值;13)基于基本事实表构造每个维度属性值的倒排索引表;14)对于非层次维度属性的高维数据的每条基本单元,均按照维度属性值对照表划分...

【技术特征摘要】
1.一种基于封闭外壳片段立方体的水利普查数据挖掘方法,其特征在于,包括以下步骤:1)生成封闭外壳片段立方体,具体为:11)基于外壳片段立方体方法划分维片段,即将非层次维度属性的高维数据按照维度属性互不相交的原则划分为大小为F的k个低维数据片段;12)依次对低维数据片段进行编号FID,基于基本事实表创建每个低维数据片段对应的维度属性值对照表和度量索引对照表,所述维度属性值对照表包括索引号TID以及对应的维度属性值,所述度量索引对照表包括索引号TID以及对应的度量属性值;13)基于基本事实表构造每个维度属性值的倒排索引表;14)对于非层次维度属性的高维数据的每条基本单元,均按照维度属性值对照表划分为k个低维数据基本单元,对任一低维数据片段,相应地生成每条低维数据基本单元各查询位图对应的倒排索引TID-List,同时进行查询位图的封闭性行判断;在当前的低维数据片段中,所有低维数据基本单元的各查询位图对应的倒排索引TID-List均生成后进行查询位图的封闭性列判断;仅保留封闭查询位图及对应的倒排索引TID-List,生成当前低维数据片段的低维数据基本单元-查询位图-倒排索引对照表,即为当前低维数据片段对应的封闭外壳片段;重复14)直至生成所有低维数据片段对应的封闭外壳片段;15)按照各个低维数据片段的低维数据基本单元-查询位图-倒排索引对照表存储结构输出各个低维数据片段对应的封闭外壳片段;2)查询封闭外壳片段立方体,具体为:21)对于查询Q=<d1,…,di,…,dn>(1<i<n),根据维度属性值对照表将查询Q按照编号FID划分为大小为F的k个子查询{<d1,…,dF>,…<di,…,dF+i>,…},即每个子查询均对应维度属性值对照表的编号FID,其中di表示当前查询中第i维的维度属性值;22)任一子查询<di,…,dF+i>,对应的查询位图Query-Bitmap=<B1,…,BF>,在对应编号FID的各个低维数据片段对应的封闭外壳片段的低维数据基本单元-查询位图-倒排索引对照表中,查询第一条匹配<di,…,dF+i>的低维数据基本单元以及对应的封闭查询位图;23)基于步骤22)得到的低维数据基本单元,查找对应的封闭查询位图中以F位为一个匹配单元,查找匹配<B1,…,BF>的查询位图,得到对应的倒排索引TID-List即为对应编号FID的低维数据片段的查询结果;24)重复步骤22)和步骤23)直至得到所有低维数据片段的查询结果,对各个低维数据片段的查询结果求交集,根据度量索引对照表和给定的聚集函数计算出查询结果即为查询Q=<d1,…,di,…,dn>的结果。2.根据权利要求1所述的一种基于封闭外壳片段立方体的水利普查数据挖掘方法,其特征在于,所述步骤14)生成各个低维数据片段的低维数据基本单元-查询位图-倒排索引对照表的具体方法为:141)低维数据基本单元-查询位图-倒排索引对照表的第一行为所有查询位图,按实例化的维度个数从大到小排序,第一列为低维数据基本单元,从第一条低维数据基本单元开始,当前行的低维数据基本单元与当前列的查询位图确定一个聚集单元,得到该聚集单元对应的倒排索引TID-List,判断当前行的低维数据基本单元对应的查询位图的封闭性,即判断前述确定的聚集单元的封闭性,若该聚集单元为封闭单元,则将该聚集单元对应的倒排索引TID-List存储在当前行的低维数据基本单元与当前列的查询位图确定的单元格中,若该聚集单元为非封闭单元,则舍弃对应的倒排索引TID-List;142)生成...

【专利技术属性】
技术研发人员:万定生赵群朱跃龙周金玉阮祥超石波唐珊珊
申请(专利权)人:河海大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1