【技术实现步骤摘要】
一种数据立方体的非层次数据结构摘要方法
[0001]本专利技术属于数据处理
,尤其涉及一种数据立方体的非层次数据结构摘要方法。
技术介绍
[0002]数据立方体在气象学、销售和人口统计学等领域无处不在,而数据摘要能够压缩多维数据立方体,并提供观察数据的不同视角,是一项重要的服务。现有的数据摘要方法需要预先设定的数据多维度的层次结构,而许多类型的数据(例如,降雨和温度)并不存在这种结构。
[0003]多维数据立方体广泛用于存储多属性维度的数据,例如气象数据的位置和时间维度,销售数据的位置和产品等维度,人口统计数据的地点、年龄和性别维度。如图1所示,数据立方体在其维度上定义的网格中包含许多记录。数据立方体可能非常大,这使得存储和分析变得困难。例如,欧洲中期天气预报中心(ECWMF)已经积累了270PB气象数据。
[0004]数据摘要将数据立方体划分为多个区域,并为数据压缩和挖掘数据信息提供每个区域中记录的近似值。例如,在图2中,具有相同颜色的记录被分配到同一区域,并通过该区域右下角的值进行近似。压缩是通过只 ...
【技术保护点】
【技术特征摘要】
1.一种数据立方体的非层次数据结构摘要方法,其特征在于,包括以下步骤:获取数据立方体D,所述数据立方体存储多属性纬度的数据;将数据摘要任务转换为非层次数据结构摘要问题,即用带有误差边界的矩形区域覆盖数据立方体,并使摘要大小最小化;从数据立方体D中提取一组α近似矩形的集合C,并确保C包含非层次数据结构摘要问题的最优解,获得数据立方体D中每个位置(i,j)的边界F
ij
;从集合C中选择α近似矩形以贪心算法的方式覆盖数据立方体D,并使用基于堆的优化来提高效率;使用最优的α近似矩形来表示数据立方体。2.根据权利要求1所述的数据立方体的非层次数据结构摘要方法,其特征在于,层次数据结构摘要问题的公式表示如下:给定一个数据立方体D和误差门限α,将数据立方体摘要至矩形集合使得是一个α近似矩形,∪R
k
=D,且矩形的数量|S|是最小的。3.根据权利要求1所述的数据立方体的非层次数据结构摘要方法,其特征在于,α近似矩形的确定步骤如下:从近似矩形的每一个记录d
ij
出发,通过将其位置(i,j)作为矩形的左下角坐标,扩展出α相似矩形,对于左下角为(i,j)右上角为(a,b)的矩形R,如果满足则该矩形为α相似矩形。4.根据权利要求3所述的数据立方体的非层次数据结构摘要方法,其特征在于,使用所述α近似矩形作为数据摘要的基本单位,允许不同的α近似矩形重叠。5.根据权利要求4所述的数据立方体的非层次数据结构摘要方法,其特征在于,近似矩形中包含记录d
ij
,将α近似矩形的键定义为c
×
a1+b1,其中c是常数,[a1,b1]是矩形的左下点,并预先根据记录的键对α近似矩形进行排序。6.根据权利要求5所述的数据立方体的非层次数据结构摘要方法,其特征在于,所述确保C包含非层次数据结构摘要问题的最优解,获得数据立方体D中每个位置(i,j)的边界F
ij
包括:对于每一个位置(i,j),记录了边界F
ij
中所有边界α相似矩形的右上角,F
ij
初始值为(i,j)本身;对...
【专利技术属性】
技术研发人员:汪祥,姬翔,任开军,朱俊星,陈祥国,邓科峰,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。