当前位置: 首页 > 专利查询>浙江大学专利>正文

基于数据相似的平衡聚类压缩方法技术

技术编号:2912112 阅读:223 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于数据相似的聚类压缩方法。本发明专利技术通过分析文件数据,从文件提取特征指纹构造特征向量,用于计算数据相似度,并利用带约束条件的图分割方法聚类输入文件集成多个均匀大小的类别,然后采用BMCOM等压缩方法对每个类别单独进行压缩,以去除类内部的冗余数据。本发明专利技术利用基于数据采样聚类方式,把具有较高可压缩性的关键数据作为样本数据,首先对样本数据进行聚类,然后通过稳定婚姻方法归类剩余数据,在不降低压缩效果的情况下可提高聚类效率。本发明专利技术可以作为一种压缩和归档方法应用到分布式存储系统中,能够克服已有方法的数据依赖和负载不均问题。

【技术实现步骤摘要】

本专利技术涉及数据压縮、分布式存储归档与数据挖掘领域,特别是涉及一种 。
技术介绍
随着信息总量的爆炸式增长,海量分布式存储系统已经成为当前各种互联 网应用的核心设施,分布式存储系统的性能直接决定着整个信息系统性能。在 分布式存储系统中,除了小部分热点数据之外,很大一部分数据根本很少被访 问,但却占用了大量的存储空间和系统资源,因此压縮和归档此类数据可以在 不降低用户体验的前提下,减少系统资源占用,节省成本。通用的压縮方法只针对单个文件进行压縮,不能利用文件之间的数据冗余 性,压縮比非常有限。另外,学术界提出各种方法虽然能够利用文件之间的数 据冗余,但是计算量过大,执行效率不足,而且这些方法很少考虑压縮后数据 的存储问题,没有针对海量分布式存储系统进行优化,容易造成数据之间的依 赖性和系统负载不均。
技术实现思路
本专利技术的目的在于提供一种基于数据相似的平衡聚类压縮方法,根据文件 数据相似性对文件集进行聚类,得到较为均匀的聚类结果,即每类几乎包含相同数据量,然后利用DELTA压縮或者BMCOM等压縮方法压逐类縮聚类结果。 本专利技术的目的是通过以下技术方案来实现的 一种基于数据相似的平衡聚类压縮方法,包括以下步骤-(l)文件特征向量提取,从文件数据中提取特征向量用于计算文件相似度。 第一步,选择一个窗口长度w和&个整数域上的独立置换函数^;, /22,…,&},每个置换函数相互独立;第二步,从前往后逐字节扫描输入文件/,利用高效的Rabin指纹函数,计算当前滑动窗口内数据的指纹,记该指纹为》,利用上述A个独立置换函数作用于指纹》,得到A:个置换指纹&OK), ^砂),…,^砂),记文件/的特征向量F(^为(F;必,^仿,…,&09},特征向量的第/维F必等于第!'个置换函数所产生的置换指纹的最小值,即F^^MIN(F,切,第三步,扫描完整个文件之后,可计算出文件的特征向量F()9,文件数据相似度 ,"根据文件;c和_y的特征向量定义为li^」nF關/^WuF關;(2)聚类样本选取,即从输入数据集D中选取部分数据作为样本数据集,即样本数据集为&第一步,计算关键数据集,关键数据集XD的定义是存在高相似副本的文件集合,即^XH芈eD/s(3;;eD7f3c,力3)}, f是0到1之间的一个较大实数,关键数据集中的数据通常具有比较高的可压縮性,能对最终压縮比产生比较大的影响;准确计算关键数据集XD的计算量较大,其时间复杂度为0(|Z)|2),因此利用超级指纹快速检测高相似数据;超级指纹是根据多个文件指纹计算的哈希值,如果两个数据具有相同的超级指纹,那么它们拥有很多相同的文件指纹,因此它们的相似度比较高;关键数据集的详细估算方法如下(g) 选择一个正整数/和w,和一个随机哈希函数/7;(h) 循环执行步骤c)和e)共/次;(i) 随机选择w个小于A:的正整数",/2,…,zw};(j)对于每个文件/,利用哈希函数/Z和特征向量i^)的第^ /2,…,/w维计算超级指纹弥,即弥=(/)□...□&(/》;(k) 以沙为关键字记录(沙,/)到超级指纹哈希表wr,即(1)扫描哈希表SKT,对于哈希表中的每个超级指纹^9,计算集合5F775^/中数据的两两相似度,如果x, ;;eD,那么x和;;都属于关键数据集,因此更新关键数据集XD为iOXj{jc,力;第二步,计算超级数据,超级数据是多个关键数据合并而成的虚拟数据,任意超级数据s是关键数据集的子集,即s^D,超级数据中包含的数据相似度比较高,因此合并这些数据,把它们当作整体来处理,可以提高聚类质量,此外,合并成超级数据可以减少聚类方法的输入数据,提高聚类性能;超级数据及样本数据集S的构建方法如下h)按照相似度r(3c,力排序关键数据集XD中的高相似文件对f^ ^,得到优先级队列0;i)循环执行步骤c)-g),直到队列g为空;j)从优先级队列g中取出相似度最高的一对文件(^ W;k)产生一个超级数据V, V包含X禾卩少两个文件,根据X和少的特征向量计算v的特征向量F(v, F 的第i维F,勿等于MIN(F,(3c入i^K));1)对于队列中的包含x的文件对(3c, ^或者包含y的文件对(>,力,计算相m)如果v和任意z的相似度r ,z卩都小于"那么v不可能再与其它数据合并,加v到样本数据集S,即5=5^{^};n)否则,对于—/^a的数据二从队列g中删除数据对(3c, ^和0, z」,并根据相似度r(V, ^加 ,^到队列Q;(3) 样本数据聚类,利用平衡聚类方法聚类样本数据集A第一步,根据样本数据集S构建相似图G,相似图形如GTF, £人并满足如下条件(i)F是顶点集,任意veF对应到唯一的一个数据^VjeS;每个顶点v有一个权重『F 人且fn《v戶^v)./ew; (ii)£是边集,任意(3c, 都有一个权重^,且『五(3c, 3/>-K《x),喊y》;第二步,调用高效的图分割方法kmetis分割相似图G,并为设置kmetis设定两个约束条件约束l(损失最小化)图分割方法需要删除相似图中的一些边,方法必须最小化删除边的权重和,约束1要求分割出来的每个子图中的数据之间具有高相似度,而跨子图数据之间只有低相似度;约束2(负载均衡)分割方法还必须满足平衡约束条件,即平衡每个子图的顶点权重和;(4) 剩余数据聚类,按照相似度归类剩余数据》=D-5*,在满足负载均衡约束的前提下,把剩余数据归入到最相似的类;记7^>=2^^.&"是类别c中包含的文件总大小,剩余聚类方法必须满足如下两个条件之一i)数据"被分配到最相似的类c; ii)如果还有其它类c'和d更相似,那么7Tc'」》c/w他m'ze且c'中的任何数据cT满足sz'w(c',W )》Ww(c',力,其中c/wWera/ze是类平均大小,w'm(c',力代表数据d和类c'的相似度,类相似度w'附(^,《定义如下w'm(C,力=£eZ ^T(/), Z =尸(力n ((J F(x))剩余聚类方法基于稳定婚姻模塾设计,其主要过程如下a)对于每个类G,根据类相似度sfm(G, c/)排序剩余Z得到n,初始化类G的剩余容量^和rx索引/'-;b) 执行步骤c),直到所有数据都已经归类;c) 在每次循环中,在总数据量不超过剩余容量^的前提下,每个类C,向FL中尽可能多的数据求婚,设"是被G.求婚的任意数据,如果数据J还没有求婚者,那么暂时许配"给G.,如果数据J己有求婚者C/而且s/m(G,力々/m(C〃力那么取消对G的婚约,许配J给C,;(5)结果压縮,对每个类别进行单独压縮,默认采用BMCOM压縮方法,同时亦可采用各种成熟的DELTA压縮方法;BMCOM方法是Bentley和Mcilroy在1999年提出来的,它能够压縮间隔距离很长的冗余数据,而且压縮和解压縮性能非常好,分别能够达到lOOMB/s和1000MB/s,其本思想是利用Shingle技术检测并压縮较长的冗余数据,Shingle是数据中一段固定长度的子串,假设Shingle的长度为丄,BMCOM能够压縮所有长度>2£的字符串,并部分压縮长度在丄 2i:之间的冗余数据;方法利用Shi本文档来自技高网...

【技术保护点】
一种基于数据相似的平衡聚类压缩方法,其特征在于,包括以下步骤: (1)文件特征向量提取,从文件数据中提取特征向量用于计算文件相似度。 (2)聚类样本选取,即从输入数据集D中选取部分数据作为样本数据集,即样本数据集为S。 ( 3)样本数据聚类,利用平衡聚类方法聚类样本数据集S。 (4)剩余数据聚类,按照相似度归类剩余数据X=D-S,在满足负载均衡约束的前提下,把剩余数据归入到最相似的类。 (5)结果压缩,对每个类别进行单独压缩,默认采用BMCOM压缩 方法,同时亦可采用各种成熟的DELTA压缩方法。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈刚陈珂胡天磊寿黎但余利华
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1