【技术实现步骤摘要】
一种聚合对象重组方法及装置
[0001]本专利技术涉及计算机
,尤其涉及一种聚合对象重组方法及装置。
技术介绍
[0002]在互联网(尤其是移动互联网)、物联网、云计算、大数据等高速发展的大背景下,数据呈现爆炸式地增长。社会化网络、移动通信、网络视频音频、电子商务、传感器网络、科学实验等各种应用产生的数据,不仅存储容量巨大,而且还具有数据类型繁多、数据大小变化大、流动快等显著特点,往往能够产生千万级、亿级甚至十亿、百亿级的海量小文件,而且更多的是海量大小文件混合存储。由于在元数据信息管理、访问性能、存储效率等方面面临巨大的挑战性。因此,海量小文件(lots of small files,LOSF)存储问题成为了工业界和学术界公认的难题。
[0003]针对LOSF存储问题,当前提出一种采用合并存储与索引文件相结合的优化存储的方案。如图1左侧为各个小文件的元数据信息,即索引文件,包括其聚合在哪个大对象,在大对象中的位置以及自身的文件大小,图1右侧为实际的文件数据,即合并存储后的大对象,Mobj1、MobjN均为聚合 ...
【技术保护点】
【技术特征摘要】
1.一种聚合对象重组方法,其特征在于,包括:确定N个聚合对象的空洞化率,其中,第i个聚合对象的空洞化率为所述第i个聚合对象包括的垃圾文件的总数与所述第i个聚合对象包括的文件的总数的比值,i和N为正整数,i取遍1至N;根据所述N个聚合对象的空洞化率,确定所述N个聚合对象中空洞化率大于或等于预设阈值的M个聚合对象,M为大于等于2的整数;将所述M个聚合对象进行重组,生成新的聚合对象。2.如权利要求1所述的方法,其特征在于,所述第i个聚合对象包括的垃圾文件的数量是根据所述第i个聚合对象的比特位图确定的,所述第i个聚合对象的比特位图包括的比特位的总数等于所述第i个聚合对象包括的文件的总数相同,所述第i个聚合对象中的每个文件对应所述第i个聚合对象的比特位图的一个比特位;在所述第i个聚合对象的比特位图中,每个比特位的可能取值包括第一取值和第二取值,其中,所述第一取值指示所述比特位对应的文件为所述垃圾文件,所述第二取值指示所述比特位对应的文件不是所述垃圾文件。3.如权利要求2所述的方法,其特征在于,确定N个聚合对象的空洞化率,包括:在确定所述第i个聚合对象的空洞化率时,执行以下步骤:根据所述第i个聚合对象包括的文件的索引和所述第i个聚合对象的元数据信息周期性更新所述第i个聚合对象的比特位图,所述第i个聚合对象的元数据信息包括所述第i个聚合对象包括的每个文件的元数据信息;根据更新后的所述第i个聚合对象的比特位图确定所述第i个聚合对象的空洞化率。4.如权利要求3所述的方法,其特征在于,根据所述第i个聚合对象包括的文件的索引和所述第i个聚合对象的元数据信息周期性更新所述第i个聚合对象的比特位图,包括:依次判断每个索引对应的文件的元数据信息是否被删除;在该索引对应的文件的元数据信息被删除时,将该索引对应...
【专利技术属性】
技术研发人员:侯飞,陈玉鹏,张翼,胡爱存,梁成武,邹晟,
申请(专利权)人:天翼云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。