【技术实现步骤摘要】
基于访问日志信息的空间小文件数据分布存储方法及系统
本专利技术属于空间小文件数据的分布存储
,特别是涉及一种新的基于访问日志信息的空间小文件数据分布存储方法及系统。
技术介绍
海量空间信息的存储和快速访问一直是空间信息服务系统试图解决的重要问题,常用的空间信息服务系统如NASA地球观察系统每天采集的数据量达到了2TB,对这些数据的合理分布存储以便获得并行快速访问成为关键,其中一类重要的解决方案是通过对数据进行分布存储以实现对数据的并行访问来提高数据访问效率。目前比较典型的分布式文件存储系统主要包括如GFS(Googlefilesystem)、HDFS(Hadoopdistributedfilesystem)以及Lustre等。但这些系统在存储性能上的改善主要体现在对大文件的存储处理上。如GFS,其存储策略主要是,将大文件分成固定长度的块(如64MB),然后将所有的块分别存储在不同的存储器上以提高数据的并行访问率(参考文献GhemawatS,GobioffH,Shun-TakL.TheGooglefilesystem.In:ProceedingsoftheNineteenthACMSymposiumonOperatingSystemsPrinciples(SOSP’03).BoltonLanding,NewYork:IEEE,2003.1–15)。另一类典型的存储技术如RAID(RedundantArrayofIndependentDisks),也是将每一个大的数据文件分成几个数据块后分别存储在不同的磁盘以提高对该文件的并行访问。以上分布存储方法虽然对 ...
【技术保护点】
一种基于访问日志信息的空间小文件数据分布存储方法,其特征在于:对任一种空间小文件数据类型,执行包括以下步骤:步骤1,将空间小文件数据集,按照访问频率不同分成频繁访问的子集和非频繁访问的子集;包括以下子步骤,步骤1.1,获取各空间小文件数据访问热度,实现如下,设空间小文件数据集为F={f1,f2,...,fN},包含空间小文件数据f1,f2,...,fN,其中N为空间小文件数据的总个数,第i个空间小文件数据标记为fi,i=1,2,…,N;设访问日志信息中记录依次访问了空间小文件数据空间小文件数据的访问日志序列为A=(a1,a2,…,aM)为空间小文件数据访问序列向量,at∈[1,N],访问序号t=1,2,…,M,其中M为对F中所有空间小文件数据的访问总次数;统计每个空间小文件数据fi在访问日志序列R中出现的次数λi,以λi为该空间小文件数据fi的访问热度;步骤1.2,根据空间小文件数据访问热度提取被频繁访问的空间小文件数据,实现如下,输入预设判别参数λ,若空间小文件数据集F中空间小文件数据fi的访问热度λi>λ,则空间小文件数据fi为频繁访问的空间小文件数据,否则fi属于非频繁访问 ...
【技术特征摘要】
1.一种基于访问日志信息的空间小文件数据分布存储方法,其特征在于:对任一种空间小文件数据类型,执行包括以下步骤:步骤1,将空间小文件数据集,按照访问频率不同分成频繁访问的子集和非频繁访问的子集;包括以下子步骤,步骤1.1,获取各空间小文件数据访问热度,实现如下,设空间小文件数据集为F={f1,f2,...,fN},包含空间小文件数据f1,f2,...,fN,其中N为空间小文件数据的总个数,第i个空间小文件数据标记为fi,i=1,2,…,N;设访问日志信息中记录依次访问了空间小文件数据空间小文件数据的访问日志序列为A=(a1,a2,…,aM)为空间小文件数据访问序列向量,at∈[1,N],访问序号t=1,2,…,M,其中M为对F中所有空间小文件数据的访问总次数;统计每个空间小文件数据fi在访问日志序列R中出现的次数λi,以λi为该空间小文件数据fi的访问热度;步骤1.2,根据空间小文件数据访问热度提取被频繁访问的空间小文件数据,实现如下,输入预设判别参数λ,若空间小文件数据集F中空间小文件数据fi的访问热度λi>λ,则空间小文件数据fi为频繁访问的空间小文件数据,否则fi属于非频繁访问的空间小文件数据;步骤1.3,根据步骤1.2所得频繁访问的空间小文件数据构成空间小文件数据集的子集,实现如下,设所有频繁访问的空间小文件数据所构成子集为其中N1为频繁访问的空间小文件数据总个数,第i1、j1个频繁访问的空间小文件数据分别标记为和i1,j1∈[1,N1];步骤2,从访问日志信息中提取频繁访问的空间小文件数据子集的访问序列,包括按照时间先后顺序形成访问序列为频繁访问空间小文件数据访问序列向量,访问序号t1=(11,21,…,M1),其中M1为对F1中所有频繁访问空间小文件数据的访问总次数;步骤3,利用频繁访问的空间小文件数据子集的访问序列分段计算各频繁访问的空间小文件数据的关联度,并将各频繁访问的空间小文件数据相互之间的关联度数值组成关联矩阵;包括以下子步骤,步骤3.1,根据存储服务器数量m、频繁访问空间小文件数据子集长度N1计算频繁访问序列分段长度n=N1/m;步骤3.2,根据访问序列分段长度对频繁访问序列进行分段,实现如下,按照访问顺序,将频繁访问空间小文件数据访问序列向量A1以n个元素一组分割为若干子向量,表示为A1=(S1,S2,…,Sl),其中子向量Sk=(ak1,ak2,…,akn),akj∈[1,N1],1≤k≤l,1≤j≤n;将A1中所有子向量集合记为S,S={Sk:k∈[1,l]};步骤3.3,计算频繁访问的空间小文件数据相互之间的关联度数值,实现如下,定义函数其中为Sk中的所有元素组成的集合;函数表示在长度为n的访问周期内频繁访问的空间小文件数据和是否具有关联性;定义函数RS(i1,j1),其中RS(i1,j1)表示S对和的总关联度;步骤3.4,将频繁访问的空间小文件数据相互之间的关联度数值组成关联矩阵RS,步骤4,对关联矩阵中各元素数值进行大小转换后利用RCM排序算法重排后输出;步骤5,对重排后的关联矩阵利用局部逼近搜索法寻找最佳组合;步骤5包括以下子步骤,步骤5.1,初始化当前迭代次数d=1;步骤5.2,采用局部逼近搜索法寻找一个最佳组合,包括在当前的矩阵中寻找一个n×n的块,使得该矩阵中n×n块内对应的矩阵元素值最大,相应的n个文件构成一个最佳组合;第一次执行步骤5.2时,当前的矩阵为步骤4所得重排后的关联矩阵;后续执行步骤5.2时,当前的矩阵为前一次迭代所得的矩阵;步骤5.3,在本次迭代执行步骤5.2搜索得到一个由n个文件组成的最佳组合后,将关联矩阵中对应n个文件的关联矩阵元素删除,得到(N1-dn)×(N1-dn)的矩阵;步骤5.4,判断是否d=m-1,否则令d=d+1,以本次迭代执行步骤5.3所得(N1-dn)×(N1-dn)的矩阵为当前的矩阵,返回步骤5.2进行下一次迭代继续搜索下一个最佳组合,是则停止搜索,共得到m个最佳组合;步骤6,利用步骤5所得最佳组合对频繁访问的空间小文件数据进行分布存储,以及对非频繁访问的空间小文件数据根据空间位置相邻关系分开存储。2.根据权利要求1所述基于访问日志信息的空间小文件数据分布存储方法,其特征在于:步骤4包括以下子步骤,步骤4.1,获取关联矩阵中元素最大值,包括遍历关联矩阵所有元素值,并获取最大值Rmax;步骤4.2,对关联矩阵元素数值进行大小转换,包括遍历关联矩阵所有元素值,并执行操作RS(i1,j1)=Rmax-RS(i1,j1);步骤4.3,利用标准RCM排序算法对关联矩阵进行重排。3.一种基于访问日志信息的空间小文件数据分布存储系统,其特征在于:包括以下单元,空间小文件数据集预处理单元(100),用于将任一种空间小文件数据类型的空间小文件数据集,按照访问频率不同分成频繁访问的子集和非频繁访问的子集;包括以下模块,空间小文件数据访问频率统计模块(101),用于获取各空间小文件数据访问热度,实现如下,设空间小文件数据集为F=...
【专利技术属性】
技术研发人员:潘少明,徐正全,种衍文,李红,李明,汤戈,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。