当前位置: 首页 > 专利查询>武汉大学专利>正文

基于访问日志信息的空间小文件数据分布存储方法及系统技术方案

技术编号:11378145 阅读:68 留言:0更新日期:2015-04-30 20:37
本发明专利技术提供基于访问日志信息的空间小文件数据分布存储方法及系统,包括将空间小文件数据集分成频繁访问的子集和非频繁访问的子集,提取频繁访问的空间小文件数据子集的访问序列,分段计算各频繁访问的空间小文件数据的关联度,并将各频繁访问的空间小文件数据相互之间的关联度数值组成关联矩阵;对关联矩阵中各元素数值进行大小转换后利用RCM排序算法重排后输出,对重排后的关联矩阵利用局部逼近搜索法寻找最佳组合,利用最佳组合对频繁访问的空间小文件数据进行分布存储,以及对非频繁访问的空间小文件数据根据空间位置相邻关系分开存储。本发明专利技术提高了空间小文件数据的并行访问性能。

【技术实现步骤摘要】
基于访问日志信息的空间小文件数据分布存储方法及系统
本专利技术属于空间小文件数据的分布存储
,特别是涉及一种新的基于访问日志信息的空间小文件数据分布存储方法及系统。
技术介绍
海量空间信息的存储和快速访问一直是空间信息服务系统试图解决的重要问题,常用的空间信息服务系统如NASA地球观察系统每天采集的数据量达到了2TB,对这些数据的合理分布存储以便获得并行快速访问成为关键,其中一类重要的解决方案是通过对数据进行分布存储以实现对数据的并行访问来提高数据访问效率。目前比较典型的分布式文件存储系统主要包括如GFS(Googlefilesystem)、HDFS(Hadoopdistributedfilesystem)以及Lustre等。但这些系统在存储性能上的改善主要体现在对大文件的存储处理上。如GFS,其存储策略主要是,将大文件分成固定长度的块(如64MB),然后将所有的块分别存储在不同的存储器上以提高数据的并行访问率(参考文献GhemawatS,GobioffH,Shun-TakL.TheGooglefilesystem.In:ProceedingsoftheNineteenthACMSymposiumonOperatingSystemsPrinciples(SOSP’03).BoltonLanding,NewYork:IEEE,2003.1–15)。另一类典型的存储技术如RAID(RedundantArrayofIndependentDisks),也是将每一个大的数据文件分成几个数据块后分别存储在不同的磁盘以提高对该文件的并行访问。以上分布存储方法虽然对大文件数据有效,但针对小文件数据,由于无法继续进行分块,通过分块存储的方法适应性不足,目前通用的方法只是简单的将单个文件存储在单个存储服务器上,因而难以实现对多个小文件数据的并行访问,I/O效率不高。研究表明,目前大部分系统都存在大量的小文件数据,如美国国家能源研究科学计算中心的1300万个文件中有99%的文件小于64M,小于64K的文件更是占到了44%(参考文献CarnsP,LangS,RossR,etal..Small-fileaccessinparallelfilesystems[C].Parallel&DistributedProcessing,2009.IPDPS2009.IEEEInternationalSymposiumOn.IEEE,2009:1-11)。事实上,基于金字塔模型的空间信息服务系统,如GoogleEarth、WorldWind等同样是以小文件的形式存储空间数据。WorldWind根据金字塔模型将地球分成不同分辨率的瓦片数据,每个瓦片数据保存为一个文件,每个瓦片数据的大小固定为512×512像素,每个瓦片文件大小不超过1MB(参考文献BoschettiL,RoyDP,JusticeCO.UsingNASA’sWorldWindvirtualglobeforinteractiveinternetvisualizationoftheglobalMODISburnedareaproduct.IntJRemoteSens,2008,29(11):3067–3072);GoogleEarth同样采用多分辨率模型存储空间数据,每个数据文件的大小也不超过64MB(参考文献SampleJT,LoupE.Tile-basegeospatialinformationsystem:principleandpractices.NewYork:Springer,2010.23–200)。总之,目前针对大文件数据的分布存储方法难以应用到小文件数据的存储,而针对小文件数据的优化又集中在数据的访问优化(非存储优化,访问优化面向客户端,而存储优化面向服务端),如减少数据密集型应用程序的执行时间(参考文献J.Kim,A.Chandra,andJ.B.Weissma.UsingDataAccessibilityforResourceSelectioninLarge-ScaleDistributedSystems.IEEETrans.ParallelDistributedSystems,vol.20,no.6,pp.788-801,June2009),或降低小文件索引信息的开销(参考文献A.L.Chervenak,R.Schuler,M.Ripeanu,M.A.Amer,S.Bharathi,I.Foster,A.Iamnitchi,andC.Kesselman.TheGlobusReplicaLocationService:DesignandExperience.IEEETrans.ParallelDistributedSystems,vol.20,no.9,pp.1260-1272,Sept.2009)等。但在分布式系统中,访问延迟时间的性能不仅与存取方法有关,而且与数据的分布存储模式有关。因此对小文件数据的优化问题尚未得到根本解决。
技术实现思路
针对以上问题,本专利技术提供一种基于访问日志信息的空间小文件数据分布存储方法及系统,利用空间小文件数据的访问日志信息,分析各空间小文件数据之间的相互关系,并据此对空间小文件数据进行分布存储,以提高对空间小文件数据的并行访问率。本专利技术所述的一种基于访问日志信息的空间小文件数据分布存储方法及系统,所采用的技术方案是:一种基于访问日志信息的空间小文件数据分布存储方法,对任一种空间小文件数据类型,执行包括以下步骤:步骤1,将空间小文件数据集,按照访问频率不同分成频繁访问的子集和非频繁访问的子集;包括以下子步骤,步骤1.1,获取各空间小文件数据访问热度,实现如下,设空间小文件数据集为F={f1,f2,...,fN},包含空间小文件数据f1,f2,...,fN,其中N为空间小文件数据的总个数,第i个空间小文件数据标记为fi,i=1,2,…,N;设访问日志信息中记录依次访问了空间小文件数据空间小文件数据的访问日志序列为A=(a1,a2,…,aM)为空间小文件数据访问序列向量,at∈[1,N],访问序号t=1,2,…,M,其中M为对F中所有空间小文件数据的访问总次数;统计每个空间小文件数据fi在访问日志序列R中出现的次数λi,以λi为该空间小文件数据fi的访问热度;步骤1.2,根据空间小文件数据访问热度提取被频繁访问的空间小文件数据,实现如下,输入预设判别参数λ,若空间小文件数据集F中空间小文件数据fi的访问热度λi>λ,则空间小文件数据fi为频繁访问的空间小文件数据,否则fi属于非频繁访问的空间小文件数据;步骤1.3,根据步骤1.2所得频繁访问的空间小文件数据构成空间小文件数据集的子集,实现如下,设所有频繁访问的空间小文件数据所构成子集为其中N1为频繁访问的空间小文件数据总个数,第i1、j1个频繁访问的空间小文件数据分别标记为和i1,j1∈[1,N1];步骤2,从访问日志信息中提取频繁访问的空间小文件数据子集的访问序列,包括按照时间先后顺序形成访问序列为频繁访问空间小文件数据访问序列向量,访问序号t1=(11,21,…,M1),其中M1为对F1中所有频繁访问空间小文件数据的访问总次数;步骤3,利用频繁访问的空间本文档来自技高网
...
基于访问日志信息的空间小文件数据分布存储方法及系统

【技术保护点】
一种基于访问日志信息的空间小文件数据分布存储方法,其特征在于:对任一种空间小文件数据类型,执行包括以下步骤:步骤1,将空间小文件数据集,按照访问频率不同分成频繁访问的子集和非频繁访问的子集;包括以下子步骤,步骤1.1,获取各空间小文件数据访问热度,实现如下,设空间小文件数据集为F={f1,f2,...,fN},包含空间小文件数据f1,f2,...,fN,其中N为空间小文件数据的总个数,第i个空间小文件数据标记为fi,i=1,2,…,N;设访问日志信息中记录依次访问了空间小文件数据空间小文件数据的访问日志序列为A=(a1,a2,…,aM)为空间小文件数据访问序列向量,at∈[1,N],访问序号t=1,2,…,M,其中M为对F中所有空间小文件数据的访问总次数;统计每个空间小文件数据fi在访问日志序列R中出现的次数λi,以λi为该空间小文件数据fi的访问热度;步骤1.2,根据空间小文件数据访问热度提取被频繁访问的空间小文件数据,实现如下,输入预设判别参数λ,若空间小文件数据集F中空间小文件数据fi的访问热度λi>λ,则空间小文件数据fi为频繁访问的空间小文件数据,否则fi属于非频繁访问的空间小文件数据;步骤1.3,根据步骤1.2所得频繁访问的空间小文件数据构成空间小文件数据集的子集,实现如下,设所有频繁访问的空间小文件数据所构成子集为其中N1为频繁访问的空间小文件数据总个数,第i1、j1个频繁访问的空间小文件数据分别标记为和i1,j1∈[1,N1];步骤2,从访问日志信息中提取频繁访问的空间小文件数据子集的访问序列,包括按照时间先后顺序形成访问序列为频繁访问空间小文件数据访问序列向量,访问序号t1=(11,21,…,M1),其中M1为对F1中所有频繁访问空间小文件数据的访问总次数;步骤3,利用频繁访问的空间小文件数据子集的访问序列分段计算各频繁访问的空间小文件数据的关联度,并将各频繁访问的空间小文件数据相互之间的关联度数值组成关联矩阵;包括以下子步骤,步骤3.1,根据存储服务器数量m、频繁访问空间小文件数据子集长度N1计算频繁访问序列分段长度n=N1/m;步骤3.2,根据访问序列分段长度对频繁访问序列进行分段,实现如下,按照访问顺序,将频繁访问空间小文件数据访问序列向量A1以n个元素一组分割为若干子向量,表示为A1=(S1,S2,…,Sl),其中子向量Sk=(ak1,ak2,…,akn),akj∈[1,N1],1≤k≤l,1≤j≤n;将A1中所有子向量集合记为S,S={Sk:k∈[1,l]};步骤3.3,计算频繁访问的空间小文件数据相互之间的关联度数值,实现如下,定义函数其中为Sk中的所有元素组成的集合;函数表示在长度为n的访问周期内频繁访问的空间小文件数据和是否具有关联性;定义函数RS(i1,j1),RS(i1,j1)=Σk=1lRSk(i1,j1)1≤i1≤N1,1≤j1≤N1]]>其中RS(i1,j1)表示S对和的总关联度;步骤3.4,将频繁访问的空间小文件数据相互之间的关联度数值组成关联矩阵RS,RS=(RS(i1,j1))N1×N11≤i1≤N1,1≤j1≤N1]]>步骤4,对关联矩阵中各元素数值进行大小转换后利用RCM排序算法重排后输出;步骤5,对重排后的关联矩阵利用局部逼近搜索法寻找最佳组合;步骤6,利用步骤5所得最佳组合对频繁访问的空间小文件数据进行分布存储,以及对非频繁访问的空间小文件数据根据空间位置相邻关系分开存储。...

【技术特征摘要】
1.一种基于访问日志信息的空间小文件数据分布存储方法,其特征在于:对任一种空间小文件数据类型,执行包括以下步骤:步骤1,将空间小文件数据集,按照访问频率不同分成频繁访问的子集和非频繁访问的子集;包括以下子步骤,步骤1.1,获取各空间小文件数据访问热度,实现如下,设空间小文件数据集为F={f1,f2,...,fN},包含空间小文件数据f1,f2,...,fN,其中N为空间小文件数据的总个数,第i个空间小文件数据标记为fi,i=1,2,…,N;设访问日志信息中记录依次访问了空间小文件数据空间小文件数据的访问日志序列为A=(a1,a2,…,aM)为空间小文件数据访问序列向量,at∈[1,N],访问序号t=1,2,…,M,其中M为对F中所有空间小文件数据的访问总次数;统计每个空间小文件数据fi在访问日志序列R中出现的次数λi,以λi为该空间小文件数据fi的访问热度;步骤1.2,根据空间小文件数据访问热度提取被频繁访问的空间小文件数据,实现如下,输入预设判别参数λ,若空间小文件数据集F中空间小文件数据fi的访问热度λi>λ,则空间小文件数据fi为频繁访问的空间小文件数据,否则fi属于非频繁访问的空间小文件数据;步骤1.3,根据步骤1.2所得频繁访问的空间小文件数据构成空间小文件数据集的子集,实现如下,设所有频繁访问的空间小文件数据所构成子集为其中N1为频繁访问的空间小文件数据总个数,第i1、j1个频繁访问的空间小文件数据分别标记为和i1,j1∈[1,N1];步骤2,从访问日志信息中提取频繁访问的空间小文件数据子集的访问序列,包括按照时间先后顺序形成访问序列为频繁访问空间小文件数据访问序列向量,访问序号t1=(11,21,…,M1),其中M1为对F1中所有频繁访问空间小文件数据的访问总次数;步骤3,利用频繁访问的空间小文件数据子集的访问序列分段计算各频繁访问的空间小文件数据的关联度,并将各频繁访问的空间小文件数据相互之间的关联度数值组成关联矩阵;包括以下子步骤,步骤3.1,根据存储服务器数量m、频繁访问空间小文件数据子集长度N1计算频繁访问序列分段长度n=N1/m;步骤3.2,根据访问序列分段长度对频繁访问序列进行分段,实现如下,按照访问顺序,将频繁访问空间小文件数据访问序列向量A1以n个元素一组分割为若干子向量,表示为A1=(S1,S2,…,Sl),其中子向量Sk=(ak1,ak2,…,akn),akj∈[1,N1],1≤k≤l,1≤j≤n;将A1中所有子向量集合记为S,S={Sk:k∈[1,l]};步骤3.3,计算频繁访问的空间小文件数据相互之间的关联度数值,实现如下,定义函数其中为Sk中的所有元素组成的集合;函数表示在长度为n的访问周期内频繁访问的空间小文件数据和是否具有关联性;定义函数RS(i1,j1),其中RS(i1,j1)表示S对和的总关联度;步骤3.4,将频繁访问的空间小文件数据相互之间的关联度数值组成关联矩阵RS,步骤4,对关联矩阵中各元素数值进行大小转换后利用RCM排序算法重排后输出;步骤5,对重排后的关联矩阵利用局部逼近搜索法寻找最佳组合;步骤5包括以下子步骤,步骤5.1,初始化当前迭代次数d=1;步骤5.2,采用局部逼近搜索法寻找一个最佳组合,包括在当前的矩阵中寻找一个n×n的块,使得该矩阵中n×n块内对应的矩阵元素值最大,相应的n个文件构成一个最佳组合;第一次执行步骤5.2时,当前的矩阵为步骤4所得重排后的关联矩阵;后续执行步骤5.2时,当前的矩阵为前一次迭代所得的矩阵;步骤5.3,在本次迭代执行步骤5.2搜索得到一个由n个文件组成的最佳组合后,将关联矩阵中对应n个文件的关联矩阵元素删除,得到(N1-dn)×(N1-dn)的矩阵;步骤5.4,判断是否d=m-1,否则令d=d+1,以本次迭代执行步骤5.3所得(N1-dn)×(N1-dn)的矩阵为当前的矩阵,返回步骤5.2进行下一次迭代继续搜索下一个最佳组合,是则停止搜索,共得到m个最佳组合;步骤6,利用步骤5所得最佳组合对频繁访问的空间小文件数据进行分布存储,以及对非频繁访问的空间小文件数据根据空间位置相邻关系分开存储。2.根据权利要求1所述基于访问日志信息的空间小文件数据分布存储方法,其特征在于:步骤4包括以下子步骤,步骤4.1,获取关联矩阵中元素最大值,包括遍历关联矩阵所有元素值,并获取最大值Rmax;步骤4.2,对关联矩阵元素数值进行大小转换,包括遍历关联矩阵所有元素值,并执行操作RS(i1,j1)=Rmax-RS(i1,j1);步骤4.3,利用标准RCM排序算法对关联矩阵进行重排。3.一种基于访问日志信息的空间小文件数据分布存储系统,其特征在于:包括以下单元,空间小文件数据集预处理单元(100),用于将任一种空间小文件数据类型的空间小文件数据集,按照访问频率不同分成频繁访问的子集和非频繁访问的子集;包括以下模块,空间小文件数据访问频率统计模块(101),用于获取各空间小文件数据访问热度,实现如下,设空间小文件数据集为F=...

【专利技术属性】
技术研发人员:潘少明徐正全种衍文李红李明汤戈
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1