智慧城市中时空数据小文件合并方法技术

技术编号:18783821 阅读:118 留言:0更新日期:2018-08-29 06:58
本发明专利技术公开了一种智慧城市中时空数据小文件合并方法,小文件合并作为一种微观的数据布局机制,可以有效提升系统I/O性能,减小用户访问延时。本文通过分析时空数据特点,将历史的用户访问信息进行参数化表示和时空属性提取,在时空属性域里,对访问信息利用AGNES算法进行层次聚类,并对聚类结果进行基于访问密度的加权计算,找到访问相关时空范围。最后,利用该时空范围指导小文件的合并。实验结果表明,本发明专利技术算法简单高效,极大的提高了系统内时空数据小文件的访问效率。

【技术实现步骤摘要】
智慧城市中时空数据小文件合并方法
本专利技术涉及智慧城市中时空数据小文件合并策略研究领域。
技术介绍
在以物联网、云计算为基础的智慧城市中,无所不在的传感器时刻产生着包含有时间、空间和类型三大固有属性的传感数据,这些数据体积小(通常在几十到几百KB)、种类繁多、数量庞大,冗余性高且随时间动态增长,属于典型的时空数据小文件。当前主流的分布式文件系统在元数据管理、数据布局、条带设计、缓存管理等实现策略上都侧重于大文件。目前较为通用的分布式文件系统有GoogleGFS、HadoopHDFS、PVFS以及Lustre等。这些文件系统均采用了主从结构的集中式数据管理机制,将文件的元数据(描述数据的数据,如名字空间、访问控制信息、文件位置、大小等)和数据块文件分开存储。系统中的管理者为MDS(MetadataServer,MDS),它除了保存文件的元数据外,还负责维护数据存储节点的IP、状态等信息。而工作者即为数据存储服务器(DataStorageServer,DSS)。典型主从结构的分布式文件系统及访问机制如图1所示。从图中可以看出,Client每发出一个文件访问请求,都要先与MDS进行通信,获取到元数据信息后,再与DSS建立文件传输链接。显然,大规模高并发的小文件访问请求将会使Client-MDS之间频繁通信,占据系统有限的带宽和计算资源,从而使得MDS变成系统性能的瓶颈,严重影响数据访问性能,增加文件访问的响应时间。海量时空数据小文件及相关应用给人们生活带来便利的同时,也严重影响了系统的访问性能。主要体现在:①内存占用率高:海量小文件占用大量的元数据服务器内存,系统存储的文件总数受限于内存容量;②元数据服务器负载大:文件的操作都要通过元数据服务器进行,频繁的交互使得元数据服务器负载过大,容易成为整个系统访问性能的瓶颈;③文件的存取效率低:文件的每一次存储和读取,都要与元数据服务器进行通信,相对于文件自身少量的数据传输时间,大部分时间都花在了系统开销上。研究表明(WangF,XinQ,HongB,etal.FileSystemWorkloadAnalysisforLargeScaleScientificComputingApplications[C].IEEE.2004:139-152.),在基于小文件的应用服务系统中,用户对小文件的请求数超过所有请求数的90%,而访问的数据量却不到所有访问数据的10%。海量小文件严重影响到系统的数据访问性能。小文件合并作为一种微观的数据布局机制,可以根据将多个不同的小文件合并成大文件,一方面减少客户端Client和元数据服务器之间通信次数,另一方面也能减轻MDS负载,提升小文件访问性能。但是,现有的关于小文件合并研究,都把焦点放在了改进存储系统结构和分析文件自身特性上。当前,针对小文件问题的研究归纳起来可以分为两种:(1)改进系统架构马等人(马灿,孟丹,熊劲.曙光星云分布式文件系统:海量小文件存储[J].小型微型计算机系统,2012,7(33):1481-1482.)针对海量小文件的访问延时问题,通过改进的分布式可扩展哈希对元数据进行组织和管理,提出了一个基于分布式表存储的文件系统HVFS,实现了小文件的高效存取。Zhang等人(张启飞,张尉东,李文娟,等.基于对等网络的面向小文件的云存储系统[J].浙江大学学报:工学版,2013(1):214-215.)通过引入中心路由节点,用来存储系统中所有节点的路由和状态信息,并结合客户端的路由信息预取机制,降低了资源的查询时间,解决了基于对等网络(P2P)分布式云存储系统的小文件访问效率问题,但该方法的访问性能受中心节点限制且成本较高。付等人(付松龄,廖湘科,黄辰林,等.FlatLFS:一种面向海量小文件处理优化的轻量级文件系统[J].国防科技大学学报,2013,35(2):120-126.)摒弃了传统文件系统的层次文件管理模式,设计了一个扁平式的数据存储轻量级文件系统FlatLFS,以牺牲灵活性为代价换来了小文件存取的高效率。赵等人(赵跃龙,谢晓玲,蔡咏才,等.一种性能优化的小文件存储访问策略的研究[J].计算机研究与发展,2012,49(7):1579-1586.)考虑到存储系统中小文件的访问和布局特征,首先使用Cache充当元数据服务器,然后将逻辑上连续的小文件最大程度的放在连续磁盘空间,通过提高预取命中率和减小磁盘寻道时间提升小文件的I/O性能,但该方法中Cache容量容易成为系统访问性能瓶颈。Zhang等人(ZhangZH,GhoseK.hFS:AHybridFileSystemPrototypeforImprovingSmallFileandMetadataPerformance[C].ACMProceedingsofthe2007EuroSysConferenceonOperatingSystemsReview,2007,175-187)结合了快速文件系统FFS和逻辑结构文件系统LFS的各自优点,设计了一种混合的文件系统hFS,通过将大文件数据块存储在FFS部分的数据区,元数据和小文件存储在LFS的逻辑区,实现了小文件的高效访问。(2)利用文件自身特性合并小文件合并技术可以将多个小文件合并成大文件后存储存至DSS中。一方面,使得Client-MDS之间通信一次即可获取多个小文件的元数据信息,避免了每次交互只传输很小的数据量,提升系统带宽利用率;另一方面,作为分布式文件系统的管理中心,MDS负载过重会导致系统性能下降,小文件合并可以降低MDS中存储的文件元数据信息量,减小MDS存储负载。最初的小文件合并方法有HadoopArchive(HAR)归档文件技术、SequenceFile序列文件技术和MapFile。随后,2001年余等人(余思,桂小林,黄汝维,等.一种提高云存储中小文件存储效率的方案[J].西安交通大学学报,2011,45(6):59-60.)综合考虑了小文件的读取时间、合并时间和内存占用率,运用多维属性决策理论,采用序列文件技术将小文件合并为大文件。该方法很好的降低了内存消耗,提高了小文件的存储效率,但没有提出相关方法用来提高文件的读取效率。Jiang等人(JiangL,LiB,SongML.TheOptimizationofHDFSBasedonSmallFiles[A].BroadbandNetworkandMultimediaTechnology(IC-BNMT),20103rdIEEEInternationalConferenceonDateofConference[C]:26-28Oct.2010.912-915.)一方面将小文件合并成大文件,另外一方面还把部分小文件的元数据信息存放在DataNode内存中,从而进一步减轻了NameNode的内存消耗,提高了小文件读取速度。Dong等人(DongB,ZhengQH,TianF.Anoptimizedapproachforstoringandaccessingsmallfilesoncloudstorage[J].JournalofNetworkandComputerApplicationsVolume35,Issue6,Novembe本文档来自技高网...

【技术保护点】
1.一种智慧城市中时空数据小文件合并方法,其特征在于,利用数据挖掘算法,从历史的小文件访问信息中挖掘出具有访问相关性的时空范围,然后将该时空范围内的小文件进行合并。

【技术特征摘要】
2018.01.22 CN 201810057495X1.一种智慧城市中时空数据小文件合并方法,其特征在于,利用数据挖掘算法,从历史的小文件访问信息中挖掘出具有访问相关性的时空范围,然后将该时空范围内的小文件进行合并。2.根据权利要求1所述的合并方法,其特征在于,所述数据挖掘算法采用关联规则中的Apriori、FP-Growth或Can-Tree算法,或聚类中的层次聚类算法AGNES或密度聚类算法DBSCAN。3.根据权利要求2所述的合并方法,其特征在于,利用层次聚类算法AGNES,从历史的小文件访问信息中挖掘出具有访问相关性的时空范围,然后将该时空范围内的小文件进行合并的过程如下:1)将历史的用户访问信息进行参数化表示和时空属性提取;根据时空数据小文件的定义,每个文件均包含固有的位置属性l类型属性s以及时间属性t,所以,任意小文件均可用其时空三要素表示(l,s,t);假设智慧城市中产生的时空数据小文件集为F={f1,f2,…,fm},包含的位置属性集合可表示为L={l1,l2,…,lm},时间属性集合为T={t1,t2,…,tm},类型属性集合为S={s1,s2,…,sm},用户通过访问智慧城市中的应用服务,产生的小文件访问请求序列为A=(a1,a2,…an),其中每个请求项ai,1≤i≤n均对应于一个时空数据小文件fi,1≤i≤n;对该请求序列进行参数化表示和时空属性提取后,形成时空属性序列:A=(a1,a2,…an)=((l1,s1,t1),(l2,s2,t2),…,(ln,sn,tn))(1);2)文件合并2.1)类型属性分类:从历史的小文件访问请求序列A=(a1,a2,…,an)中将包含类型属性为si,si∈S的访问请求序列分离出来;2.2)时空聚类:利用层次聚类算法AGNES对访问请求序列分别进行位置属性的聚类和时间属性的聚类,得到位置属性的合并范围和时间属性的合并范围;2.3)小文件合并:根据位置属性、时间属性的合并范围对类型属性为si的小文件进行合并;2.4)循环步骤2.1)-2.3),计算出不同属性小文件的时空合并范围分别进行合并,并建立索引。4.根据权利要求3所述的合并方法,其特征在于,步骤2.2)改进为,利用层次聚类算法AGNES对访问请求序列分别进行位置属性的聚类和时间属性的聚类,并对聚类结果进行基于访问密度的加权计算,然后利用加权后的结果得到位置属性的合并范围和时间属性的合并范围。5.根据权利要求4所述的合并方法,其特征在于,步骤2.2)中,位置属性的合并范围通过如下方式获取:(1a)请求里包含的位置属性集合表示为将位置属性集合里的每个坐标作为一个簇;(2a)计算每个簇之间的组平均距离,找到距离最近的两个簇进行合并;(3a)重复步骤(2a),直到任意两个簇之间的组平均距离均大于预定义的距离阈值聚类算法结束;预定义的所述距离阈值为位置属性集合里所有坐标点之间距离的平均值;(4a)假设步骤(3a)聚类过程结束后,生成的簇集合为利用这个簇集合,计...

【专利技术属性】
技术研发人员:熊炼熊珊国代新
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1