【技术实现步骤摘要】
智慧城市中时空数据小文件合并方法
本专利技术涉及智慧城市中时空数据小文件合并策略研究领域。
技术介绍
在以物联网、云计算为基础的智慧城市中,无所不在的传感器时刻产生着包含有时间、空间和类型三大固有属性的传感数据,这些数据体积小(通常在几十到几百KB)、种类繁多、数量庞大,冗余性高且随时间动态增长,属于典型的时空数据小文件。当前主流的分布式文件系统在元数据管理、数据布局、条带设计、缓存管理等实现策略上都侧重于大文件。目前较为通用的分布式文件系统有GoogleGFS、HadoopHDFS、PVFS以及Lustre等。这些文件系统均采用了主从结构的集中式数据管理机制,将文件的元数据(描述数据的数据,如名字空间、访问控制信息、文件位置、大小等)和数据块文件分开存储。系统中的管理者为MDS(MetadataServer,MDS),它除了保存文件的元数据外,还负责维护数据存储节点的IP、状态等信息。而工作者即为数据存储服务器(DataStorageServer,DSS)。典型主从结构的分布式文件系统及访问机制如图1所示。从图中可以看出,Client每发出一个文件访问请求,都要先与MDS进行通信,获取到元数据信息后,再与DSS建立文件传输链接。显然,大规模高并发的小文件访问请求将会使Client-MDS之间频繁通信,占据系统有限的带宽和计算资源,从而使得MDS变成系统性能的瓶颈,严重影响数据访问性能,增加文件访问的响应时间。海量时空数据小文件及相关应用给人们生活带来便利的同时,也严重影响了系统的访问性能。主要体现在:①内存占用率高:海量小文件占用大量的元数据服务器内存, ...
【技术保护点】
1.一种智慧城市中时空数据小文件合并方法,其特征在于,利用数据挖掘算法,从历史的小文件访问信息中挖掘出具有访问相关性的时空范围,然后将该时空范围内的小文件进行合并。
【技术特征摘要】
2018.01.22 CN 201810057495X1.一种智慧城市中时空数据小文件合并方法,其特征在于,利用数据挖掘算法,从历史的小文件访问信息中挖掘出具有访问相关性的时空范围,然后将该时空范围内的小文件进行合并。2.根据权利要求1所述的合并方法,其特征在于,所述数据挖掘算法采用关联规则中的Apriori、FP-Growth或Can-Tree算法,或聚类中的层次聚类算法AGNES或密度聚类算法DBSCAN。3.根据权利要求2所述的合并方法,其特征在于,利用层次聚类算法AGNES,从历史的小文件访问信息中挖掘出具有访问相关性的时空范围,然后将该时空范围内的小文件进行合并的过程如下:1)将历史的用户访问信息进行参数化表示和时空属性提取;根据时空数据小文件的定义,每个文件均包含固有的位置属性l类型属性s以及时间属性t,所以,任意小文件均可用其时空三要素表示(l,s,t);假设智慧城市中产生的时空数据小文件集为F={f1,f2,…,fm},包含的位置属性集合可表示为L={l1,l2,…,lm},时间属性集合为T={t1,t2,…,tm},类型属性集合为S={s1,s2,…,sm},用户通过访问智慧城市中的应用服务,产生的小文件访问请求序列为A=(a1,a2,…an),其中每个请求项ai,1≤i≤n均对应于一个时空数据小文件fi,1≤i≤n;对该请求序列进行参数化表示和时空属性提取后,形成时空属性序列:A=(a1,a2,…an)=((l1,s1,t1),(l2,s2,t2),…,(ln,sn,tn))(1);2)文件合并2.1)类型属性分类:从历史的小文件访问请求序列A=(a1,a2,…,an)中将包含类型属性为si,si∈S的访问请求序列分离出来;2.2)时空聚类:利用层次聚类算法AGNES对访问请求序列分别进行位置属性的聚类和时间属性的聚类,得到位置属性的合并范围和时间属性的合并范围;2.3)小文件合并:根据位置属性、时间属性的合并范围对类型属性为si的小文件进行合并;2.4)循环步骤2.1)-2.3),计算出不同属性小文件的时空合并范围分别进行合并,并建立索引。4.根据权利要求3所述的合并方法,其特征在于,步骤2.2)改进为,利用层次聚类算法AGNES对访问请求序列分别进行位置属性的聚类和时间属性的聚类,并对聚类结果进行基于访问密度的加权计算,然后利用加权后的结果得到位置属性的合并范围和时间属性的合并范围。5.根据权利要求4所述的合并方法,其特征在于,步骤2.2)中,位置属性的合并范围通过如下方式获取:(1a)请求里包含的位置属性集合表示为将位置属性集合里的每个坐标作为一个簇;(2a)计算每个簇之间的组平均距离,找到距离最近的两个簇进行合并;(3a)重复步骤(2a),直到任意两个簇之间的组平均距离均大于预定义的距离阈值聚类算法结束;预定义的所述距离阈值为位置属性集合里所有坐标点之间距离的平均值;(4a)假设步骤(3a)聚类过程结束后,生成的簇集合为利用这个簇集合,计...
【专利技术属性】
技术研发人员:熊炼,熊珊,国代新,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。