The present invention provides a method of reading data adaptive optimization of cloud storage environment, which comprises the following steps: recording the local user program data access log information; regular statistical analysis of the log information, get the relationship between data objects; according to user program data access request for access to data objects and data objects associated with the current access to the collection and pre read to the local cache; access request for data objects of the user program, read from the local cache, such as to visit the data object does not exist in the local cache, it is read from the remote storage nodes distributed file system. The method further includes pre reading the associated data object from the remote storage node of the distributed file system to the local cache and updating the local cache. Relationship of the method of access log data objects created according to the data statistics and analysis of the object, the object will read the data associated with the current pre read data object to the local cache, in order to improve the data read speed.
【技术实现步骤摘要】
本专利技术涉及计算机
中的分布式文件系统数据读取优化方法,尤其涉及一种云存储环境下海量数据自适应读取优化方法及系统。
技术介绍
随着信息化社会的到来,各种数据以爆炸式的形式快速增长。伴随着产生的海量数据,对数据的存储、读取、管理等各方面的要求越来越高。在现阶段,分布式数据存储已经成为主流。分布式文件系统通常将数据存储在多个节点上(不同的服务器),各个节点之间通过网络进行连接,用户通过分布式文件系统的接口就可以访问到各个节点之间的数据。当用户读取海量数据时,由于网络传输的延时,数据读取时间将会很长。因此,如何实现快速读取海量数据成为本领域技术人员迫切解决的问题。
技术实现思路
本专利技术的目的是提供一种云存储环境下海量数据自适应读取优化方法及系统,其结合海量数据读取行为和分布式文件系统的数据存储特点,采用一种数据挖掘方法,根据数据对象访问日志,分析预测即将被用户程序访问的数据对象集合,提前从分布式文件系统中将数据对象预读取到本地的方式来提高数据读取效率。为实现上述目的,本专利技术所采用的技术方案为:一种云存储环境下海量数据自适应读取优化方法,步骤包括:1)记录本地用户程序的数据访问日志信息;2)定期统计分析上述日志信息,得到数据对象间的关联关系;3)根据用户程序的数据访问请求获取与当前访问的数据对象关联的数据对象集合,并预读取到本地缓存;4)对于用户程序的数据对象访问请求,先从本地缓存中读取,如本地缓存中不存在待访数据对象,则从分布式文件系统的远端存储节点读取。进一步地,还包括从分布式文件系统的远端存储节点预读取关联的数据对象集合到本地缓存并更新本地缓存 ...
【技术保护点】
一种云存储环境下海量数据自适应读取优化方法,步骤包括:1)记录本地用户程序的数据访问日志信息;2)定期统计分析上述日志信息,得到数据对象间的关联关系;3)根据用户程序的数据访问请求获取与当前访问的数据对象关联的数据对象集合,并预读取到本地缓存;4)对于用户程序的数据对象访问请求,先从本地缓存中读取,如本地缓存中不存在待访数据对象,则从分布式文件系统的远端存储节点读取。
【技术特征摘要】
1.一种云存储环境下海量数据自适应读取优化方法,步骤包括:1)记录本地用户程序的数据访问日志信息;2)定期统计分析上述日志信息,得到数据对象间的关联关系;3)根据用户程序的数据访问请求获取与当前访问的数据对象关联的数据对象集合,并预读取到本地缓存;4)对于用户程序的数据对象访问请求,先从本地缓存中读取,如本地缓存中不存在待访数据对象,则从分布式文件系统的远端存储节点读取。2.如权利要求1所述的方法,其特征在于,还包括从分布式文件系统的远端存储节点预读取关联的数据对象集合到本地缓存并更新本地缓存。3.如权利要求1所述的方法,其特征在于,所述本地缓存封装符合POSIX的文件接口来实现与用户程序和分布式文件系统的数据交换。4.如权利要求1所述的方法,其特征在于,所述数据对象关联关系为数据对象在同一时间窗口...
【专利技术属性】
技术研发人员:王学志,赵江华,林青慧,周园春,黎建辉,
申请(专利权)人:中国科学院计算机网络信息中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。