一种基于用户访问偏好模型的海量小文件存储方法技术

技术编号：19511394 阅读：21 留言：0更新日期：2018-11-21 07:50

本发明专利技术公开了一种基于用户访问偏好模型的海量小文件存储方法，先结合用户访问偏好模型找出关联性文件集合，再依次将其添加到待合并队列中，如果待合并队列中的文件大小超过128MB，则先将队列中的所有文件合并成一个数据块，并清空待合并队列中的文件信息和删除已合并文件的源文件，直到所有文件都添加到待合并队列中。如果文件添加完，待合并队列中的文件大小不够128MB，则将该队列中所有文件合并成一个数据块，并清空待合并队列中的文件信息和删除已合并文件的源文件；最后将已合并的所有数据块存储到HDFS系统中。采用本发明专利技术技术方案能提高小文件的读取效率，减少HDFS系统中namenode内存的消耗。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于用户访问偏好模型的海量小文件存储方法
本专利技术涉及计算机
，尤其涉及一种基于用户访问偏好模型的海量小文件存储方法。
技术介绍
Hadoop是Apache基金会在2005年作为Lucene的子项目Nutch中的一部分正式引入。Hadoop最关键的两大设计HDFS和MapReduce。而HDFS负责存储海量的数据，文件以数据块的形式存储在系统上。而HDFS的数据块比普通磁盘定义的数据块(一般是512B)大得多，HDFS目前默认的数据块大小是128MB。如果HDFS存储的文件大小大于128MB，它会将该文件切分成块大小的若干个分块，分开单独存储。而当HDFS不断的存储小文件量达到TB甚至PB级别时，小文件的问题就会产生，这是因为会有大量的元数据存储在HDFS的主节点namenode中，大大增加namenode的负载，从而会影响到系统的读取性能。其中，小文件的大小定义为2MB，即在HDFS存储文件中，当文件大小小于或等于2M，即被定义为小文件。现有技术对于海量小文件的处理都是将若干个小文件合并成一个block块大小的大文件，并没有考虑到文件之间的关联性，使得小文件的读取效率不太理想。
技术实现思路
本专利技术实施例提出一种基于用户访问偏好模型的海量小文件存储方法，能提高小文件的读取效率，减少HDFS系统中namenode内存的消耗。本专利技术实施例提供一种基于用户访问偏好模型的海量小文件存储方法，包括：步骤A：当客户端上传待存储文件后，遍历HDFS上所有的文件，结合用户访问偏好模型找出所述待存储文件的关联性文件集合；其中，所述用户访问偏好模型是根据用户...

【技术保护点】
1.一种基于用户访问偏好模型的海量小文件存储方法，其特征在于，包括：步骤A：当客户端上传待存储文件后，遍历HDFS上所有的文件，结合用户访问偏好模型找出所述待存储文件的关联性文件集合；其中，所述用户访问偏好模型是根据用户访问日志记录而统计得出；步骤B：依次将所述关联性文件集合的中文件和所述待存储文件添加到待合并队列中；步骤C：判断所述待合并队列中的所有文件总大小是否超过128MB，如果是，则执行步骤D；否则，执行步骤E；步骤D：将所述待合并队列中的所有文件合并成一个数据块，并清空所述待合并队列中的文件信息和删除已合并文件的源文件，返回步骤B；步骤E：判断所述关联性文件集合的中文件和所述待存储文件是否均添加到所述待合并队列中；如果是，则将所述待合并队列中的所有文件合并成一个数据块，并清空所述待合并队列中的文件信息和删除已合并文件的源文件，再执行步骤F；否则，返回步骤B；步骤F：将已合并的所有数据块存储到HDFS系统中。

【技术特征摘要】
1.一种基于用户访问偏好模型的海量小文件存储方法，其特征在于，包括：步骤A：当客户端上传待存储文件后，遍历HDFS上所有的文件，结合用户访问偏好模型找出所述待存储文件的关联性文件集合；其中，所述用户访问偏好模型是根据用户访问日志记录而统计得出；步骤B：依次将所述关联性文件集合的中文件和所述待存储文件添加到待合并队列中；步骤C：判断所述待合并队列中的所有文件总大小是否超过128MB，如果是，则执行步骤D；否则，执行步骤E；步骤D：将所述待合并队列中的所有文件合并成一个数据块，并清空所述待合并队列中的文件信息和删除已合并文件的源文件，返回步骤B；步骤E：判断所述关联性文件集合的中文件和所述待存储文件是否均添加到所述待合并队列中；如果是，则将所述待合并队列中的所有文件合并成一个数据块，并清空所述待合并队列中的文件信息和删除已合并文件的源文件，再执行步骤F；否则，返回步骤B；步骤F：将已合并的所有数据块存储到HDFS系统中。2.根据权利要求1所述的基于用户访问偏好模型的海量小文件存储方法，其特征在于，所述用户访问偏好模型是根据用户访问日志记录而统计得出，具体为：从所述用户访问日志记录中统计得出活跃用户集；采用bean对象表示所述活跃用户集访问过的小文件；所述小文件为大小小于或等于2MB的文件；其中...

【专利技术属性】
技术研发人员：魏文国，彭建烽，谢桂园，戴青云，蔡君，赵慧民，
申请(专利权)人：广东技术师范学院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人