一种HDFS中文件的存储方法及装置制造方法及图纸

技术编号：16717651 阅读：23 留言：0更新日期：2017-12-05 16:13

本发明专利技术公开了一种HDFS中文件的存储方法及装置，该方法的步骤包括：将文件存储至数据节点的数据块中；按照预设方式将文件的相关信息记录在第一索引中，并将第一索引存储于数据节点中；将第一索引记录在第二索引中，并将第二索引存储于主节点中。可见，通过将聚合所得的第一层索引存储在数据节点分担了主节点的存储压力，主节点只需要存储由第一层索引进一步聚合所得的索引信息即可获得所有小文件的相关信息，因此主节点记录相关信息的频率能够相对降低，并且能够记录更多的相关信息。可见，本发明专利技术更加节省主节点的存储空间，并且能够减轻主节点工作压力并且提高HDFS存储效率。此外，HDFS中文件的存储装置同样具有上述效果。

A method and device for storage of files in HDFS

The invention discloses a device and a storage method of HDFS documents, the method includes the steps of: storing files to the data node in a data block; the file related information recorded in the first index according to a preset mode, and the first index stored in the data nodes; the first index record in second index second, and the index is stored in the main node. Visible through the first layer of the index storage will be polymerized in the data storage nodes share the pressure of the main node, the master node only needs to store index information from the first layer index further polymerized to obtain the relevant information of all small files, so the master node records information about frequency can be relatively lower, and can record more information the. It can be seen that the invention saves the storage space of the main node, and can reduce the working pressure of the main node and improve the storage efficiency of HDFS. In addition, the storage device of the file in HDFS also has the above effect.

全部详细技术资料下载

【技术实现步骤摘要】
一种HDFS中文件的存储方法及装置
本专利技术涉及HDFS文件系统领域，特别是涉及一种HDFS中文件的存储方法及装置。
技术介绍
Hadoop是近几年发展的比较成熟的大数据计算平台之一，凭借其可靠、高效、可伸缩的特性在互联网领域得到了广泛的应用，同时也得到了学术界的普遍关注。HDFS作为Hadoop的分布式文件系统，已经成为海量存储集群上部署的主流文件系统。HDFS由一个NameNode和若干个DataNode组成，其中DataNode是文件系统的数据节点，用于存储数据；NameNode是文件系统的主节点，负责记录和管理DataNode中所存的文件。HDFS通过分布式的方式存储数据，因此能够存储的数据量较大，并且由于数据节点中的数据存在定时的冗余备份以及数据节点之间的数据定时流动，因此使数据更加安全可靠。由于数据节点中的数据的信息均记录在主节点中，所以主节点的存储空间影响着数据节点中能够实际存储的数据量，并且存储小文件与存储大文件一样都会在主节点中占用同样的空间，所以HDFS对于海量的小文件存储往往会大量占用的主节点中数据信息的记录空间。可见，上述情况在加剧了主节点的工作压力的同时，还造成数据节点中存储空间的浪费，降低了HDFS整体的存储效率。由此可见，提供一种HDFS中文件的存储方法，以减轻主节点工作压力并且提高HDFS存储效率，是本领域技术人员亟待解决的问题。
技术实现思路
本专利技术的目的是提供一种HDFS中文件的存储方法及装置，节省了主节点的存储空间，并且减轻了主节点工作压力并且提高了HDFS存储效率。为解决上述技术问题，本专利技术提供一种HDFS中文...

【技术保护点】
一种HDFS中文件的存储方法，其特征在于，包括：将文件存储至数据节点的数据块中；按照预设方式将所述文件的相关信息记录在第一索引中，并将所述第一索引存储于所述数据节点中；将所述第一索引记录在第二索引中，并将所述第二索引存储于主节点中。

【技术特征摘要】
1.一种HDFS中文件的存储方法，其特征在于，包括：将文件存储至数据节点的数据块中；按照预设方式将所述文件的相关信息记录在第一索引中，并将所述第一索引存储于所述数据节点中；将所述第一索引记录在第二索引中，并将所述第二索引存储于主节点中。2.根据权利要求1所述的方法，其特征在于，所述按照预设方式将所述文件的相关信息记录在第一索引中具体为：按照同类型的所述相关信息记录在相同索引的方式将所述相关信息记录在第一索引中。3.根据权利要求1或2所述的方法，其特征在于，所述第一索引的内容包括：所述文件的长度、所述文件的偏移量以及所述文件的文件名。4.根据权利要求1或2所述的方法，其特征在于，所述第二索引的内容包括：所述第一索引的索引名、所述文件在所述第一索引中的位置以及所述文件所占用的所述数据块个数。5.根据权利要求2所述的方法，其特征在于，当获取到查找所述文件的指令时，该方法进一步包括：在所述第二索引中根据所述文件的...

【专利技术属性】
技术研发人员：王朋，
申请(专利权)人：郑州云海信息技术有限公司，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人