用于HDFS的文件比较方法及装置制造方法及图纸

技术编号：9295812 阅读：81 留言：0更新日期：2013-10-31 00:23

本发明专利技术提出一种用于HDFS的文件比较方法及装置，根据本发明专利技术实施例的方法包括步骤：从HDFS的主节点获取第一文件和第二文件的信息；根据信息比较构成第一文件的多个第一数据块的数量与构成第二文件的多个第二数据块的数量是否相同；如果是，则从HDFS的从节点获取多个第一数据块的多个第一crc校验值以及多个第二数据块的多个第二crc校验值；将多个第一crc校验值以及多个第二crc校验值按照顺序分别进行比较；如果比较结果相同，则判断第一文件和第二文件相同；以及如果比较结果不同，则判断第一文件和第二文件不同。该方法可以节省网络传输量，并且提高文件比较的效率。

全部详细技术资料下载

【技术实现步骤摘要】
用于HDFS的文件比较方法及装置
本专利技术涉及互联网
，尤其涉及一种用于HDFS的文件比较方法及装置。
技术介绍
HDFS(HadoopDistributedFileSystem)是一种分布式文件系统。它有着高容错性的特点，而且提供高传输率来访问应用程序的数据，适合有着超大数据集的应用程序。对于HDFS上的文件进行比较时，使用的传统的文件比较方法包括：1.直接比较法：先将需要比较的两个文件从HDFS上下载到本地，然后再在本地通过diff等文件比较工具进行比较；2.哈希值比较法：先将需要比较的两个文件从HDFS上下载到本地，然后分别对两个文件进行哈希值的计算，例如采用md5算法，最后对计算出来的md5值进行比较。以上两种方法均需要下载文件，并且是对文件进行逐字节的比较，具有网络传输量大、比较效率较低的缺点，特别是对大文件进行比较时缺点更为突出。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此，本专利技术的一个目的在于提出一种能够节省网络传输并且提高比较效率的用于HDFS的文件比较方法。本专利技术的另一目的在于提出一种用于HDFS的文件比较装置。为了实现上述目的，根据本专利技术的第一方面实施例的用于HDFS的文件比较方法包括以下步骤：A.从HDFS的主节点获取第一文件和第二文件的信息；B.根据所述信息比较构成第一文件的多个第一数据块的数量与构成第二文件的多个第二数据块的数量是否相同；C.如果是，则从HDFS的从节点获取所述多个第一数据块的多个第一crc校验值以及所述多个第二数据块的多个第二crc校验值；D.将所述多个第一crc校验值以及所述多个...
用于HDFS的文件比较方法及装置

【技术保护点】
一种用于HDFS的文件比较方法，其特征在于，包括以下步骤：从HDFS的主节点获取第一文件和第二文件的信息；根据所述信息比较构成第一文件的多个第一数据块的数量与构成第二文件的多个第二数据块的数量是否相同；如果是，则从HDFS的从节点获取所述多个第一数据块的多个第一crc校验值以及所述多个第二数据块的多个第二crc校验值；将所述多个第一crc校验值以及所述多个第二crc校验值按照顺序分别进行比较；如果比较结果相同，则判断所述第一文件和所述第二文件相同；以及如果比较结果不同，则判断所述第一文件和所述第二文件不同。

【技术特征摘要】
1.一种用于HDFS的文件比较方法，其特征在于，包括以下步骤：从HDFS的主节点获取构成第一文件的多个第一数据块的数量和构成第二文件的多个第二数据块的数量；比较所述构成第一文件的多个第一数据块的数量与所述构成第二文件的多个第二数据块的数量是否相同；如果否，则判断所述第一文件和所述第二文件不同，如果是，则从HDFS的从节点获取所述多个第一数据块的多个第一crc校验值以及所述多个第二数据块的多个第二crc校验值；将所述多个第一crc校验值以及所述多个第二crc校验值按照顺序分别进行比较；如果比较结果相同，则判断所述第一文件和所述第二文件相同；以及如果比较结果不同，则判断所述第一文件和所述第二文件不同，其中，如果所述构成第一文件的所有数据块的crc校验值分别与所述构成第二文件的所有数据块的crc校验值相同，才判断第一文件和第二文件相同，当判断所述构成第一文件的某个数据块的crc校验值与对应顺序的所述构成第二文件的某个数据块的crc校验值不同，则判断所述第一文件和所述第二文件不同，并且所述构成第一文件之后顺序的多个数据块的crc校验值与所述构成第二文件之后顺序的多个数据块的crc校验值无需继续比较。2.根据权利要求1所述的用于HDFS的文件比较方法，其特征在于，进一步包括步骤：生成与所述多个第一crc校验值对应的多个第一哈希值以及与所述多个第二crc校验值对应的多个第二哈希值，其中，将所述多个第一哈希值与所述多个第二哈希值按照顺序分别进行比较；如果比较结果相同，则判断所述第一文件和所述第二文件相同；以及如果比较结果不同，则判断所述第一文件和所述第二文件不同。3.根据权利要求1或2所述的用于HDFS的文件比较方法，其特征在于，所述多个第一数据块以及所述多个第二数据块的大小是256M。4.根据权利要求3所述的用于HDFS的文件比较方法，其特征在于，所述多个第一crc校验值以及所述多个第二crc校验值的长度是2048字节。5.根据权利要求4所述的用于HDFS的文件比较方法，其特征在于，所述多个第一哈希值与所述多个第二哈希值的长度是16字节。6.一种用于HDFS的文件比较装置，其特征在于，包括：信息获取模块，所述信息获取模块用于从HDFS的主节点获取第一文件和第二文件的信息，其中，所述信息获取模块不需要从所述HDFS的主节点下载所述第一文件和第二文件，仅需要从所述HDFS的主节点获取所述第一文件和第二...

【专利技术属性】
技术研发人员：潘瑾瑜，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人