基于分布式文件系统的相似文件查找方法、系统及装置制造方法及图纸

技术编号:31749697 阅读:14 留言:0更新日期:2022-01-05 16:30
本发明专利技术提出的一种基于分布式文件系统的相似文件查找方法、系统及装置,所述方法包括:在用户终端上进行打开文件操作时,在所属服务器上生成相应的终端节点,并根据所打开的文件添加对应的文件节点信息;使用预设的相似性算法对终端节点上的文件节点进行一一对比,得出任意文件节点的相似性数值;读取待查找的文件;遍历所有的主机节点以及文件节点,若文件节点存储的待查找的文件的相似性数值大于预设相似度阈值,则标记此文件节点;根据标记的文件节点生成终端节点分布图。本发明专利技术能够通过每个终端用户打开文件时上报的文件数据,形成相似性分析路径拓扑图,利用相似性分析路径拓扑图可以快速的定位出存储有待查找的文件数据的终端设备。据的终端设备。据的终端设备。

【技术实现步骤摘要】
基于分布式文件系统的相似文件查找方法、系统及装置


[0001]本专利技术涉及计算机
,更具体的说是涉及一种基于分布式文件系统的相似文件查找方法、系统及装置。

技术介绍

[0002]随着大数据的发展,数据量每日倍增,一些文件会在网络上被大量转发和存储。当前,局域网环境中的文件都是通过共享文件的方式来进行修改、存储、查找和下载。
[0003]共享文件存储在单一的存储节点上,虽然便于终端用户的访问和使用,但是存在以下弊端:1、单一的存储节点发送和接受文件的工作量大,且稳定性不足,存储节点一旦发送故障,有可能导致文件的永久性丢失。2、若一个文件由多人修改,会出现内容冲突,并难于知道具体修改时间,文件传输过程中存在被修改的可能性;3、共享文件的查找速度和效率较低;4、安全防护手段比较简单,无法记录终端用户的操作,追溯终端用户信息以及文件的分布信息。
[0004]为了克服上述缺陷,人们使用分布式文件系统来实现文件共享,分布式文件系统能够把大量数据分散到不同的节点上存储,大大减小了数据丢失的风险。分布式文件系统具有冗余性,部分节点的故障并不影响整体的正常运行,而且即使出现故障的计算机存储的数据已经损坏,也可以由其它节点将损坏的数据恢复出来。但是,现有的分布式文件系统仍然无法实现在对相似文件进行查找时追溯该文件被打开浏览的终端用户信息以及该文件在网络上的分布信息。

技术实现思路

[0005]针对现有技术中存在的问题,本专利技术的目的在于提供一种基于分布式文件系统的相似文件查找方法、系统及装置。<br/>[0006]本专利技术为实现上述目的,通过以下技术方案实现:
[0007]一种基于分布式文件系统的相似文件查找方法,包括如下步骤:
[0008]S1:首次在用户终端上进行打开文件操作时,在所属服务器上生成相应的终端节点,并根据终端节点的硬件信息生成终端节点的节点信息;
[0009]S2:每一次在终端节点上进行打开文件操作时,均根据所打开的文件添加对应的文件节点信息,并存储相应的文件内容信息;
[0010]S3:使用预设的相似性算法对终端节点上的文件节点进行一一对比,得出任意文件节点的相似性数值,并将相似性数值存储到对应的文件节点中;
[0011]S4:读取待查找的文件;
[0012]S5:遍历所有的主机节点以及文件节点,若文件节点存储的待查找的文件的相似性数值大于预设相似度阈值,则标记此文件节点;
[0013]S6:根据标记的文件节点生成终端节点分布图。
[0014]进一步,所述终端节点的节点信息为哈希码,所述哈希码通过终端节点的MAC地
址、IP和随机数组成的字符串哈希生成。
[0015]进一步,所述步骤S1还包括:
[0016]生成的终端节点均通过预设指针指向上一次生成的终端节点。
[0017]进一步,所述文件节点信息包括:
[0018]文件的MD5码、所属的服务器的哈希值和符合所打开的文件的相似性的文件信息列表。
[0019]进一步,所述步骤S2还包括:
[0020]所述相应的文件内容信息存储在分布式文件系统中,分布式文件系统采用FastDFS分布式文件系统。
[0021]进一步,所述步骤S3具体为:
[0022]使用Simhash相似性算法对终端节点上的文件节点进行一一对比,得出任意文件节点的相似性数值,将对比的文件的MD5信息和相似性数值存储到对应的文件节点中,并生成一张网状拓扑图。
[0023]相应的,本专利技术还公开了一种基于分布式文件系统的相似文件查找系统,包括:
[0024]终端节点生成单元,用于首次在用户终端上进行打开文件操作时,在所属服务器上生成相应的终端节点,并根据终端节点的硬件信息生成终端节点的节点信息;
[0025]文件节点生成单元,用于每一次在终端节点上进行打开文件操作时,均根据所打开的文件添加对应的文件节点信息,并存储相应的文件内容信息;对比单元,用于使用预设的相似性算法对终端节点上的文件节点进行一一对比,得出任意文件节点的相似性数值,并将相似性数值存储到对应的文件节点中;
[0026]读取单元,用于读取待查找的文件;
[0027]遍历单元,用于遍历所有的主机节点以及文件节点,若文件节点存储的待查找的文件的相似性数值大于预设相似度阈值,则标记此文件节点;
[0028]分布图生成单元,用于根据标记的文件节点生成终端节点分布图。
[0029]相应的,本专利技术还公开了一种基于分布式文件系统的相似文件查找装置,包括:
[0030]存储器,用于存储计算机程序;
[0031]处理器,用于执行所述计算机程序时实现如上文任一项所述基于分布式文件系统的相似文件查找方法步骤。
[0032]对比现有技术,本专利技术有益效果在于:
[0033]1、本专利技术基于分布式文件系统,由于分布式节点上的数据存储文件是加密的,能够有效提高数据的安全性;同时,如果终端用户修改了文件的任意内容之后,相应的服务器节点上就会创建文件节点,本专利技术可以根据相似性分析来找到文件被修改过的终端用户,相应的便也找到了文件被存储在哪些终端用户的机器上,降低了文件传输过程中被修改的可能性。
[0034]2、本专利技术采用了分布式文件信息存储,将数据存储在多个节点上,一方面提高了数据的使用效率,使数据存在不同的设备上具备一定的可扩展性。另一个方面可以将数据的运维成本分摊,数据不易丢失。通过分布式文件系统将文件存储到分布式的服务器节点上,在保证高可用性的同时也具备高扩展性,并且能解决文件存储的单点故障问题。
[0035]3、本专利技术能够通过每个终端用户打开文件时上报的文件数据,形成相似性分析路
径拓扑图,利用相似性分析路径拓扑图可以快速的定位出存储有待查找的文件数据的终端设备。
[0036]由此可见,本专利技术与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
[0037]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0038]附图1是本专利技术具体实施方式的方法流程图。
[0039]附图2是本专利技术具体实施方式的系统结构图。
[0040]图中,1为终端节点生成单元,2为文件节点生成单元,3为对比单元,4为读取单元,5为遍历单元,6为分布图生成单元。
具体实施方式
[0041]下面结合附图对本专利技术的具体实施方式做出说明。
[0042]如图1所示的一种基于分布式文件系统的相似文件查找方法,包括如下步骤:
[0043]S1:首次在用户终端上进行打开文件操作时,在所属服务器上生成相应的终端节点,并根据终端节点的硬件信息生成终端节点的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布式文件系统的相似文件查找方法,其特征在于,包括如下步骤:S1:首次在用户终端上进行打开文件操作时,在所属服务器上生成相应的终端节点,并根据终端节点的硬件信息生成终端节点的节点信息;S2:每一次在终端节点上进行打开文件操作时,均根据所打开的文件添加对应的文件节点信息,并存储相应的文件内容信息;S3:使用预设的相似性算法对终端节点上的文件节点进行一一对比,得出任意文件节点的相似性数值,并将相似性数值存储到对应的文件节点中;S4:读取待查找的文件;S5:遍历所有的主机节点以及文件节点,若文件节点存储的待查找的文件的相似性数值大于预设相似度阈值,则标记此文件节点;S6:根据标记的文件节点生成终端节点分布图。2.根据权利要求1所述的基于分布式文件系统的相似文件查找方法,其特征在于,所述终端节点的节点信息为哈希码,所述哈希码通过终端节点的MAC地址、IP和随机数组成的字符串哈希生成。3.根据权利要求1所述的基于分布式文件系统的相似文件查找方法,其特征在于,所述步骤S1还包括:生成的终端节点均通过预设指针指向上一次生成的终端节点。4.根据权利要求1所述的基于分布式文件系统的相似文件查找方法,其特征在于,所述文件节点信息包括:文件的MD5码、所属的服务器的哈希值和符合所打开的文件的相似性的文件信息列表。5.根据权利要求1所述的基于分布式文件系统的相似文件查找方法,其特征在于,所述步骤S2还包括:所述相应的文件内容信息存储在...

【专利技术属性】
技术研发人员:苗功勋王金国张庆亮李忠瑞
申请(专利权)人:中孚信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1