一种分布式网络小文件存储管理方法技术

技术编号:36513293 阅读:7 留言:0更新日期:2023-02-01 15:43
本发明专利技术涉及网络安全技术领域,公开了一种分布式网络小文件存储管理方法,本方法通过对全量文件存储到FastDFS集群全量库中,对恶意文件存储到FastDFS集群持久库中,实现了对小文件的分区存储及差异化管理;其中,分区存储方便对海量小文件进行回滚,而差异化管理则实现了对流量中重点关注的文件进行用久存储,为取证提供了原始素材;进一步地,基于文件清理服务和分布式存储节点监听服务,实现了按需进行大文件的清理,提高了文件清理的性能和效率。率。率。

【技术实现步骤摘要】
一种分布式网络小文件存储管理方法


[0001]本专利技术涉及互联网
,尤其涉及网络安全领域,更具体的说,涉及一种分布式网络小文件存储管理方法。

技术介绍

[0002]随着互联网技术的迅速发展,产生的信息呈爆炸式增长,传统的文件系统难以满足海量文件对于动态扩展、高效访问的需求。尤其是对于半结构化数据或非结构化数据而言,此类数据的占用空间通常比结构化数据大,对存储系统的要求更高,此外,在一些应用场景中需要从灵活多变的多个维度快速对半结构化数据或非结构化数据进行搜索,这对搜索引擎也提出了要求。
[0003]目前,现有的方案主要采用以下两种方式来对小文件进行存储:1)将小文件聚合成大文件进行存储;2)利用第三方中间件来进行小文件存储,如FASTDFS,MINIO,HDFS等。
[0004]以上方案可以实现海量小文件的实时存储,但存储到分布式系统中的小文件清理,只能通过提前标记,要么等整块文件都标记删除后,再将整块文件删除;要么采用复制的方法,将标记块中不需要删除的文件复制出来存入新文件块中。以上方案在网络安全领域,每天会还原大量小文件,并且没法永久存储,需要进行大量文件的清理回滚,如果策略选择不合适会导致磁盘存储浪费,磁盘性能及效率下降。
[0005]例如公开号CN111782595A,公开日为2020年10月16日,专利技术名称为“海量文件管理方法、装置、计算机设备和可读存储介质”的专利技术专利申请,以及公开号为CN105701156A,公开日为2016年06月22日,专利技术名称为“一种分布式文件系统管理方法及装置”的专利技术专利。上述两个现有技术即是采用目前主流的方式来处理小文件,因此存在磁盘存储浪费、磁盘性能及效率下降的问题。
[0006]进一步地,公开号为CN113986867A,公开日为2022年01月28日,专利技术名称为“一种分布式文件清理方法、装置和系统”的专利技术专利申请,该现有技术虽然是通过阈值配置的方式对文件进行删除,但是该专利申请是针对所有的文件进行清理。

技术实现思路

[0007]为了解决上述现有技术存在的问题和缺陷,本专利技术提出了一种分布式网络小文件存储管理方法,通过对全量文件存储到FastDFS集群全量库中,对恶意文件存储到FastDFS集群持久库中,实现了对小文件的分区存储及差异化管理,避免了磁盘的存储浪费以及磁盘性能和效率下降的问题。
[0008]为了实现上述专利技术目的,本专利技术的技术方案如下:一种分布式网络小文件存储管理方法,包括海量网络小文件存储步骤、海量网络小文件检测及恶意小文件存储步骤和海量网络小文件清理步骤;所述海量网络小文件存储步骤,流量探针设备将各安全域间的流量所产生的文件
还原并上传至智能分析检测平台,所述智能分析检测平台包括文件检测模块以及部署在客户网络中的kafka集群,所述智能分析检测平台将文件统一存储至kafka集群中;文件消费服务从kafka集群消费文件内容,并将所有小文件统一存储到FastDFS集群全量库中,其中,文件真实的存储FileID存储到ElasticSearch的md5

path索引中,文件真实的存储块信息存储至MySQL的fastdfs

trunk

info表中;所述海量网络小文件检测及恶意小文件存储步骤,文件检测模块从md5

path索引中提取最新出现且未被检测的文件进行分析,分析完成后将检测分析结果存储到ElasticSearch的md5

libs索引中,并将md5

path索引中对应的md5值状态修改为完成分析;文件检测模块针对可疑的检测分析结果,对原始文件进行提取,并将文件重新存储至FastDFS持久库中,根据该文件的MD5值更新md5

path索引中对应的文件存储类型、存储块信息和文件存储时的FileID字段信息;所述海量网络小文件清理步骤,分布式存储节点监听服务每小时向文件清理服务上报当前磁盘的存储信息和FastDFS集群全量库及持久库的存储信息,文件清理服务统计各分布式节点存储信息;当整个分布式集群存储总量达到阈值上限时,文件清理服务启动清理任务,从fastdfs

trunk

info表中根据更新时间提取最早且未被清理的全量库中的记录,并下发文件清除指令至各个分布式存储节点,同时将fastdfs

trunk

info表中对应记录状态标记为删除中;各监听服务接收指令后启动文件清理工作,根据块文件存储路径按块文件删除,删除完成后反馈文件清理服务当前节点清理完成;当所有分布式存储节点上的文件清除指令执行完成后,文件存储服务将fastdfs

trunk

info表中对应的记录状态标记为已删除,同时根据已经被清理的块文件信息,对md5

path索引中对应记录进行删除;一轮清理完成后会做一次磁盘存储检查,如果磁盘存储空间没有下降到阈值下限,则重复执行以上清理任务,直到存储空间下降到阈值下限。
[0009]作为优选地,所述将所有小文件统一存储到FastDFS集群全量库中,包括:文件消费服务计算小文件的MD5值,在ElasticSearch的md5

path索引中查询是否存在该MD5值,若不存在,则将该文件存储至FastDFS集群全量库中,并返回File ID,将File ID保存至ElasticSearch的md5

path索引中,同时解析FileID,将FastDFS真实存储块文件信息存储到MySQL的fastdfs

trunk

info表中;若该MD5值存在,则根据MD5值更新md5

path索引数据中的更新时间。
[0010]作为优选地,所述md5

path索引的存储字段包括存储类型、MD5值、文件存储FileID、文件块信息、文件检测标记、创建时间以及更新时间。
[0011]作为优选地,所述fastdfs

trunk

info表的存储字段包括MD5值、文件块信息、存储类型、删除标记、版本号、创建时间以及更新时间。
[0012]作为优选地,所述md5

libs索引的存储字段包括MD5值、文件等级、木马信息、网络行为、概要报告、文件报告路径、检测时间以及更新时间。
[0013]作为优选地,所述存储类型是指文件存储在全量库或持久库中。
[0014]作为优选地,所述可疑的检测分析结果是指文件的检测等级为低危、中危以及高危的文件。
[0015]作为优选地,所述阈值上限是指分布式集群存储总量占磁盘存储空间的85%,阈值下限是指分布式集群存储总量占磁盘存储空间的75%。
[0016]本专利技术的有益效果:(1)本专利技术通过对全量文件存储到Fas本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式网络小文件存储管理方法,其特征在于,包括海量网络小文件存储步骤、海量网络小文件检测及恶意小文件存储步骤和海量网络小文件清理步骤;所述海量网络小文件存储步骤,流量探针设备将各安全域间的流量所产生的文件还原并上传至智能分析检测平台,所述智能分析检测平台包括文件检测模块以及部署在客户网络中的kafka集群,所述智能分析检测平台将文件统一存储至kafka集群中;文件消费服务从kafka集群消费文件内容,并将所有小文件统一存储到FastDFS集群全量库中,其中,文件真实的存储FileID存储到ElasticSearch的md5

path索引中,文件真实的存储块信息存储至MySQL的fastdfs

trunk

info表中;所述海量网络小文件检测及恶意小文件存储步骤,文件检测模块从md5

path索引中提取最新出现且未被检测的文件进行分析,分析完成后将检测分析结果存储到ElasticSearch的md5

libs索引中,并将md5

path索引中对应的md5值状态修改为完成分析;文件检测模块针对可疑的检测分析结果,对原始文件进行提取,并将文件重新存储至FastDFS持久库中,根据该文件的MD5值更新md5

path索引中对应的文件存储类型、存储块信息和文件存储时的FileID字段信息;所述海量网络小文件清理步骤,分布式存储节点监听服务每小时向文件清理服务上报当前磁盘的存储信息和FastDFS集群全量库及持久库的存储信息,文件清理服务统计各分布式节点存储信息;当整个分布式集群存储总量达到阈值上限时,文件清理服务启动清理任务,从fastdfs

trunk

info表中根据更新时间提取最早且未被清理的全量库中的记录,并下发文件清除指令至各个分布式存储节点,同时将fastdfs

trunk

info表中对应记录状态标记为删除中;各监听服务接收指令后启动文件清理工作,根据块文件存储路径按块文件删除,删除完成后反馈文件清理服务当前节点清理完成;当所有分布式存储节点上的文件清除指令执行完成后,文件存储服务将fastdfs

trunk

info表中...

【专利技术属性】
技术研发人员:田红伟徐文勇杨俊萍
申请(专利权)人:成都数默科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1