【技术实现步骤摘要】
一种分布式网络小文件存储管理方法
[0001]本专利技术涉及互联网
,尤其涉及网络安全领域,更具体的说,涉及一种分布式网络小文件存储管理方法。
技术介绍
[0002]随着互联网技术的迅速发展,产生的信息呈爆炸式增长,传统的文件系统难以满足海量文件对于动态扩展、高效访问的需求。尤其是对于半结构化数据或非结构化数据而言,此类数据的占用空间通常比结构化数据大,对存储系统的要求更高,此外,在一些应用场景中需要从灵活多变的多个维度快速对半结构化数据或非结构化数据进行搜索,这对搜索引擎也提出了要求。
[0003]目前,现有的方案主要采用以下两种方式来对小文件进行存储:1)将小文件聚合成大文件进行存储;2)利用第三方中间件来进行小文件存储,如FASTDFS,MINIO,HDFS等。
[0004]以上方案可以实现海量小文件的实时存储,但存储到分布式系统中的小文件清理,只能通过提前标记,要么等整块文件都标记删除后,再将整块文件删除;要么采用复制的方法,将标记块中不需要删除的文件复制出来存入新文件块中。以上方案在网络安全领域,每天会还原大量小文件,并且没法永久存储,需要进行大量文件的清理回滚,如果策略选择不合适会导致磁盘存储浪费,磁盘性能及效率下降。
[0005]例如公开号CN111782595A,公开日为2020年10月16日,专利技术名称为“海量文件管理方法、装置、计算机设备和可读存储介质”的专利技术专利申请,以及公开号为CN105701156A,公开日为2016年06月22日,专利技术名称为“一种分布 ...
【技术保护点】
【技术特征摘要】
1.一种分布式网络小文件存储管理方法,其特征在于,包括海量网络小文件存储步骤、海量网络小文件检测及恶意小文件存储步骤和海量网络小文件清理步骤;所述海量网络小文件存储步骤,流量探针设备将各安全域间的流量所产生的文件还原并上传至智能分析检测平台,所述智能分析检测平台包括文件检测模块以及部署在客户网络中的kafka集群,所述智能分析检测平台将文件统一存储至kafka集群中;文件消费服务从kafka集群消费文件内容,并将所有小文件统一存储到FastDFS集群全量库中,其中,文件真实的存储FileID存储到ElasticSearch的md5
‑
path索引中,文件真实的存储块信息存储至MySQL的fastdfs
‑
trunk
‑
info表中;所述海量网络小文件检测及恶意小文件存储步骤,文件检测模块从md5
‑
path索引中提取最新出现且未被检测的文件进行分析,分析完成后将检测分析结果存储到ElasticSearch的md5
‑
libs索引中,并将md5
‑
path索引中对应的md5值状态修改为完成分析;文件检测模块针对可疑的检测分析结果,对原始文件进行提取,并将文件重新存储至FastDFS持久库中,根据该文件的MD5值更新md5
‑
path索引中对应的文件存储类型、存储块信息和文件存储时的FileID字段信息;所述海量网络小文件清理步骤,分布式存储节点监听服务每小时向文件清理服务上报当前磁盘的存储信息和FastDFS集群全量库及持久库的存储信息,文件清理服务统计各分布式节点存储信息;当整个分布式集群存储总量达到阈值上限时,文件清理服务启动清理任务,从fastdfs
‑
trunk
‑
info表中根据更新时间提取最早且未被清理的全量库中的记录,并下发文件清除指令至各个分布式存储节点,同时将fastdfs
‑
trunk
‑
info表中对应记录状态标记为删除中;各监听服务接收指令后启动文件清理工作,根据块文件存储路径按块文件删除,删除完成后反馈文件清理服务当前节点清理完成;当所有分布式存储节点上的文件清除指令执行完成后,文件存储服务将fastdfs
‑
trunk
‑
info表中...
【专利技术属性】
技术研发人员:田红伟,徐文勇,杨俊萍,
申请(专利权)人:成都数默科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。