【技术实现步骤摘要】
基于分布式的工业海量小文件的存储方法及系统
[0001]本申请实施例涉及数据存储
,特别涉及一种基于分布式的工业海量小文件的存储方法及系统。
技术介绍
[0002]目前的分布式存储系统通常采用基于一致性Hash算法的分布式文件存储系统,该系统根据数据块的某个或某些特征值,通过Hash函数等机制映射出实际存放的存储节点,因此在该系统中不需要中心节点进行系统管理。无中心的分布式文件系统不存在中心节点,避免了单点故障。在一般情况下,Hash函数取值呈均衡分布,各节点间负载均衡。同时每次查询数据位置时,只要通过计算就能确定存储节点,不存在单节点查询的性能瓶颈,可扩展性好。因此,在集群规模较大、I/O请求密集的情况下,无中心的分布式文件系统能够在保证可靠性的同时,表现出更加优秀的性能,正被越来越多的分布式文件系统所采用。在Swift,Gluster等存储系统中,均采用这类系统结构。
[0003]然而,无元数据服务器的存储系统,在应用于海量小文件时,数据一致问题更加复杂,文件目录遍历操作效率低下,缺乏全局监控管理功能。尤其 ...
【技术保护点】
【技术特征摘要】
1.一种基于分布式的工业海量小文件的存储方法,其特征在于,包括:根据文件语义信息,获取所述文件对应的文件库标识码;基于所述文件库标识码,获取当前文件库的文件放置规则;基于所述文件的文件名,获取与所述文件名对应的虚拟节点以及虚拟节点标识码;基于所述虚拟节点标识码、所述文件库标识码以及所述文件放置规则,获取指定副本数量的存储设备的集合以及文件在所述存储设备中的存放目录。2.根据权利要求1所述的基于分布式的工业海量小文件的存储方法,其特征在于,所述基于所述虚拟节点标识码、所述文件库标识码以及所述文件放置规则,获取指定副本数量的存储设备的集合以及文件在所述存储设备中的存放目录,包括:基于所述文件放置规则,获取与所述文件放置规则对应的文件库标识码以及副本数量;基于所述文件库标识码,获取与所述文件库标识码对应的静态拓扑图、伪随机选择算法以及副本数量;基于所述虚拟节点标识码、所述副本数量以及所述伪随机选择算法,计算并获取指定副本数量的存储设备的集合;基于所述文件名以及所述文件语义信息,获取文件在所述存储设备中的存放目录。3.根据权利要求2所述的基于分布式的工业海量小文件的存储方法,其特征在于,所述伪随机选择算法为抽签算法,公式如下所示:length=f(wi)*hash(PG
ID
,r,bucket_id)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,length为存储设备对应的长度,wi是存储设备的权重,f(wi)是存储设备的权重wi的函数,PG
ID
为虚拟节点的唯一标识,r为副本的数量,bucket_id为文件库标识码。4.根据权利要求2所述的基于分布式的工业海量小文件的存储方法,其特征在于,所述文件库包含多种类...
【专利技术属性】
技术研发人员:王黎明,田隆,张紫越,刘鹤辉,李国志,
申请(专利权)人:南京认知物联网研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。