【技术实现步骤摘要】
【国外来华专利技术】分布式存储环境的认知文件和对象管理
技术介绍
本专利技术涉及分布式存储环境,更具体地说,涉及使用认知技术的分布式存储环境中的文件和对象管理。中央分布式群集文件系统能够为存储在分布式文件系统中的所有文件和/或对象提供全局命名空间。实际上,这样的系统作为一个全局数据存储库运行,能够包含大量的数据存储容量,并且可以跨不同的存储类分层。这样的系统包括中央数据存储库群集,以及比中央数据存储库小的多个本地群集。每个本地群集,也称为高速缓存群集,包括一个或多个存储类的多个存储设备,并且可以利用广域网(WAN)高速缓存技术,在本地群集的高速缓存中高速缓存存储到分布式文件系统的部分数据。通常,广域网高速缓存用于更有效地提供本地群集上的用户经常访问的数据。这样,在本地群集上执行的查询和/或分析操作将针对本地群集运行。由于数据存储需求和数据同步成本较高,在每个本地群集和中央群集上存储所有数据是不切实际的。因此,中央集群通常用于存储数据的全局副本,各种本地集群可以从中检索数据以进行查询和/或分析操作。在这种典型的使用模型中,数据是在可能在地理上分布在分布式文件系统的物理覆盖范围内的各种本地群集中接收和提取的。从各种本地群集摄取的数据随后被复制到中央群集,作为全局副本被存储。在替代的使用模型中,中央群集可以用作数据存储库,多个本地群集可以利用作为只读实例存储到中央存储库的数据,以更快地访问数据。在这两种使用模式中,远程访问存储到中央群集的数据的延迟都高于分布式文件系统用户期望的延迟,除非数据也存储在用户试图访问的本地群集上。这导致分布式文件系统访问 ...
【技术保护点】
1.一种方法,包括:/n在接收到对存储到分布式文件系统的中央群集的多个文件的查询之前,使用过滤器过滤所述多个文件,以将所述多个文件的独立部分放入多个组中,其中所述多个组中的每个组中的文件有共同的可搜索特征;/n在中央群集处接收所述查询的指示;以及/n通过将与所述查询相对应的所述多个组中的一个或多个组的文件复制到提供所述查询的指示并且在地理上与中央群集不同的分布式文件系统的本地群集,来响应所述查询。/n
【技术特征摘要】
【国外来华专利技术】20170726 US 15/660,7151.一种方法,包括:
在接收到对存储到分布式文件系统的中央群集的多个文件的查询之前,使用过滤器过滤所述多个文件,以将所述多个文件的独立部分放入多个组中,其中所述多个组中的每个组中的文件有共同的可搜索特征;
在中央群集处接收所述查询的指示;以及
通过将与所述查询相对应的所述多个组中的一个或多个组的文件复制到提供所述查询的指示并且在地理上与中央群集不同的分布式文件系统的本地群集,来响应所述查询。
2.如权利要求1所述的方法,包括:
在中央群集处从一个或多个源接收所述多个文件,所述多个文件包括文本和非结构化数据;
将所述多个文件存储到中央群集;以及
在中央群集上将非结构化数据转换为文本,
其中,将所述过滤器应用到从非结构化数据转换后的所述文件的文本。
3.如权利要求1所述的方法,包括:
基于一个或多个因素生成所述过滤器,以创建其中包括在中央群集接收的查询中通常请求的文件的多个组,所述因素是从包括以下的一组因素中选择的:与一个或多个文件相关联的日期;与一个或多个文件相关联的一个或多个用户;一个或多个文件的选定内容和/或一个或多个关键字;以及与一个或多个文件关联的地理位置。
4.如权利要求3所述的方法,包括:
随着时间的推移而调整过滤器,以将在中央群集接收的查询中通常请求的文件组合在一起。
5.如权利要求3所述的方法,其中,生成所述过滤器以使特定组内的文件与一个或多个接收的查询相关的可能性最大化。
6.如权利要求1所述的方法,包括:
针对对存储到中央群集的所述多个文件的更改而更新所述多个组,其中,基于预定时间表定期地、以后台操作的方式连续地或响应于触发事件而更新所述多个组,并且其中,更新所述多个组包括从包括以下的一组操作中选择的操作:删除一个或多个组、添加一个或多个组、将一个或多个文件添加到特定组以及从特定组删除一个或多个文件。
7.如权利要求6所述的方法,其中所述触发事件是从包括以下的一组中选择的:删除中央群集上现有文件、向中央群集添加新文件、向中央群集添加新文件类型以及更新中央群集的文本转换过程。
8.一种计算机程序产品,所述计算机程序产品包括其中体现有程序指令的计算机可读存储介质,其中所述计算机可读存储介质本身不是暂时性信号,并且所体现的程序指令可由处理电路执行以使处理电路:
由处理电路在接收到对存储到分布式文件系统的中央群集的多个文件的查询之前,使用过滤器过滤所述多个文件,以将所述多个文件的独立部分放入多个组中,其中所述多个组中的每个组中的文件有共同的可搜索特征;
在中央群集处由处理电路接收所述查询的指示;以及
由处理器通过将与所述查询相对应的所述多个组中的一个或多个组的文件复制到提供所述查询的指示并且在地理上与中央群集不同的分布式文件系统的本地群集,来响应所述查询。
9.如权利要求8所述的计算机程序产品,其中,所体现的程序指令还可由处理电路执行以使处理电路:
由处理电路在中央群集处从一个或多个源接收中央群集所述多个文件,所述多个文件包括文本和非结构化数据;
由处理电路将所述多个文件存储到中央群集;以及
由处理电路在中央群集上将非结构化数据转换为中央群集文本,
其中,将所述过滤器应用到从非结构化数据转换后的所述文件的文本。
10.如权利要求8所述的计算机程序产品,其中,所体现的程序指令还可由处理电路执行以使处理电路:
由处理电路基于一个或多个因素生成所述过滤器,以创建其中包括在中央群集接收的查询中通常请求的文件的多个组,所述因素是从包括以下的一组因素中选择的:与一个或多个文件相关联的日期;与一个或多个文件相关联的一个或多个用户;一个或多个文件的选定内容和/或一个或多个关键字;以及与一个或多个文件关联的地理位置。
11.如权利要求10所述的计算机程序产品,其中,生成所述过滤器以使特定组内的文件与一个或多个接收的查询相关的可能性最大化。
12.如权利要求10所述的计算机程序产品,其中,所体现的程序指令还可由处理电路执行以使处理电路:
由处理电路随着时间的推移而调整过滤器,以将在中央群集接收的查询中通常请求的文件组合在一起。
13.如权利要求8所述的计算机程序产品,其中,所体现的程序指令还可由处理电路执行以使处理电路:
由处理电路针对对存储到中央群集的所述多个文件的更改而更新所述多个组,其中,所体现的使处理电路更新所述多个组的程序指令进一步使处理电路执行从包括以下的一组操作中选择的操作:删除一个或多个组、添加一个或多个组、将一个或多个文件添加到特定组以及从特定组删除一个或...
【专利技术属性】
技术研发人员:S巴拉钱德兰,张睿,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。