分布式存储环境的认知文件和对象管理制造技术

技术编号:23563881 阅读:35 留言:0更新日期:2020-03-25 08:18
一种方法包括在接收到对存储到分布式文件系统的中央群集的多个文件的查询之前,使用过滤器过滤所述多个文件,以将所述多个文件的独立部分放入多个组中。所述多个组中的每个组中的文件有共同的可搜索特征。该方法还包括在中央群集处接收所述查询的指示。此外,该方法还包括通过将所述多个组中的与所述查询相对应的一个或多个组的文件复制到分布式文件系统的提供所述查询的指示并且在地理上与中央群集不同的本地群集,来响应所述查询。

Cognitive file and object management in distributed storage environment

【技术实现步骤摘要】
【国外来华专利技术】分布式存储环境的认知文件和对象管理
技术介绍
本专利技术涉及分布式存储环境,更具体地说,涉及使用认知技术的分布式存储环境中的文件和对象管理。中央分布式群集文件系统能够为存储在分布式文件系统中的所有文件和/或对象提供全局命名空间。实际上,这样的系统作为一个全局数据存储库运行,能够包含大量的数据存储容量,并且可以跨不同的存储类分层。这样的系统包括中央数据存储库群集,以及比中央数据存储库小的多个本地群集。每个本地群集,也称为高速缓存群集,包括一个或多个存储类的多个存储设备,并且可以利用广域网(WAN)高速缓存技术,在本地群集的高速缓存中高速缓存存储到分布式文件系统的部分数据。通常,广域网高速缓存用于更有效地提供本地群集上的用户经常访问的数据。这样,在本地群集上执行的查询和/或分析操作将针对本地群集运行。由于数据存储需求和数据同步成本较高,在每个本地群集和中央群集上存储所有数据是不切实际的。因此,中央集群通常用于存储数据的全局副本,各种本地集群可以从中检索数据以进行查询和/或分析操作。在这种典型的使用模型中,数据是在可能在地理上分布在分布式文件系统的物理覆盖范围内的各种本地群集中接收和提取的。从各种本地群集摄取的数据随后被复制到中央群集,作为全局副本被存储。在替代的使用模型中,中央群集可以用作数据存储库,多个本地群集可以利用作为只读实例存储到中央存储库的数据,以更快地访问数据。在这两种使用模式中,远程访问存储到中央群集的数据的延迟都高于分布式文件系统用户期望的延迟,除非数据也存储在用户试图访问的本地群集上。这导致分布式文件系统访问性能的波动。此外,大数据分析可能需要扫描存储在全局数据存储库中的很大一部分(或全部)数据。这可能太过于消费资源,以至于无法直接在全局数据存储库上执行所有查询,因此可以在控制器以外的能通过将全局数据存储库中的所有数据复制到另一个设备来访问全局数据存储库的设备上执行查询。在某些情况下,运行分析操作后,从该另一个设备删除所复制的数据,这就要求在执行后续的分析操作时要再次从全局数据存储库复制所有数据。在其他情况下,可以将所复制的数据缓存起来,这就需要在该另一个设备上有大量的本地存储。在任何一种情况下,所复制的数据都包括全局数据存储库中的所有数据,这是因为没有任何智能确定在分析操作中要使用哪些数据,以及不要复制全局数据存储库上的哪些数据可。此外,并非所有复制的数据都可以用于分析操作,而只是在处理查询时丢弃,从而浪费诸如网络带宽、处理带宽、内存容量、时间等大量资源。或者,当全局数据存储库中有足够的处理能力来处理所有查询时,仍然可以缓存数据(即,将数据复制并保存在全局数据存储库的本地内存中),以加快查询处理。以这种方式执行查询的资源成本,与复制数据以在另一台设备上执行查询相似。
技术实现思路
在一个一般实施例中,一种方法包括在接收到对存储到分布式文件系统的中央群集的多个文件的查询之前,使用过滤器过滤所述多个文件,以将所述多个文件的独立部分放入多个组中。所述多个组中的每个组中的文件都有一个共同的可搜索特征。该方法还包括在中央群集接收查询指示。此外,该方法包括通过将该多个组中与该查询相对应的一个或多个组的文件复制到提供该查询的指示并且在地理上与中央群集不同的分布式文件系统的本地群集来响应查询。在另一个一般实施例中,一种计算机程序产品包括其中体现有程序指令的计算机程序产品。计算机可读存储介质本身不是暂时性信号,并且所体现的程序指令可由处理电路执行以使处理电路可读存储介质。计算机可读存储介质本身不是暂时性信号,并且所体现的程序指令可由处理电路执行以使处理电路通过处理电路在接收到对存储到分布式文件系统的中央群集的多个文件的查询之前,使用过滤器过滤所述多个文件,以将所述多个文件的独立部分放入多个组中。所述多个组中的每个组中的文件都有一个共同的可搜索特征。此外,所体现的程序指令可由处理电路执行,以使处理电路通过中央群集处的处理电路接收该查询的指示。此外,所体现的程序指令可由所述处理电路执行以使所述处理电路通过将与所述查询相对应的所述多个组中的一个或多个组的文件复制到提供所述查询的指示并且在地理上与中央群集不同的分布式文件系统的本地群集,由所述处理电路来响应所述查询。在另一个一般实施例中,一种系统包括处理电路、存储器和存储到存储器的逻辑,其在被处理电路执行时使处理电路在接收到对存储到分布式文件系统的中央群集的多个文件的查询之前,使用过滤器过滤所述多个文件,以将所述多个文件的独立部分放入多个组中,其中所述多个组中的每个组中的文件有共同的可搜索特征。该逻辑被处理电路执行时还使处理电路在中央群集处接收所述查询的指示。此外,该逻辑被处理电路执行时还使处理电路将与所述查询相对应的所述多个组中的一个或多个组的文件复制到提供所述查询的指示分布式文件系统的本地群集,来响应所述查询。按照另一个一般实施例,一种方法包括在分布式文件系统的中央群集处从一个或多个源接收多个文件,所述多个文件包括文本和非结构化数据。该方法还包括将所述多个文件存储到中央群集和在中央群集上将非结构化数据转换为文本。此外,该方法还包括在接收到对所述多个文件的查询之前,使用过滤器过滤所述多个文件,以将所述多个文件的独立部分放入多个组中。所述多个组中的每个组中的文件有共同的可搜索特征,并且,将所述过滤器应用到从非结构化数据转换后的所述文件的文本。按照另一个一般实施例,一种方法包括在向分布式文件系统的中央群集发送查询的指示之前,在分布式文件系统的本地群集中搜索与所述查询相关的文件。该方法还包括响应于对所述相关的文件未存储到本地群集的确定,向中央群集发送所述查询的指示。该方法还包括在本地群集接收与所述查询相关的一组文件。此外,该方法还包括对该组文件执行所述查询,但条件是该组文件不包括存储到中央群集的所有文件。此外,该方法还包括根据高速缓存移出策略,将该组文件在本地群集上存储从最后一次访问该组文件起的预定的一段时间。通过以下详细描述,本专利技术的其他方面和实施例将变得显而易见。以下详细描述结合附图举例示出了本专利技术的原理。附图说明图1描绘了根据本专利技术实施例的云计算节点。图2描绘了根据本专利技术实施例的云计算环境。图3描绘了根据本专利技术实施例的抽象模型层。图4示出了根据一个实施例的分层数据存储系统。图5A-5C示出了根据一个实施例的为有效查询处理而过滤和分组数据的几个阶段期间的分布式系统。图6示出了在示例性分布式系统中用于有效查询处理的数据过滤和分组。图7示出了根据一个实施例的方法的流程图。图8示出了根据一个实施例的方法的流程图。具体实施方式下面的描述是为了说明本专利技术的一般原理,并不意味着限制这里要求保护的专利技术构思。此外,本文描述的特定特征,可以与其它描述的特征结合在各种可能的组合和排列中。除非本文另有明确定义,否则所有术语均应给出其尽可能广泛的解释,包括说明书中隐含的含义以及本领域技术人员明了的和/或词典、论文等中定义的含义。还必须注意,如在说明书本文档来自技高网
...

【技术保护点】
1.一种方法,包括:/n在接收到对存储到分布式文件系统的中央群集的多个文件的查询之前,使用过滤器过滤所述多个文件,以将所述多个文件的独立部分放入多个组中,其中所述多个组中的每个组中的文件有共同的可搜索特征;/n在中央群集处接收所述查询的指示;以及/n通过将与所述查询相对应的所述多个组中的一个或多个组的文件复制到提供所述查询的指示并且在地理上与中央群集不同的分布式文件系统的本地群集,来响应所述查询。/n

【技术特征摘要】
【国外来华专利技术】20170726 US 15/660,7151.一种方法,包括:
在接收到对存储到分布式文件系统的中央群集的多个文件的查询之前,使用过滤器过滤所述多个文件,以将所述多个文件的独立部分放入多个组中,其中所述多个组中的每个组中的文件有共同的可搜索特征;
在中央群集处接收所述查询的指示;以及
通过将与所述查询相对应的所述多个组中的一个或多个组的文件复制到提供所述查询的指示并且在地理上与中央群集不同的分布式文件系统的本地群集,来响应所述查询。


2.如权利要求1所述的方法,包括:
在中央群集处从一个或多个源接收所述多个文件,所述多个文件包括文本和非结构化数据;
将所述多个文件存储到中央群集;以及
在中央群集上将非结构化数据转换为文本,
其中,将所述过滤器应用到从非结构化数据转换后的所述文件的文本。


3.如权利要求1所述的方法,包括:
基于一个或多个因素生成所述过滤器,以创建其中包括在中央群集接收的查询中通常请求的文件的多个组,所述因素是从包括以下的一组因素中选择的:与一个或多个文件相关联的日期;与一个或多个文件相关联的一个或多个用户;一个或多个文件的选定内容和/或一个或多个关键字;以及与一个或多个文件关联的地理位置。


4.如权利要求3所述的方法,包括:
随着时间的推移而调整过滤器,以将在中央群集接收的查询中通常请求的文件组合在一起。


5.如权利要求3所述的方法,其中,生成所述过滤器以使特定组内的文件与一个或多个接收的查询相关的可能性最大化。


6.如权利要求1所述的方法,包括:
针对对存储到中央群集的所述多个文件的更改而更新所述多个组,其中,基于预定时间表定期地、以后台操作的方式连续地或响应于触发事件而更新所述多个组,并且其中,更新所述多个组包括从包括以下的一组操作中选择的操作:删除一个或多个组、添加一个或多个组、将一个或多个文件添加到特定组以及从特定组删除一个或多个文件。


7.如权利要求6所述的方法,其中所述触发事件是从包括以下的一组中选择的:删除中央群集上现有文件、向中央群集添加新文件、向中央群集添加新文件类型以及更新中央群集的文本转换过程。


8.一种计算机程序产品,所述计算机程序产品包括其中体现有程序指令的计算机可读存储介质,其中所述计算机可读存储介质本身不是暂时性信号,并且所体现的程序指令可由处理电路执行以使处理电路:
由处理电路在接收到对存储到分布式文件系统的中央群集的多个文件的查询之前,使用过滤器过滤所述多个文件,以将所述多个文件的独立部分放入多个组中,其中所述多个组中的每个组中的文件有共同的可搜索特征;
在中央群集处由处理电路接收所述查询的指示;以及
由处理器通过将与所述查询相对应的所述多个组中的一个或多个组的文件复制到提供所述查询的指示并且在地理上与中央群集不同的分布式文件系统的本地群集,来响应所述查询。


9.如权利要求8所述的计算机程序产品,其中,所体现的程序指令还可由处理电路执行以使处理电路:
由处理电路在中央群集处从一个或多个源接收中央群集所述多个文件,所述多个文件包括文本和非结构化数据;
由处理电路将所述多个文件存储到中央群集;以及
由处理电路在中央群集上将非结构化数据转换为中央群集文本,
其中,将所述过滤器应用到从非结构化数据转换后的所述文件的文本。


10.如权利要求8所述的计算机程序产品,其中,所体现的程序指令还可由处理电路执行以使处理电路:
由处理电路基于一个或多个因素生成所述过滤器,以创建其中包括在中央群集接收的查询中通常请求的文件的多个组,所述因素是从包括以下的一组因素中选择的:与一个或多个文件相关联的日期;与一个或多个文件相关联的一个或多个用户;一个或多个文件的选定内容和/或一个或多个关键字;以及与一个或多个文件关联的地理位置。


11.如权利要求10所述的计算机程序产品,其中,生成所述过滤器以使特定组内的文件与一个或多个接收的查询相关的可能性最大化。


12.如权利要求10所述的计算机程序产品,其中,所体现的程序指令还可由处理电路执行以使处理电路:
由处理电路随着时间的推移而调整过滤器,以将在中央群集接收的查询中通常请求的文件组合在一起。


13.如权利要求8所述的计算机程序产品,其中,所体现的程序指令还可由处理电路执行以使处理电路:
由处理电路针对对存储到中央群集的所述多个文件的更改而更新所述多个组,其中,所体现的使处理电路更新所述多个组的程序指令进一步使处理电路执行从包括以下的一组操作中选择的操作:删除一个或多个组、添加一个或多个组、将一个或多个文件添加到特定组以及从特定组删除一个或...

【专利技术属性】
技术研发人员:S巴拉钱德兰张睿
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1