用于存储环境的认知数据过滤制造技术

技术编号:23563884 阅读:22 留言:0更新日期:2020-03-25 08:19
一种用于在存储环境中对数据进行认知过滤的方法,包括基于一个或多个因素生成多个认知数据过滤器以创建多个组。该方法还包括在接收到对全局数据存储库的查询之前,使用所述多个认知数据过滤器对全局数据存储库接收到的数据进行认知过滤,以将所述数据的独立部分置于所述多个组中。所述多个组中的每个组中的数据具有共同的可定义特征。

Cognitive data filtering for storage environment

【技术实现步骤摘要】
【国外来华专利技术】用于存储环境的认知数据过滤
技术介绍
本专利技术涉及数据过滤,更具体地说,涉及用于存储环境的认知数据过滤。存储海量数据的大型文件系统,如中央分布式群集文件系统,能够向所有授权用户提供对文件系统中存储的所有文件和/或对象的访问。当用户想要访问文件系统上的数据时,通常会向控制器或存储管理器发送一个查询,并要确定全局数据存储库中的哪些数据适合用于响应这样的查询。但是,扫描或搜索存储到全局数据存储库中的海量数据的任务是资源密集型的,会导致对此类查询的响应延迟,同时会增加文件系统用于其他查询和操作时的延迟。此外,大数据分析可能需要扫描存储在全局数据存储库中的很大一部分(或全部)数据。这可能太过于消费资源,以至于无法直接在全局数据存储库上执行所有查询,因此可以在控制器以外的能通过将全局数据存储库中的所有数据复制到另一个设备来访问全局数据存储库的设备上执行查询。在某些情况下,运行分析操作后,从该另一个设备删除所复制的数据,这就要求在执行后续的分析操作时要再次从全局数据存储库复制所有数据。在其他情况下,可以将所复制的数据缓存起来,这就需要在该另一个设备上有大量的本地存储。在任何一种情况下,所复制的数据都包括全局数据存储库中的所有数据,这是因为没有任何智能确定在分析操作中要使用哪些数据,以及不要复制全局数据存储库上的哪些数据可。此外,并非所有复制的数据都可以用于分析操作,而只是在处理查询时丢弃,从而浪费诸如网络带宽、处理带宽、内存容量、时间等大量资源。或者,当全局数据存储库中有足够的处理能力来处理所有查询时,仍然可以缓存数据(即,将数据复制并保存在全局数据存储库的本地内存中),以加快查询处理。以这种方式执行查询的资源成本,与复制数据以在另一台设备上执行查询相似。
技术实现思路
在一个实施例中,一种方法包括基于一个或多个因素生成多个认知数据过滤器以创建多个组,以及在接收到对全局数据存储库的查询之前,使用所述多个认知数据过滤器对全局数据存储库接收到的数据进行认知过滤,以将所述数据的独立部分置于所述多个组中。所述多个组中的每个组中的数据具有共同的可定义特征。在另一个实施例中,一种计算机程序产品包括其中体现有程序指令的计算机可读存储介质,其中所述计算机可读存储介质本身不是暂时性信号,所体现的程序指令可由处理电路执行以使处理电路由处理电路基于一个或多个因素生成多个认知数据过滤器以创建多个组。此外,所体现的程序指令可由处理电路执行以使处理电路由处理电路在接收到对全局数据存储库的查询之前,使用所述多个认知数据过滤器对全局数据存储库接收到的数据进行认知过滤,以将所述数据的独立部分置于所述多个组中。所述多个组中的每个组中的数据具有共同的可定义特征。在另一个实施例中,一种系统包括处理电路、存储器、以及存储到存储器的逻辑,该逻辑在被处理电路执行时使处理电路基于一个或多个因素生成多个认知数据过滤器以创建多个组。此外,该逻辑还使处理电路在接收到对全局数据存储库的查询之前,使用所述多个认知数据过滤器对全局数据存储库接收到的数据进行认知过滤,以将所述数据的独立部分置于所述多个组中。所述多个组中的每个组中的数据具有共同的可定义特征。在另一个实施例中,一种方法包括在全局数据存储库从一个或多个数据源接收数据。所述数据包括文本和非结构化数据。该方法还包括将所述数据存储到全局数据存储库和将非结构化数据转换为基于文本的数据。此外,该方法还包括在全局数据存储库上存储基于文本的数据和基于一个或多个因素生成多个认知数据过滤器以创建多个组。所述因素包括一个或多个关键字。该方法还包括在接收到对全局数据存储库的查询之前,使用所述多个认知数据过滤器对全局数据存储库接收到的数据进行认知过滤,以将所述数据的独立部分置于所述多个组中。所述多个组中的每个组中的数据具有共同的可定义特征,并且将所述多个认知数据过滤器应用于从非结构化数据转换后的基于文本的数据。此外,该方法还包括在全局数据存储库接收所述查询的指示和确定并预取所述多个组中与所述查询对应的至少一个组。此外,该方法还包括通过将所述至少一个组中的数据复制到提供所述查询的指示的请求设备来响应所述查询和接收关于所述查询提供给请求设备的所述至少一个组中的数据的使用的指示。此外,该方法还包括随着时间的推移而调整所述多个认知数据过滤器以提高针对提供给请求设备的所述至少一个组中的数据的使用而度量的多个认知数据过滤器的有效性。所述多个认知数据过滤器的有效性基于以下的每一项:提供给请求设备的所述一个或多个组中实际被所述查询利用的数据部分,以及所述至少一个组内所提供的存储到请求设备的可用于所述查询的所有数据的百分比。通过以下详细描述,本专利技术的其他方面和实施例将变得显而易见。以下详细描述结合附图举例示出了本专利技术的原理。附图说明图1描绘了根据本专利技术实施例的云计算节点。图2描绘了根据本专利技术实施例的云计算环境。图3描绘了根据本专利技术实施例的抽象模型层。图4示出了根据一个实施例的分层数据存储系统。图5A-5C示出了根据一个实施例的为有效查询处理而过滤和分组数据的几个阶段期间的分布式系统。图6示出了在示例性分布式系统中用于有效查询处理的数据过滤和分组。图7示出了根据一个实施例的方法的流程图。图8示出了根据一个实施例的方法的流程图。具体实施方式下面的描述是为了说明本专利技术的一般原理,并不意味着限制这里要求保护的专利技术构思。此外,本文描述的特定特征,可以与其它描述的特征结合在各种可能的组合和排列中。除非本文另有明确定义,否则所有术语均应给出其尽可能广泛的解释,包括说明书中隐含的含义以及本领域技术人员明了的和/或词典、论文等中定义的含义。还必须注意,如在说明书和所附权利要求中所使用的,除非另有规定,否则单数形式“一”、“一个”和“该”包括复数指称。应进一步理解,术语“包含”和/或“包括”在本说明书中使用时,规定了所述特征、整数、步骤、操作、元素和/或组件的存在,但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组合。本文中使用的术语“约”表示以术语“约”为前导的值,以及与以术语“约”为前导的值如本领域技术人员所理解的那样合理地接近的任何值。如果未另行说明,则术语“约”表示以术语“约”为前导的值±10%的该值。例如,“约10”表示所有从9.0到11.0的值。以下描述公开了用于在存储环境中对文件和对象进行认知过滤的系统、方法和计算机程序产品的若干优选实施例。在一个一般性实施例中,一种方法包括基于一个或多个因素生成多个认知数据过滤器以创建多个组,以及在接收到对全局数据存储库的查询之前,使用所述多个认知数据过滤器对全局数据存储库接收到的数据进行认知过滤,以将所述数据的独立部分置于所述多个组中。所述多个组中的每个组中的数据具有共同的可定义特征。在另一个一般性实施例中,一种计算机程序产品包括其中体现有程序指令的计算机可读存储介质,其中所述计算机可读存储介质本身不是暂时性信号,所体现的程序指令可由处理电路执行以使处理电路由处理电路基本文档来自技高网
...

【技术保护点】
1.一种方法,包括:/n基于一个或多个因素生成多个认知数据过滤器以创建多个组;以及/n在接收到对全局数据存储库的查询之前,使用所述多个认知数据过滤器对全局数据存储库接收到的数据进行认知过滤,以将所述数据的独立部分置于所述多个组中,其中所述多个组中的每个组中的数据具有共同的可定义特征。/n

【技术特征摘要】
【国外来华专利技术】20170726 US 15/660,7331.一种方法,包括:
基于一个或多个因素生成多个认知数据过滤器以创建多个组;以及
在接收到对全局数据存储库的查询之前,使用所述多个认知数据过滤器对全局数据存储库接收到的数据进行认知过滤,以将所述数据的独立部分置于所述多个组中,其中所述多个组中的每个组中的数据具有共同的可定义特征。


2.如权利要求1所述的方法,还包括:
在全局数据存储库从一个或多个数据源接收数据,所述数据包括文本和非结构化数据;
将所述数据存储到全局数据存储库;
将非结构化数据转换为基于文本的数据;
在全局数据存储库上存储基于文本的数据,其中将所述多个认知数据过滤器应用于从非结构化数据转换后的基于文本的数据;
在全局数据存储库接收所述查询的指示;
确定并预取与所述查询对应的至少一个组;以及
通过将所述至少一个组中的数据复制到提供所述查询的指示的请求设备来响应所述查询。


3.如权利要求2所述的方法,还包括:
接收关于所述查询提供给请求设备的所述至少一个组中的数据的使用的指示,
其中,从以下组成的组中选择所述一个或多个因子:一个关键字、一组关键字、一个值、一组值、一个值范围和一组值范围。


4.如前述权利要求的任何之一所述的方法,还包括:
随着时间的推移而调整所述多个认知数据过滤器以提高多个认知数据过滤器的有效性,所述有效性是针对响应于从请求设备接收到所述查询的指示而提供给请求设备的一个或多个组中的数据的使用而度量的,
其中,所述多个认知数据过滤器的有效性基于以下的每一项:提供给请求设备的所述一个或多个组中实际被所述查询利用的数据部分,以及所述一个或多个组内所提供的存储到请求设备的可用于所述查询的所有数据的百分比。


5.如权利要求4所述的方法,其中所述多个认知数据过滤器的有效性FF(k)1是按照第一算法计算的,其中,FP(k)表示提供给请求设备的所述一个或多个组中实际被所述查询利用的数据部分,具有在包括0、1和以及0与1之间的所有值的范围内的第一值,并且其中,FR(k)表示所述一个或多个组内所提供的存储到请求设备的可用于所述查询的所有数据的百分比,具有所述范围内的第二值。


6.如权利要求4所述的方法,其中所述多个认知数据过滤器的有效性FF(k)2是按照第二算法FF(k)2=(2*FP(k)*FR(k))/(FP(k)+FR(k))计算的,其中,FR(k)表示提供给请求设备的所述一个或多个组中实际被所述查询利用的数据部分,具有在包括0、1和以及0与1之间的所有值的范围内的第一值,并且其中,FR(k)表示以及所述一个或多个组内所提供的存储到请求设备的可用于所述查询的所有数据的百分比,具有所述范围内的第二值。


7.如权利要求1所述的方法,还包括:
针对对存储到中央群集的所述多个文件的更改而更新所述多个组,其中,基于预定时间表定期地、以后台操作的方式连续地或响应于触发事件而更新所述多个组,并且其中,更新所述多个组包括从包括以下的一组操作中选择的操作:删除一个或多个组、添加一个或多个组、将一个或多个文件添加到特定组以及从特定组删除一个或多个文件。


8.如权利要求7所述的方法,其中所述触发事件是从包括以下的一组中选择的:删除中央群集上现有文件、向中央群集添加新文件、向中央群集添加新文件类型以及更新中央群集的文本转换过程。


9.一种计算机程序产品,包括其中体现有程序指令的计算机可读存储介质,其中所述计算机可读存储介质本身不是暂时性信号,并且所体现的程序指令可由处理电路执行以使处理电路:
由处理电路基于一个或多个因素生成多个认知数据过滤器以创建多个组;以及
由处理电路在接收到对全局数据存储库的查询之前,使用所述多个认知数据过滤器对全局数据存储库接收到的数据进行认知过滤,以将所述数据的独立部分置于所述多个组中,其中所述多个组中的每个组中的数据具有共同的可定义特征。


10.如权利要求9所述的计算机程序产品,其中,所体现的程序指令还可由处理电路执行以使处理电路:
由处理电路在全局数据存储库从一个或多个数据源接收数据,所述数据包括文本和非结构化数据;
由处理电路将所述数据存储到全局数据存储库;
由处理电路将非结构化数据转换为基于文本的数据;
由处理电路在全局数据存储库上存储基于文本的数据,其中将所述多个认知数据过滤器应用于从非结构化数据转换后的基于文本的数据;
由处理电路在全局数据存储库接收所述查询的指示;
由处理电路确定并预取与所述查询对应的至少一个组;以及
由处理电路通过将所述至少一个组中的数据复制到提供所述查询的指示的请求设备来响应所述查询。


11.如权利要求10所述的计算机程序产品,其中,所体现的程序指令还可由处理电路执行以使处理电路:
由处理电路接收关于所述查询提供给请求设备的所述至少一个组中的数据的使用的指示,
其中,从以下组成的组中选择所述一个或多个因子:一个关键字、一组关键字、一个值、一组值、一个值范围和一组值范围。


12.如权利要求9所述的计算机程序产品,其中,所体现的程序指令还可由处理电路执行以使处理电路:
由处理电路随着时间的推移而调整所述多个认知数据过滤器以提高多个认知数据过滤器的有效性,所述有效性是针对响应于从请求设备接收到所述查询的指示而提供给请求设备的一个或多个组中的数据的使用而度量的,
其中,所述多个认知数据过滤器的有效性基于以下的每一项:提供给请求设备的所述一个或多个组中实际被所述查询利用的数据部分,以及所述一个或多个组内所提供的存储到请求设备的可用于所述查询的所有数据的百分比。


13.如权利要求12所述的计算机程序产品,其中所述多个认知数据过滤器的有效性FF(k)1是按照第一算法计算的,其中,FP(k)表示提供给请求设备的所述一个或多个组中实际被所述查询利用的数据部分,具有在包括0、1和以及0与1之间的所有值的范围内的第一值,并且其中,FR(k)表示所述一个或多个组内所提供的存储到请求设备的可用于所述查询的所有数据的百分比,具有所述范围内的第二值。


14.如权利要求12所述的计算机程序产品...

【专利技术属性】
技术研发人员:S巴拉钱德兰张睿
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1