【技术实现步骤摘要】
【国外来华专利技术】用于存储环境的认知数据过滤
技术介绍
本专利技术涉及数据过滤,更具体地说,涉及用于存储环境的认知数据过滤。存储海量数据的大型文件系统,如中央分布式群集文件系统,能够向所有授权用户提供对文件系统中存储的所有文件和/或对象的访问。当用户想要访问文件系统上的数据时,通常会向控制器或存储管理器发送一个查询,并要确定全局数据存储库中的哪些数据适合用于响应这样的查询。但是,扫描或搜索存储到全局数据存储库中的海量数据的任务是资源密集型的,会导致对此类查询的响应延迟,同时会增加文件系统用于其他查询和操作时的延迟。此外,大数据分析可能需要扫描存储在全局数据存储库中的很大一部分(或全部)数据。这可能太过于消费资源,以至于无法直接在全局数据存储库上执行所有查询,因此可以在控制器以外的能通过将全局数据存储库中的所有数据复制到另一个设备来访问全局数据存储库的设备上执行查询。在某些情况下,运行分析操作后,从该另一个设备删除所复制的数据,这就要求在执行后续的分析操作时要再次从全局数据存储库复制所有数据。在其他情况下,可以将所复制的数据缓存起来,这就需要在该另一个设备上有大量的本地存储。在任何一种情况下,所复制的数据都包括全局数据存储库中的所有数据,这是因为没有任何智能确定在分析操作中要使用哪些数据,以及不要复制全局数据存储库上的哪些数据可。此外,并非所有复制的数据都可以用于分析操作,而只是在处理查询时丢弃,从而浪费诸如网络带宽、处理带宽、内存容量、时间等大量资源。或者,当全局数据存储库中有足够的处理能力来处理所有查询时,仍然可以缓存数据(即,将数据复制并保存在 ...
【技术保护点】
1.一种方法,包括:/n基于一个或多个因素生成多个认知数据过滤器以创建多个组;以及/n在接收到对全局数据存储库的查询之前,使用所述多个认知数据过滤器对全局数据存储库接收到的数据进行认知过滤,以将所述数据的独立部分置于所述多个组中,其中所述多个组中的每个组中的数据具有共同的可定义特征。/n
【技术特征摘要】
【国外来华专利技术】20170726 US 15/660,7331.一种方法,包括:
基于一个或多个因素生成多个认知数据过滤器以创建多个组;以及
在接收到对全局数据存储库的查询之前,使用所述多个认知数据过滤器对全局数据存储库接收到的数据进行认知过滤,以将所述数据的独立部分置于所述多个组中,其中所述多个组中的每个组中的数据具有共同的可定义特征。
2.如权利要求1所述的方法,还包括:
在全局数据存储库从一个或多个数据源接收数据,所述数据包括文本和非结构化数据;
将所述数据存储到全局数据存储库;
将非结构化数据转换为基于文本的数据;
在全局数据存储库上存储基于文本的数据,其中将所述多个认知数据过滤器应用于从非结构化数据转换后的基于文本的数据;
在全局数据存储库接收所述查询的指示;
确定并预取与所述查询对应的至少一个组;以及
通过将所述至少一个组中的数据复制到提供所述查询的指示的请求设备来响应所述查询。
3.如权利要求2所述的方法,还包括:
接收关于所述查询提供给请求设备的所述至少一个组中的数据的使用的指示,
其中,从以下组成的组中选择所述一个或多个因子:一个关键字、一组关键字、一个值、一组值、一个值范围和一组值范围。
4.如前述权利要求的任何之一所述的方法,还包括:
随着时间的推移而调整所述多个认知数据过滤器以提高多个认知数据过滤器的有效性,所述有效性是针对响应于从请求设备接收到所述查询的指示而提供给请求设备的一个或多个组中的数据的使用而度量的,
其中,所述多个认知数据过滤器的有效性基于以下的每一项:提供给请求设备的所述一个或多个组中实际被所述查询利用的数据部分,以及所述一个或多个组内所提供的存储到请求设备的可用于所述查询的所有数据的百分比。
5.如权利要求4所述的方法,其中所述多个认知数据过滤器的有效性FF(k)1是按照第一算法计算的,其中,FP(k)表示提供给请求设备的所述一个或多个组中实际被所述查询利用的数据部分,具有在包括0、1和以及0与1之间的所有值的范围内的第一值,并且其中,FR(k)表示所述一个或多个组内所提供的存储到请求设备的可用于所述查询的所有数据的百分比,具有所述范围内的第二值。
6.如权利要求4所述的方法,其中所述多个认知数据过滤器的有效性FF(k)2是按照第二算法FF(k)2=(2*FP(k)*FR(k))/(FP(k)+FR(k))计算的,其中,FR(k)表示提供给请求设备的所述一个或多个组中实际被所述查询利用的数据部分,具有在包括0、1和以及0与1之间的所有值的范围内的第一值,并且其中,FR(k)表示以及所述一个或多个组内所提供的存储到请求设备的可用于所述查询的所有数据的百分比,具有所述范围内的第二值。
7.如权利要求1所述的方法,还包括:
针对对存储到中央群集的所述多个文件的更改而更新所述多个组,其中,基于预定时间表定期地、以后台操作的方式连续地或响应于触发事件而更新所述多个组,并且其中,更新所述多个组包括从包括以下的一组操作中选择的操作:删除一个或多个组、添加一个或多个组、将一个或多个文件添加到特定组以及从特定组删除一个或多个文件。
8.如权利要求7所述的方法,其中所述触发事件是从包括以下的一组中选择的:删除中央群集上现有文件、向中央群集添加新文件、向中央群集添加新文件类型以及更新中央群集的文本转换过程。
9.一种计算机程序产品,包括其中体现有程序指令的计算机可读存储介质,其中所述计算机可读存储介质本身不是暂时性信号,并且所体现的程序指令可由处理电路执行以使处理电路:
由处理电路基于一个或多个因素生成多个认知数据过滤器以创建多个组;以及
由处理电路在接收到对全局数据存储库的查询之前,使用所述多个认知数据过滤器对全局数据存储库接收到的数据进行认知过滤,以将所述数据的独立部分置于所述多个组中,其中所述多个组中的每个组中的数据具有共同的可定义特征。
10.如权利要求9所述的计算机程序产品,其中,所体现的程序指令还可由处理电路执行以使处理电路:
由处理电路在全局数据存储库从一个或多个数据源接收数据,所述数据包括文本和非结构化数据;
由处理电路将所述数据存储到全局数据存储库;
由处理电路将非结构化数据转换为基于文本的数据;
由处理电路在全局数据存储库上存储基于文本的数据,其中将所述多个认知数据过滤器应用于从非结构化数据转换后的基于文本的数据;
由处理电路在全局数据存储库接收所述查询的指示;
由处理电路确定并预取与所述查询对应的至少一个组;以及
由处理电路通过将所述至少一个组中的数据复制到提供所述查询的指示的请求设备来响应所述查询。
11.如权利要求10所述的计算机程序产品,其中,所体现的程序指令还可由处理电路执行以使处理电路:
由处理电路接收关于所述查询提供给请求设备的所述至少一个组中的数据的使用的指示,
其中,从以下组成的组中选择所述一个或多个因子:一个关键字、一组关键字、一个值、一组值、一个值范围和一组值范围。
12.如权利要求9所述的计算机程序产品,其中,所体现的程序指令还可由处理电路执行以使处理电路:
由处理电路随着时间的推移而调整所述多个认知数据过滤器以提高多个认知数据过滤器的有效性,所述有效性是针对响应于从请求设备接收到所述查询的指示而提供给请求设备的一个或多个组中的数据的使用而度量的,
其中,所述多个认知数据过滤器的有效性基于以下的每一项:提供给请求设备的所述一个或多个组中实际被所述查询利用的数据部分,以及所述一个或多个组内所提供的存储到请求设备的可用于所述查询的所有数据的百分比。
13.如权利要求12所述的计算机程序产品,其中所述多个认知数据过滤器的有效性FF(k)1是按照第一算法计算的,其中,FP(k)表示提供给请求设备的所述一个或多个组中实际被所述查询利用的数据部分,具有在包括0、1和以及0与1之间的所有值的范围内的第一值,并且其中,FR(k)表示所述一个或多个组内所提供的存储到请求设备的可用于所述查询的所有数据的百分比,具有所述范围内的第二值。
14.如权利要求12所述的计算机程序产品...
【专利技术属性】
技术研发人员:S巴拉钱德兰,张睿,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。