【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及处理大型数据储存库中的数据的领域。
技术介绍
在信息管理程序(如数据仓库、主数据管理(MDM)或大型数据分析程序)中使用数据之前,需要很多步骤以将来自多个内部和外部源的原始数据按照能够由端用户以有意义的方式来消耗的格式集成到统一的数据储存库中。首先,需要识别包含特定任务所需要的全部信息的数据源。因此,用户需要知道可用数据集的语义内容,例如通过手动检查或者通过在可用数据集上手动触发语义数据剖析工具的执行。用户可以开始数据剖析工程并且合并他认为相关的源。然而,上述步骤已经需要用户知道应当分析哪些源。可能丢弃有趣的数据源。另外,用户必须花费时间和精力来习惯可用的数据集和工具,因为他或她需要知道哪种分析工具需要哪种数据格式。数据整合也可能由于以下事实而进一步变得复杂:一些数据集可以包括不应当被呈现给端用户或者端用户的一些组的机密信息。确保并且增加可用数据集的数据质量可能也是问题:数据可以冗余地存储在原始数据集中,可以包括关于一些数据记录的不一致的信息,或者可以用不同的数据格式和标准来呈现。在现有技术中,存在多个产品和方法,它们可以满足以上要求中的一些要求,但是上述工具依赖于用户的手动控制和配置,或者依赖于预定义的和固定的工作流方案。用户或工作流方案必须明确地规定这些工具中的哪个工具必须在哪个时刻应用于这些数据集中的哪个数据集以便解决特定问题。手动数据预处理和剖析方法可以仅在要整合的数据的量很少并且具有相对低的复杂性的情况下使用。预定义的基于工作流的数据处理方法需要处理固定的数据集序列,从而上述数据集的语法和内容事先已知。这样的数据通常称为结构化数据,这 ...
【技术保护点】
一种用于处理用于存储至少非结构化数据的数据储存库(104)中的多个数据集(105;106;108;110‑113;DB1;DB2)的计算机实现的方法,所述方法包括:‑提供(302)代理的集合(150‑168),每个代理可操作以触发所述数据集中的一个或多个数据集的处理,所述代理的集合中的每个代理的执行在向所述代理指派的一个或多个条件被满足的情况下被自动触发,所述条件中的至少一个条件涉及其处理能够由所述代理触发的所述数据集的存在、结构、内容和/或注释;‑执行(304)所述代理的集合中的第一代理,所述执行通过关于所述数据集中的第一数据集的所述第一代理的条件被满足而被触发,所述第一代理的执行触发所述第一数据集的处理;‑由所述第一代理更新(306)所述第一数据集的所述注释(115),从而在所述注释中包括由所述第一代理触发的所述第一数据集的处理的结果;‑执行(308)所述代理的集合中的第二代理,所述执行通过所述第一数据集的已更新的所述注释满足所述第二代理的条件而被触发,所述第二代理的所述执行触发所述第一数据集的进一步处理以及由所述第二代理对所述第一数据集的所述注释的进一步更新。
【技术特征摘要】
【国外来华专利技术】2014.03.14 GB 1404523.11.一种用于处理用于存储至少非结构化数据的数据储存库(104)中的多个数据集(105;106;108;110-113;DB1;DB2)的计算机实现的方法,所述方法包括:-提供(302)代理的集合(150-168),每个代理可操作以触发所述数据集中的一个或多个数据集的处理,所述代理的集合中的每个代理的执行在向所述代理指派的一个或多个条件被满足的情况下被自动触发,所述条件中的至少一个条件涉及其处理能够由所述代理触发的所述数据集的存在、结构、内容和/或注释;-执行(304)所述代理的集合中的第一代理,所述执行通过关于所述数据集中的第一数据集的所述第一代理的条件被满足而被触发,所述第一代理的执行触发所述第一数据集的处理;-由所述第一代理更新(306)所述第一数据集的所述注释(115),从而在所述注释中包括由所述第一代理触发的所述第一数据集的处理的结果;-执行(308)所述代理的集合中的第二代理,所述执行通过所述第一数据集的已更新的所述注释满足所述第二代理的条件而被触发,所述第二代理的所述执行触发所述第一数据集的进一步处理以及由所述第二代理对所述第一数据集的所述注释的进一步更新。2.根据权利要求1所述的计算机实现的方法,其中所述代理的集合中的每个代理能够仅通过要由所述代理来处理的所述数据集中的一个数据集的注释的更新以及通过所述数据储存库中新的数据集的检测而被触发,所述代理的所述执行导致已处理的所述数据集的所述注释的更新。3.根据前述权利要求中的任一项所述的计算机实现的方法,-所述数据储存库由分别可操作以处理所述数据集中的至少一个数据集的多个程序引擎(124-138)可访问,-所述代理的集合中的至少一些代理分别被指派所述多个程序引擎中的一个程序引擎并且分别包括到所述一些代理的所指派的程序引擎的接口;以及-所述代理的集合通过经由所述代理的集合的接口初始化所述代理的集合的相应地被指派的程序引擎的执行来触发所述数据集中的一个或多个数据集的处理。4.根据权利要求3所述的计算机实现的方法,还包括:-向所述多个程序引擎中的每个程序引擎提供作业队列(Q1-Q9);所述代理的集合中的一个代理对所述引擎中的一个引擎的所述执行的所述触发包括向所述程序引擎的所述作业队列添加用于由所述一个程序引擎处理所述数据集中的一个或多个数据集的作业,所述作业到所述作业队列的所述添加由所述代理执行;其中要由所述一个程序引擎处理的所述数据集中的一个或多个数据集由所述程序引擎根据所述程序引擎的作业队列的顺序处理。5.根据前述权利要求3到4中的任一项所述的计算机实现的方法,所述数据储存库操作地耦合至工作量管理器(176),所述代理的集合中的至少一些代理可操作以触发等同程序引擎的集合(124;126)的执行,从而等同程序引擎可操作以根据所述数据集中的一个数据集生成相同的处理结果,所述方法还包括:-所述工作量管理器从所述多个程序引擎中的每个程序引擎重复地接收工作量信息,所述工作量信息表示所述程序引擎的能力利用率和/或托管所述程序引擎的计算机系统的能力利用率;-所述工作量管理器通过使用接收的所述工作量信息作为输入,针对向所述代理的集合中的一个代理指派的等同程序引擎的至少一个集合,重复地并且自动地确定具有最低能力消耗的程序引擎;以及-所述工作量管理器向所述等同程序引擎的集合被指派给其的所述代理提供确定的所述程序引擎的指示;以及-接收到所述指示的所述代理选择性地触发指示的所述程序引擎的所述执行而非触发向所述代理指派的其他等同程序引擎中的任何等同程序引擎的执行。6.根据权利要求5所述的计算机实现的方法,所述多个程序引擎中的任何一个程序引擎的所述工作量信息包括当前存储在所述程序引擎的所述作业队列(Q1-Q9)中的作业的数目。7.根据前述权利要求中的任一项所述的计算机实现的方法,所述数据储存库操作地耦合至代理管理器(174),所述代理的集合中的至少一些代理已经被指派优先级号码(P.1-P.7),所述方法还包括:-所述代理管理器连续地监视所有所述代理的实例化和/或执行;-所述代理管理器基于从所述监视获得的信息来自动确定所述代理的集合中的至少两个代理尝试处理所述数据集中的相同的数据集和/或所述代理的集合中的所述至少两个代理需要不能同时向两个代理提供的计算资源;-所述代理管理器评估所述至少两个代理的所述优先级号码(P.1-P.7)并且选择性地允许具有最高优先级号码的代理执行。8.根据前述权利要求中的任一项所述的计算机实现的方法,所述数据储存库操作地耦合至代理管理器(174),所述数据集中的至少一些数据集已经被指派优先级号码(D.1-D.5),所述方法还包括:-所述代理管理器连续地监视所有所述代理的实例化和/或执行;-所述代理管理器基于从所述监视获得的信息自动确定所述代理的集合中的一个代理被发起用于触发所述数据集中的两个或更多个不同数据集的所述处理;-所述代理管理器评估所述两个或更多个不同数据集的所述优先级号码(D.1-D.5);-所述代理管理器基于所述评估引起所述代理根据所述数据集的相应...
【专利技术属性】
技术研发人员:Y·萨耶,H·C·史密斯,A·麦尔,D·C·沃夫索恩,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。