处理大型数据储存库中的数据集制造技术

技术编号:13995214 阅读:45 留言:0更新日期:2016-11-15 01:21
本发明专利技术提供了一种用于处理用于存储至少非结构化数据的数据储存库(104)中的多个数据集(105;106;108;110‑113;DB1;DB2)的方法,该方法包括:‑提供(302)代理的集合(150‑168),每个代理可操作以触发数据集中的一个或多个数据集的处理,上述代理中的每个代理的执行在向上述代理指派的一个或多个条件满足的情况下自动触发,这些条件中的至少一个条件涉及其处理能够由上述代理来触发的数据集的存在、结构、内容和/或注释;‑执行(304)代理中的第一代理;‑由第一代理来更新(306)第一数据集的注释(115);以及‑执行(308)代理中的第二代理,上述执行由满足第二代理的条件的第一数据集的已更新注释来触发,从而触发第一数据集的注释的进一步更新。

【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及处理大型数据储存库中的数据的领域。
技术介绍
在信息管理程序(如数据仓库、主数据管理(MDM)或大型数据分析程序)中使用数据之前,需要很多步骤以将来自多个内部和外部源的原始数据按照能够由端用户以有意义的方式来消耗的格式集成到统一的数据储存库中。首先,需要识别包含特定任务所需要的全部信息的数据源。因此,用户需要知道可用数据集的语义内容,例如通过手动检查或者通过在可用数据集上手动触发语义数据剖析工具的执行。用户可以开始数据剖析工程并且合并他认为相关的源。然而,上述步骤已经需要用户知道应当分析哪些源。可能丢弃有趣的数据源。另外,用户必须花费时间和精力来习惯可用的数据集和工具,因为他或她需要知道哪种分析工具需要哪种数据格式。数据整合也可能由于以下事实而进一步变得复杂:一些数据集可以包括不应当被呈现给端用户或者端用户的一些组的机密信息。确保并且增加可用数据集的数据质量可能也是问题:数据可以冗余地存储在原始数据集中,可以包括关于一些数据记录的不一致的信息,或者可以用不同的数据格式和标准来呈现。在现有技术中,存在多个产品和方法,它们可以满足以上要求中的一些要求,但是上述工具依赖于用户的手动控制和配置,或者依赖于预定义的和固定的工作流方案。用户或工作流方案必须明确地规定这些工具中的哪个工具必须在哪个时刻应用于这些数据集中的哪个数据集以便解决特定问题。手动数据预处理和剖析方法可以仅在要整合的数据的量很少并且具有相对低的复杂性的情况下使用。预定义的基于工作流的数据处理方法需要处理固定的数据集序列,从而上述数据集的语法和内容事先已知。这样的数据通常称为结构化数据,这二者均结合基于工作流的数据处理等。然而,在大型数据环境中,需要整合和处理大量数据,并且事先不知道要整合的数据的内容、语法、序列或文件格式。不限于其中语法和内容事先知道的数据集的这样的数据通常称为非结构化数据。可能不能够预见特定数据集是否可用以及何时可用。不能应用手动方法,因为人类不能应付所涉及的数据处理任务的复杂性和动态性。依赖于预定工作流的方法也不适用,因为其不能够预见整合和处理动态提供的新的数据所必须的所有数据处理、剖析和分析步骤的种类和序列。因此,手动方法或基于工作流的方法都不能应付要由大型数据环境来处理的数据的量、结构和语义异质性和不可预期性。US006381556B1例如公开了用于准备源自于制造环境的原始数据以便出于报告目的而加载上述数据的方法。所呈现的方法类似于ETL作业是相当静态的。US006643635B2描述了自动方式的用于商业分析的数据的变换用于基于静态数据处理方案读取和准备来自不同的数据源的数据。
技术实现思路
本专利技术的实施例的目的是提供一种用于处理大型数据环境中的数据的改进的方法。改进因此可以涉及人类用户在计划、触发和监督要被传送到大型数据储存库中或者已经包含在大型数据储存库中的数据的处理上花费的时间和精力的减少。改进还可以涉及遗留数据处理程序到增加的质量的分析数据处理和到增加的安全性的机密数据的无缝整合。也可以增加大型数据储存库充分且灵活地对付和处理其可用性、内容和结构动态变化并且不能事先预见的数据的能力。上述目的通过独立权利要求的主题来解决。从属权利要求中描述有利的实施例。本文中使用的数据储存库或“大型数据”储存库是用于存储和管理结构化和非结构化数据集的数据容器。要被整合到大型数据储存库中的数据集可以是语义和/或语法上异质的。要整合或处理的数据集的顺序、语义内容、源和/或语法形式可以是不可预期的。可能有必要连续地整合新的数据集并且处理现有数据集。大型数据储存库可管理的数据量可以很大,例如在包括数十亿到数万亿记录的拍字节(1024太字节)或艾字节(1024拍字节)的范围内。要存储在大型数据储存库中的数据的量可能是传统数据库和软件技术不可处理的。数据可以至少部分不完整、机密、冗余、不一致或语法上不适合数据分析。“注释”是描述其他数据并且与其他数据相关联的元数据(例如内容、解释、一个或多个标签或标记的集合、属性值对等)。注释可以是针对特定数据集收集的并且与上述数据集相关联地存储的元数据。元数据可以包括结构元数据(关于数据结构的设计和规定)和/或描述元数据(关于数据内容)。术语“数据处理”可以指代对数据集的任何种类的预处理或处理。例如,数据处理可以指代数据集的任何种类的语义、统计或语法数据分析、格式化、变换、屏蔽、校正、分割和组合等。“条件”是可以被满足或者不被满足的关于例如要处理的数据集的特定实体的句子。“程序引擎”是任何种类的可执行程序逻辑,例如应用程序、脚本、(web)服务、程序模块或数据库例程等。“代理”是已经被指派一个或多个条件并且其执行在上述条件满足时自动触发的任何种类的可执行程序逻辑,例如应用程序、脚本、(web)服务、程序模块或数据库例程等。上述条件中的至少一些条件涉及要由上述代理来处理的数据集(包括上述数据集的注释)。代理可以直接或在本文中称为“程序引擎”的其他程序的帮助下间接地处理数据集。一方面,本专利技术涉及一种用于处理大型数据储存库中的多个数据集的计算机实现的方法。提供代理的集合。每个代理可操作以触发数据集中的一个或多个数据集的处理。上述代理中的每个代理的执行在向上述代理指派的一个或多个条件满足的情况下自动触发。代理中的每个代理的条件中的至少一个条件涉及其处理能够由上述代理来触发的数据集的存在、结构、内容和/或注释。例如,大型数据储存库中的新的数据集的创建或者到大型数据储存库中的外部数据集的导入可以表示触发已经被指派以下条件的代理的执行:上述创建的或者导入的数据集“存在”于大型数据储存库中。该方法包括执行代理中的第一代理。上述执行由关于数据集中的第一数据集的第一代理的条件满足来触发。第一代理的执行触发第一数据集的处理。然后,由第一代理来更新第一数据集的注释。从而在上述注释中包括第一数据集的处理的结果。产生上述结果的第一数据集的处理由第一代理来触发。特定数据集的注释的“更新”可以包括上述数据集的现有注释的修改和/或补充或者上述数据集的注释的初始创建。上述新的或已更新注释可以包括对上述数据集的处理的结果。该方法还包括执行代理中的第二代理。上述第二代理的执行由第一数据集的已更新注释满足第二代理的条件来触发。第二代理的执行触发第一数据集的进一步处理。第二代理还通过从上述进一步处理获得的结果来更新所述第一数据集的注释。根据实施例,代理的集合中的每个代理能够仅通过要由上述代理来处理的数据集中的一个数据集的注释的更新和/或通过数据储存库中新的数据集的检测来触发,上述检测可以由大型数据储存库的储存库管理器来执行。上述代理的执行导致已处理数据集的注释的更新。更新可以包括初始创建已处理数据集的注释。根据一些实施例,代理的集合包括多个代理的子集,多个代理的子集可以仅通过要由上述代理来处理的数据集中的一个数据集的注释的更新来触发。多个代理可操作以自动处理和准备数据集以便向用户输出已处理数据集或者上述处理的一些结果。上述代理的执行序列仅取决于数据集相关的条件的满足并且因此遵循完全数据驱动的、动态和自动确定的处理任务序列。根据一些实施例,数据集的处理由代理直接执行。根据另外的实施例,大型数据储存库由多个程序引擎可访问本文档来自技高网
...

【技术保护点】
一种用于处理用于存储至少非结构化数据的数据储存库(104)中的多个数据集(105;106;108;110‑113;DB1;DB2)的计算机实现的方法,所述方法包括:‑提供(302)代理的集合(150‑168),每个代理可操作以触发所述数据集中的一个或多个数据集的处理,所述代理的集合中的每个代理的执行在向所述代理指派的一个或多个条件被满足的情况下被自动触发,所述条件中的至少一个条件涉及其处理能够由所述代理触发的所述数据集的存在、结构、内容和/或注释;‑执行(304)所述代理的集合中的第一代理,所述执行通过关于所述数据集中的第一数据集的所述第一代理的条件被满足而被触发,所述第一代理的执行触发所述第一数据集的处理;‑由所述第一代理更新(306)所述第一数据集的所述注释(115),从而在所述注释中包括由所述第一代理触发的所述第一数据集的处理的结果;‑执行(308)所述代理的集合中的第二代理,所述执行通过所述第一数据集的已更新的所述注释满足所述第二代理的条件而被触发,所述第二代理的所述执行触发所述第一数据集的进一步处理以及由所述第二代理对所述第一数据集的所述注释的进一步更新。

【技术特征摘要】
【国外来华专利技术】2014.03.14 GB 1404523.11.一种用于处理用于存储至少非结构化数据的数据储存库(104)中的多个数据集(105;106;108;110-113;DB1;DB2)的计算机实现的方法,所述方法包括:-提供(302)代理的集合(150-168),每个代理可操作以触发所述数据集中的一个或多个数据集的处理,所述代理的集合中的每个代理的执行在向所述代理指派的一个或多个条件被满足的情况下被自动触发,所述条件中的至少一个条件涉及其处理能够由所述代理触发的所述数据集的存在、结构、内容和/或注释;-执行(304)所述代理的集合中的第一代理,所述执行通过关于所述数据集中的第一数据集的所述第一代理的条件被满足而被触发,所述第一代理的执行触发所述第一数据集的处理;-由所述第一代理更新(306)所述第一数据集的所述注释(115),从而在所述注释中包括由所述第一代理触发的所述第一数据集的处理的结果;-执行(308)所述代理的集合中的第二代理,所述执行通过所述第一数据集的已更新的所述注释满足所述第二代理的条件而被触发,所述第二代理的所述执行触发所述第一数据集的进一步处理以及由所述第二代理对所述第一数据集的所述注释的进一步更新。2.根据权利要求1所述的计算机实现的方法,其中所述代理的集合中的每个代理能够仅通过要由所述代理来处理的所述数据集中的一个数据集的注释的更新以及通过所述数据储存库中新的数据集的检测而被触发,所述代理的所述执行导致已处理的所述数据集的所述注释的更新。3.根据前述权利要求中的任一项所述的计算机实现的方法,-所述数据储存库由分别可操作以处理所述数据集中的至少一个数据集的多个程序引擎(124-138)可访问,-所述代理的集合中的至少一些代理分别被指派所述多个程序引擎中的一个程序引擎并且分别包括到所述一些代理的所指派的程序引擎的接口;以及-所述代理的集合通过经由所述代理的集合的接口初始化所述代理的集合的相应地被指派的程序引擎的执行来触发所述数据集中的一个或多个数据集的处理。4.根据权利要求3所述的计算机实现的方法,还包括:-向所述多个程序引擎中的每个程序引擎提供作业队列(Q1-Q9);所述代理的集合中的一个代理对所述引擎中的一个引擎的所述执行的所述触发包括向所述程序引擎的所述作业队列添加用于由所述一个程序引擎处理所述数据集中的一个或多个数据集的作业,所述作业到所述作业队列的所述添加由所述代理执行;其中要由所述一个程序引擎处理的所述数据集中的一个或多个数据集由所述程序引擎根据所述程序引擎的作业队列的顺序处理。5.根据前述权利要求3到4中的任一项所述的计算机实现的方法,所述数据储存库操作地耦合至工作量管理器(176),所述代理的集合中的至少一些代理可操作以触发等同程序引擎的集合(124;126)的执行,从而等同程序引擎可操作以根据所述数据集中的一个数据集生成相同的处理结果,所述方法还包括:-所述工作量管理器从所述多个程序引擎中的每个程序引擎重复地接收工作量信息,所述工作量信息表示所述程序引擎的能力利用率和/或托管所述程序引擎的计算机系统的能力利用率;-所述工作量管理器通过使用接收的所述工作量信息作为输入,针对向所述代理的集合中的一个代理指派的等同程序引擎的至少一个集合,重复地并且自动地确定具有最低能力消耗的程序引擎;以及-所述工作量管理器向所述等同程序引擎的集合被指派给其的所述代理提供确定的所述程序引擎的指示;以及-接收到所述指示的所述代理选择性地触发指示的所述程序引擎的所述执行而非触发向所述代理指派的其他等同程序引擎中的任何等同程序引擎的执行。6.根据权利要求5所述的计算机实现的方法,所述多个程序引擎中的任何一个程序引擎的所述工作量信息包括当前存储在所述程序引擎的所述作业队列(Q1-Q9)中的作业的数目。7.根据前述权利要求中的任一项所述的计算机实现的方法,所述数据储存库操作地耦合至代理管理器(174),所述代理的集合中的至少一些代理已经被指派优先级号码(P.1-P.7),所述方法还包括:-所述代理管理器连续地监视所有所述代理的实例化和/或执行;-所述代理管理器基于从所述监视获得的信息来自动确定所述代理的集合中的至少两个代理尝试处理所述数据集中的相同的数据集和/或所述代理的集合中的所述至少两个代理需要不能同时向两个代理提供的计算资源;-所述代理管理器评估所述至少两个代理的所述优先级号码(P.1-P.7)并且选择性地允许具有最高优先级号码的代理执行。8.根据前述权利要求中的任一项所述的计算机实现的方法,所述数据储存库操作地耦合至代理管理器(174),所述数据集中的至少一些数据集已经被指派优先级号码(D.1-D.5),所述方法还包括:-所述代理管理器连续地监视所有所述代理的实例化和/或执行;-所述代理管理器基于从所述监视获得的信息自动确定所述代理的集合中的一个代理被发起用于触发所述数据集中的两个或更多个不同数据集的所述处理;-所述代理管理器评估所述两个或更多个不同数据集的所述优先级号码(D.1-D.5);-所述代理管理器基于所述评估引起所述代理根据所述数据集的相应...

【专利技术属性】
技术研发人员:Y·萨耶H·C·史密斯A·麦尔D·C·沃夫索恩
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1