利用映射缩减集成事件处理制造技术

技术编号:11875184 阅读:83 留言:0更新日期:2015-08-13 02:05
大量数据可以利用连续事件处理和映射缩减算法工具的组合来相对快速地进行处理和/或查询。连续事件处理器通过合并(a)来自从当前执行的映射缩减作业启动以后接收到的事件的CQL查询结果和(b)由最近完成的映射缩减作业产生的最近的查询结果,可以连续地产生实时结果。当前执行的映射缩减作业完成时,可以存储它的查询结果且使得其对于连续事件处理器来说是可访问的,并且可以相对于自从上一个映射缩减作业执行以后大小已增长的事件数据启动新的映射缩减作业。映射缩减算法工具为分析和处理大量数据提供了方便的机制。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】利用映射缩减集成事件处理对相关申请的交叉引用本申请根据35U.S.C.119(e)要求于2012年12月5日提交的标题为“A METHODFOR INTEGRATING EVENT PROCESSING WITH MAP REDUCE” 的美国临时申请 N0.61/733,844的优先权,其全部内容通过引用被结合于此,用于任何目的。本申请根据35U.S.C.119(e)还要求于 2013 年 3 月 29 日提交的标题为 “INTEGRATING EVENT PROCESSING WITH MAPREDUCE”的美国临时申请N0.61/806,744的优先权,其全部内容通过引用被结合于此,用于任何目的。本申请根据35U.S.C.119(e)还要求于2013年11月13日提交的标题为“INTEGRATING EVENT PROCESSING WITH MAP-REDUCE”的美国非临时申请N0.14/079,538 的优先权,其全部内容通过引用被结合于此,用于任何目的。
技术介绍
连续事件处理器能够接收连续的事件流并且通过对其中包含的每个事件应用连续事件处理(CEP)查询来处理每个事件。这种CEP查询可以被格式化为符合CEP查询语言的语法,其中CEP查询语言诸如连续查询语言(CQL),它是结构化查询语言(SQL)的扩展。SQL查询通常对已存储在关系型数据库的表中的数据(每个用户请求)应用一次,而CQL查询随着到来事件流中的事件被连续事件处理器接收被重复地应用到那些事件。例如,数据流可以指定各种公司的股票价格。随着时间的流逝,那些公司的最新股票价格可以被添加到数据流中。连续事件处理器可以接收每个这种股票价格,并且在那个股票价格到达时对那个股票价格应用CQL查询。CQL查询可以指定各种操作,潜在地包括过滤和聚合操作。连续事件处理器然后可以向各种感兴趣的监听者输出CQL查询的应用结果O【附图说明】图1是根据本专利技术的实施例说明用于利用映射缩减算法工具和CEP的组合计算相对于大量数据的实时查询结果的技术的流程图。图2是根据本专利技术的实施例说明用于利用映射缩减算法工具和CEP的组合计算相对于大量数据的实时查询结果的系统的框图。图3是说明可以根据本专利技术的实施例使用的系统环境的组件的简化框图。图4是可以根据本专利技术的实施例使用的计算机系统的简化框图。图5是根据本专利技术的实施例说明用于基于单个查询生成连续和批处理组件的技术的例子的流程图。图6是根据本专利技术的实施例说明用于基于查询生成功能上等效的运算符的技术的例子的流程图。图7是根据本专利技术实施例的电子设备700的简化框图。【具体实施方式】本专利技术的实施例涉及连续事件处理领域。本专利技术的实施例包括用于利用连续事件处理和映射缩减(Map-Reduce)算法工具的组合相对快速地处理或查询大量数据的技术。在实施例中,连续事件处理器通过合并(a)来自自从当前执行的映射缩减作业启动以后接收到的事件的CQL查询结果和(b)由最近完成的映射缩减作业产生的最近的查询结果连续地产生实时结果。当当前执行的映射缩减作业完成时,存储它的查询结果且使得该查询结果对于连续事件处理器是可访问的,并且相对于自从上一个映射缩减作业执行之后大小已增长的事件数据启动新的映射缩减作业。映射缩减算法工具为分析和处理大量数据提供了方便的机制。这种大量的数据有时被称为“大数据”。大数据是由信息技术媒体和供应商使用的术语。企业正在积累巨大量的数据--兆兆(terabytes)字节,甚至拍字节(petabytes)的数据--并且具有竞争欲望来得到对市场趋势和公司业绩的更深入了解。公司正面临着管理和分析大数据的愿望。现代的应用处理极大量的数据。这些巨大的量使得难以利用常规的处理机制迅速地处理数据。作为大数据处理的例子,可以考虑其中销售经理想要识别公司在其中产品能够在延长的时间段(诸如上个月)被购买的每个主要市场的最畅销产品的情况。完成这项任务的挑战是要为这种分析所处理的数据量。该数据量可能会在数千、百万、甚至数十亿的销售交易之间不等。诸如关系型数据库和可视化软件的一般工具通常不会伸展到如此大量的数据。此外,数据可以是结构化的和非结构化的,这可能不是由数据管理和分析工具所处理的特征。常规的关系型数据库系统不能及时地处理如此大量的数据。因此,为了管理大数据,可以进行一些尝试。一种潜在的处理大量异构数据的方法是跨不同的服务器划分和复制数据,以创建更易管理的数据集。但是,创建数据的多个拷贝使得更难以维护信息的一致性,因为对一个数据集的更新可能不会拷贝到其它的数据集。这种一致性缺乏会导致,例如,如果使用数据的应用更新销售数据中的条目,但是那个更新然后未能拷贝到另一个复制的站点。如果访问该数据的其它应用已经在其它交易中使用了一些该数据,那么情况会变得复杂。当数据改变时,数据的重新划分可能是合适的,但是其中这种重新划分应该被执行的方式通常是不清楚的。—种可能的用于处理这些复杂性的方法可以包括将数据分布(distributing)为受保护的、不可改变的数据。例如,销售交易可以如它们发生的那样存储在某个可持续存储装置中。可以防止应用改变那个存储的原始数据。使数据保持不可改变避免了一致性问题,并且分布缓和了量的问题。但是,使数据不可改变会使得现有的数据处理工具不能以期望的方式处理分布式(distributed)数据。特定的分布式算法工具可以与不可改变的分布式输入结合工作,并且可以相对于分布式系统执行类似于以上销售例子中描述的查询。这种特定的算法工具是映射缩减算法工具。存在映射缩减算法工具各种不同的实现方式。例如,一种实现方式可以在开源代码Apache Hadoop中找到。利用Apache Hadoop,可以创建使用大数据销售交易作为输入并且然后返回最畅销产品作为结果的映射缩减作业。映射缩减算法工具相对于分布式数据工作。数据可以被划分(partit1n)到单独的节点中,并且每个节点可以在单独的计算机器上被维护为单独的文件。每个这种机器可以相对于在那个机器上维护的数据与其它机器平行地执行查询。因此,每个机器能够产生有关其特定数据划分的单独的查询结果。接着,这些单独的结果能够被缩减成单个统一的结果。映射缩减算法工具可以完成这种缩减。对于数据中的每个条目,映射缩减算法工具能够将那个条目映射到结果。例如,如果数据条目表示产品,则映射缩减算法工具可以将每个产品映射到指示那个产品相对于其它产品的销售排名的结果。然后,映射缩减算法工具可以将所有这些结果合并成单个统一的结果。这种合并被称为缩减(reduct1n)。对于映射缩减算法工具如何能够相对于数据操作的例子,可以考虑涉及在大量单独的网页中计算特定单词的出现数量的例子。第一个网页可能包括10个对特定单词的引用。第二个网页可能也包括10个对特定单词的引用。第三个网页可能只包括单个对特定单词的引用。第四个网页可能包括两个对特定单词的引用。由映射缩减算法工具执行的映射过程可以将每个网页映射到那个网页内的特定单词的出现数量。在这个例子中,由映射缩减算法工具执行的缩减过程仅仅包括将映射到每个网页的所有数量在一起求和,以产生最终的结果,在这个例子中,结果是特定单词的23次出现。由于映射缩减算法工具在其上操本文档来自技高网...

【技术保护点】
一种计算机实现的方法,包括:启动第一批操作,其相对于截至第一时间已存储在持久性数据存储区中的事件数据执行第一查询;当第一批操作正在执行时,相对于连续地从数据流中接收到的事件数据连续地执行第二查询;当第一批操作正在执行时,连续地将第二查询的结果与已完成的第二批操作的结果合并;连续地输出合并的结果;及响应于第一批操作的完成,用第一批操作的结果替换第二批操作的结果。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:A·德卡斯特罗艾尔维斯
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1