用于计算近实时数据聚集的搜索和检索数据处理系统技术方案

技术编号:19396944 阅读:30 留言:0更新日期:2018-11-10 05:05
一种用于处理数据的数据处理系统所进行的方法,所述方法包括:间歇地接收来自一个或多个数据流的数据,其中所接收到的数据包括数据记录;检测所接收到的数据记录中的两个或多个特定数据记录,其中所检测到的两个或多个特定数据记录各自包括特定标识符;针对该特定标识符,创建数据记录的集合;针对数据记录的集合中所包括的至少一个特定数据记录,搜索数据记录以获得数据的历史聚集;以及计算组合数据;通过将所述组合数据插入数据记录的字段中、并且通过将来自所述集合中的数据记录至少之一的数据插入到数据记录的另一字段中来修改数据记录;基于应用规则,向存储器写入用于发起一个或多个动作的一个或多个指令。

【技术实现步骤摘要】
【国外来华专利技术】用于计算近实时数据聚集的搜索和检索数据处理系统
本说明书涉及特别适于提供从分布在网络中的数据源的数据检索的方法和数据结构。
技术介绍
在一个示例中,执行应用的系统通过检索数据仓库(例如,与物流中心、分布式机械、移动通信或零售商店相关的数据仓库)中所储存的数据并分批聚集该数据,来聚集数据。这些应用通常称为批应用,这是因为它们将所接收到的数据(分批)储存在数据仓库中、然后将该数据从数据仓库检索出来以计算聚集,从而在聚集数据时导致延迟。另外,由于涉及大量数据,因此这些应用难以聚集实时数据(和/或仓储数据)。参考图1A,环境2包括不同的应用(例如,引擎),以实现针对批数据的不同类型的应用。在该示例中,将来自数据源3的数据储存在企业数据仓库(EDW)4中。物流应用5a、5b、5c、5d(各自实现不同的操作、规则或应用)各自分别从EDW4中检索适合该应用的数据。这些不同应用5a、5b、5c、5d各自作用于不同的数据类型和数据流,因此从EDW4中检索合适数据。这些不同应用5a、5b、5c、5d各自可以执行许多操作、规则和应用。各应用使用相同的通用工作流。在另一示例中,例如如美国专利9,002,770中所描述的规则的用户界面使得用户(例如,使用者)能够定义应用中所使用的规则(例如,SMS使用>40),而无需写入用以访问数据库中的合适数据记录的计算机代码以检索规则的相关数据。一般地,当用户定义应用时,他/她(例如,在电子表格中)写出规则,然后将电子表格发送至计算机程序员以写入用以实现该规则的代码。利用规则的用户界面,用户可以在该用户界面中仅选择规则(例如,或者表示规则的图标)并指定针对该规则的值或条件。系统被配置为生成所需的指令以检索由事件指定的合适数据。通过规则的用户界面,用户可以编辑规则,而无需雇用程序员来编辑规则。
技术实现思路
在一些示例中,一种用于处理数据的数据处理系统所进行的方法,所述方法包括:间歇地接收来自一个或多个数据流的数据,其中所接收到的数据包括数据记录;随着继续接收来自所述一个或多个数据流的数据,检测所接收到的数据记录中的两个或多个特定数据记录,其中所检测到的两个或多个特定数据记录各自包括特定标识符,针对该特定标识符,创建包括所检测到的两个或多个特定数据记录的数据记录的集合;针对数据记录的所述集合中所包括的至少一个特定数据记录,搜索数据记录以获得与所述特定标识符相关联的数据的历史聚集,其中所述历史聚集是从先前时间段预计算出的数据聚集,以及基于所述至少一个特定数据记录和所述历史聚集来计算组合数据,通过将所述组合数据插入数据记录的字段中、并且通过将来自所述集合中的数据记录至少之一的数据插入到该数据记录的另一字段中,来修改该数据记录;通过对修改后的数据记录应用一个或多个规则,来处理所述修改后的数据记录;基于应用所述规则,向存储器写入用于发起一个或多个动作的一个或多个指令;以及将所述一个或多个指令发布至队列以发起所述一个或多个动作。一个或多个计算机的系统可以被配置为通过在系统上安装在操作中使系统进行特定动作的软件、固件、硬件或它们的组合,来进行这些特定操作或动作。一个或多个计算机程序可被配置为通过包括在由数据处理设备执行时使该设备执行特定操作或动作的指令来执行该操作或动作。在这方面,将来自所述集合中的数据记录至少之一的数据插入到该数据记录的另一字段中包括:将来自所述集合中所包括的所述至少一个特定数据记录的数据插入到通过插入而修改的数据记录的另一字段中。数据记录的所述集合是包括来自数据记录的数据的第一数据记录,以及所述方法还包括:收集多个数据记录;将所述数据记录发布至单个队列;从所述队列中检测所述两个或多个特定数据记录;将所述两个或多个特定数据记录一起联接到所述第一数据记录中,其中所述两个或多个特定数据记录包括表示为不同类型的事件的数据;以及利用针对所述至少一个特定数据记录的组合数据来增强所述第一数据记录。所述先前时间段是进行检测之前的时间。所述动作还包括:向所述第一数据记录附加与所述第一数据记录中所包括的特定事件相关联的客户的客户简档数据;以及向所述第一数据记录附加具有针对所述特定事件的历史聚集的可附加查找文件即ALF。在这方面,计算组合数据包括:向所述历史聚集添加增量数据,其中所述增量数据包括从计算出所述历史聚集的时间到近当前时间的数据,所述近当前时间距当前时间在一分钟内;以及基于所述增量数据的添加,产生数据的近实时聚集。根据权利要求1所述的方法,还包括:从用户的客户端装置接收表示用于定义应用的一个或多个规则的数据;基于所接收到的数据生成用于定义应用的一个或多个规则;以及基于执行所述一个或多个规则,针对间歇地接收到的一个或多个数据流实现该应用。接收所述一个或多个数据流包括:接收具有表示第一类型的事件的数据的第一数据流;以及接收具有表示第二类型的事件的数据的第二数据流。在这方面,还包括:针对所述一个或多个指令中所包括的发布动作触发器执行一个或多个应用。数据记录包括事件。搜索包括在数据存储库中进行搜索或者在存储器中进行搜索。上述的全部或部分可以被实现为计算机程序产品,所述计算机程序产品包括储存在一个或多个非暂时性机器可读存储介质和/或一个或多个计算机可读硬件存储装置上、并且能够在一个或多个处理装置上执行的指令,其中所述一个或多个非暂时性机器可读存储介质和/或一个或多个计算机可读硬件存储装置是硬盘驱动器、诸如动态随机存取存储器等的随机存取存储器存储装置、机器可读硬件存储装置、以及其它类型的非暂时性机器可读存储装置。上述的全部或部分可以被实现为可包括一个或多个处理装置以及用以储存可执行指令以实现所述功能的存储器的设备、方法或电子系统。在以下附图和说明书中详细阐述了一个或多个实施例。根据说明书和附图以及权利要求书,这里所述的技术的其它特征、目的和优点将是明显的。附图说明图1A是作用于不同数据流中的批数据的不同引擎的图。图1B是实现各种应用并且作用于批数据和实时数据的一个引擎的图。图1C是使用宽记录实时执行的图。图2是用于计算近实时事件聚集的系统的图。图3是示例性事件记录。图4是数据流图的图。图5~14是来自事件选项板的示例性图形用户界面。图15和17各自是流程图。图16是计算近实时事件聚集的图。具体实施方式符合本专利技术的系统间歇地(例如,定期地或连续地)从各种数据源接收数据。随着间歇地接收到数据,系统(例如,通过将所接收到的数据多次发布到队列)将数据收集到单个数据流中,并且例如通过生成包括被多次发布到队列的数据的宽记录来在单个宽记录中近实时地(例如,在一毫秒内、在两毫秒内,等等)将数据联接在一起。数据是从数据源近实时地收集到的,而非从数据仓库中(分批)检索到的。这种收集到的数据包括事件,其例如包括包含指示动作发生(例如,拨打语音电话或语音电话的长度)的数据的记录、或者指示动作发生的数据。通过将来自这些不同数据源的数据联接在一起,宽记录包括不同类型的事件(例如,短消息服务(SMS)事件、语音事件和数据事件等)。系统使该宽记录富集事件聚集、非事件数据、状态数据以及诸如客户数据(例如,客户简档)和账户数据等的各种维度。一般地,维度包括关于与事件相关联的实体(例如,客户和经销商等)的数据。一般地,事本文档来自技高网
...

【技术保护点】
1.一种用于处理数据的数据处理系统所进行的方法,所述方法包括:间歇地接收来自一个或多个数据流的数据,其中所接收到的数据包括数据记录;随着继续接收来自所述一个或多个数据流的数据,检测所接收到的数据记录中的两个或多个特定数据记录,其中所检测到的两个或多个特定数据记录各自包括特定标识符,针对该特定标识符,创建包括所检测到的两个或多个特定数据记录的数据记录的集合;针对数据记录的所述集合中所包括的至少一个特定数据记录,搜索数据记录以获得与所述特定标识符相关联的数据的历史聚集,其中所述历史聚集是从先前时间段预计算出的数据聚集,以及基于所述至少一个特定数据记录和所述历史聚集来计算组合数据,通过将所述组合数据插入数据记录的字段中、并且通过将来自所述集合中的数据记录至少之一的数据插入到该数据记录的另一字段中,来修改该数据记录;通过对修改后的数据记录应用一个或多个规则,来处理所述修改后的数据记录;基于应用所述规则,向存储器写入用于发起一个或多个动作的一个或多个指令;以及将所述一个或多个指令发布至队列以发起所述一个或多个动作。

【技术特征摘要】
【国外来华专利技术】2015.12.21 US 62/270,257;2016.11.23 US 15/360,4491.一种用于处理数据的数据处理系统所进行的方法,所述方法包括:间歇地接收来自一个或多个数据流的数据,其中所接收到的数据包括数据记录;随着继续接收来自所述一个或多个数据流的数据,检测所接收到的数据记录中的两个或多个特定数据记录,其中所检测到的两个或多个特定数据记录各自包括特定标识符,针对该特定标识符,创建包括所检测到的两个或多个特定数据记录的数据记录的集合;针对数据记录的所述集合中所包括的至少一个特定数据记录,搜索数据记录以获得与所述特定标识符相关联的数据的历史聚集,其中所述历史聚集是从先前时间段预计算出的数据聚集,以及基于所述至少一个特定数据记录和所述历史聚集来计算组合数据,通过将所述组合数据插入数据记录的字段中、并且通过将来自所述集合中的数据记录至少之一的数据插入到该数据记录的另一字段中,来修改该数据记录;通过对修改后的数据记录应用一个或多个规则,来处理所述修改后的数据记录;基于应用所述规则,向存储器写入用于发起一个或多个动作的一个或多个指令;以及将所述一个或多个指令发布至队列以发起所述一个或多个动作。2.根据权利要求1所述的方法,其中,将来自所述集合中的数据记录至少之一的数据插入到该数据记录的另一字段中包括:将来自所述集合中所包括的所述至少一个特定数据记录的数据插入到通过插入而修改的数据记录的另一字段中。3.根据权利要求1所述的方法,其中,数据记录的所述集合是包括来自数据记录的数据的第一数据记录,以及所述方法还包括:收集多个数据记录;将所述数据记录发布至单个队列;从所述队列中检测所述两个或多个特定数据记录;将所述两个或多个特定数据记录一起联接到所述第一数据记录中,其中所述两个或多个特定数据记录包括表示为不同类型的事件的数据;以及利用针对所述至少一个特定数据记录的组合数据来增强所述第一数据记录。4.根据权利要求1所述的方法,其中,所述先前时间段是进行检测之前的时间。5.根据权利要求1所述的方法,其中,还包括:向所述第一数据记录附加与所述第一数据记录中所包括的特定事件相关联的客户的客户简档数据;以及向所述第一数据记录附加具有针对所述特定事件的历史聚集的可附加查找文件即ALF。6.根据权利要求1所述的方法,其中,计算组合数据包括:向所述历史聚集添加增量数据,其中所述增量数据包括从计算出所述历史聚集的时间到近当前时间的数据,所述近当前时间距当前时间在一分钟内;以及基于所述增量数据的添加,产生数据的近实时聚集。7.根据权利要求1所述的方法,其中,还包括:从用户的客户端装置接收表示用于定义应用的一个或多个规则的数据;基于所接收到的数据生成用于定义应用的一个或多个规则;以及基于执行所述一个或多个规则,针对间歇地接收到的一个或多个数据流实现该应用。8.根据权利要求1所述的方法,其中,接收所述一个或多个数据流包括:接收具有表示第一类型的事件的数据的第一数据流;以及接收具有表示第二类型的事件的数据的第二数据流。9.根据权利要求1所述的方法,其中,还包括:针对所述一个或多个指令中所包括的发布动作触发器执行一个或多个应用。10.根据权利要求1所述的方法,其中,数据记录包括事件。11.根据权利要求1所述的方法,其中,搜索包括在数据存储库中进行搜索或者在存储器中进行搜索。12.一种用于处理数据的数据处理系统,包括:一个或多个处理器;以及一个或多个机器可读硬件存储装置,其储存能够执行以使所述一个或多个处理器进行操作的指令,所述操作包括:间歇地接收来自一个或多个数据流的数据,其中所接收到的数据包括数据记录;随着继续接收来自所述一个或多个数据流的数据,检测所接收到的数据记录中的两个或多个特定数据记录,其中所检测到的两个或多个特定数据记录各自包括特定标识符;针对该特定标识符,创建包括所检测到的两个或多个特定数据记录的数据记录的集...

【专利技术属性】
技术研发人员:J麦克莱恩P·维塞尔
申请(专利权)人:起元技术有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1