流事件数据收集制造技术

技术编号:13908036 阅读:77 留言:0更新日期:2016-10-26 16:47
用于分布式数据管理的方法、系统以及设备,包括在计算机存储介质上编码的计算机程序。所述方法中的一个包括接收流事件数据的多个馈送并且将来自所述馈送中的每一个的馈送数据路由到多个通道中的相应通道,包括将来自第一馈送的馈送数据路由到第一通道,所述通道中的每一个被配置成存储馈送数据直到所述馈送数据被数据汇点消耗为止。所述第一通道的负载度量被确定为超过阈值。作为响应,为所述第一馈送分配第二通道,并且馈送数据被从所述第一馈送重定向到所述第二通道而不是所述第一通道。

【技术实现步骤摘要】
【国外来华专利技术】
本说明书涉及云计算。
技术介绍
在云计算中,能够将数据分发给由一个或多个通信网络所连接的多个计算机的系统。每个计算机能够托管一个或多个服务器,其中的每一个对数据的一部分进行处理。服务器能够并行地对数据进行处理。这样的分布式系统能够处置被部署在虚拟化环境中的面向web且数据密集型应用。例如,分布式系统能够被配置成通过互联网托管多租户计算服务。例如,软件即服务(SaaS)提供商能够在分布式系统上运行其应用的实例并且向多个租户提供访问。
技术实现思路
本说明书描述了给日志收集引擎提供高可用性和负载均衡能力的分布式计算系统。该分布式计算系统能够针对在多租户环境中托管多个应用的系统执行日志收集。一般而言,本说明书中所描述的主题的一个创新方面能够用包括以下各项的动作的方法加以具体化:接收流事件数据的多个馈送;将来自所述馈送中的每一个的馈送数据路由到多个通道中的相应通道,包括将来自第一馈送的馈送数据路由到第一通道,所述通道中的每一个被配置成存储馈送数据直到所述馈送数据被数据汇点消耗为止;确定所述第一通道的负载度量超过阈值;响应于确定所述负载度量超过所述阈值,为所述第一馈送分配第二通道;以及将来自所述第一馈送的馈送数据重定向到所述第二通道而不是所述第一通道。这个方面的其它实施例包括各自被配置成执行所述方法的动作的对应的计算机系统、设备以及记录在一个或多个计算机存储装置上的计算机程序。为让一个或多个计算机的系统被配置成执行特定操作或动作意味着该系统已经将在操作中使该系统执行所述操作或动作的软件、固件、硬件或它们的组合安装在其上。为让一个或多个计算机程序被配置成执行特定操作或动作意味着一个或多个程序包括当由数据处理设备执行时使该设备执行所操作或动作的指令。上述和其它实施例能够单独或者相结合地各自可选地包括以下特征中的一个或多个。所述动作还包括:从第一馈送源接收用于注册所述第一馈送的请求;为所述第一馈送分配所述第一通道,使得所述第一通道仅接收来自所述第一馈送的数据;为所述第一馈送分配网络化连接,所述网络化连接被配置成接收来自所述第一馈送源的馈送数据;以及使所述网络化连接与所述第一通道相关联,使得所述分布式计算系统将来自所述第一馈送的所述馈送数据从所述网络化连接路由到所述第一通道。将馈送数据从所述第一馈送重定向到所述第二通道包括使所述网络化连接与所述第二通道相关联。所述动作还包括,在使所述网络化连接与所述第二通道相关联之后,解除分配所述第一通道,使得由所述第一通道使用的所述分布式计算系统的一个或多个计算资源变得可用于一个或多个其它通道。所述分布式计算系统至少对被配置成为多个租户服务的第一多租户应用进行托管,并且其中,接收用于注册所述第一馈送的请求包括从第一租户接收所述请求。所述第一通道的所述负载度量指定由所述第一通道使用的存储器的量或网络业务的量。所述动作还包括:响应于确定所述负载度量超过所述阈值,基于所述负载度量超过所述阈值的量来确定有多少新通道是对于所述第一馈送足够数目的新通道;为所述第一馈送分配所述足够数目的新通道;以及将来自所述第一馈送的馈送数据重定向到所述新通道而不是所述第一通道。所述动作还包括使来自所述通道中的每一个的相应输出沉入到所述分布式计算系统的分布式文件系统。所述动作还包括使来自所述通道中的每一个的相应输出沉入到被配置成对所述馈送执行数据分析的数据解析引擎。所述通道中的每一个包括软件实例,所述软件实例被配置成将馈送数据存储在对于所述分布式计算系统中的一个或多个计算机或一个或多个计算机的集群为本地的本地数据存储器中,其中,所述本地数据存储器包括随机存取存储器(RAM)或大容量存储部或两者。能够实现本说明书中所描述的主题的特定实施例以实现一个或多个优点。日志收集引擎能够在多租户环境中收集流事件数据。日志收集引擎能够借助于能够响应于检测到高负载而为日志收集分配新通道的负载均衡引擎而具有高可用性。日志收集引擎能够支持大数据服务的日志收集以用于分析。在附图和以下描述中阐述本说明书中所描述的主题的一个或多个实施例的细节。本主题的其它特征、方面和优点从本说明书、附图和权利要求书将变得显而易见。附图说明图1是示例分布式计算系统的框图。图2是被配置成执行负载均衡的示例日志收集引擎的框图。图3是由图2的决策引擎所执行的示例过程的流程图。图4是由图2的负载均衡器所执行的示例过程的流程图。各个附图中的相同的附图标记和名称指示相同的元件。具体实施方式图1是示例分布式计算系统100的框图。该系统包括在由一个或多个数据通信网络所连接的一个或多个位置中的多个计算机。每个计算机可以是物理计算机或虚拟计算机。该系统能够处置被部署在虚拟化环境中的数据密集型应用。该系统执行N个应用,包括第一应用102、第i个应用104以及第N个应用106。应用能够在不用了解底层系统架构的情况下访问系统中的分布式计算资源。第i个应用是托管第一租户110至第k个租户112的多租户应用。对于每个租户,应用能够分配安全且排他的虚拟计算环境。该环境能够包括软件架构的一个或多个层,例如,从存储层到用户接口层。在一些实施方式中,系统被配置成向租户提供例如有关用户接口元件或商业规则的可定制性,而无需提供底层应用代码的可定制性。该系统包括日志收集引擎114。该日志收集引擎能够收集、聚集并且移动大量的流事件数据。该日志收集引擎被配置成收集来自各种源的流事件数据。流事件数据可以是日志数据,例如,错误或状态日志数据,以及其它类型的事件数据,例如,网络业务数据、社交媒体数据、电子邮件消息等。日志收集引擎能够收集来自应用的以及来自应用的个别租户的流事件数据。在一些实施方式中,日志收集引擎被配置成从一个或多个其它计算系统116收集流事件数据。该系统包括分布式文件系统118,其通常被实现在非易失性大容量存储存储器上,例如,闪速或磁盘存储器。分布式文件系统104的示例是HadoopTM分布式文件系统,HadoopTMDistributed File Sysmem(HDFSTM)。(“Hadoop”和“HDFS”是Apache软件基金会的商标。)日志收集引擎被配置成将收集到的流事件数据移动到分布式文件系统中。日志收集引擎还能够被配置成将收集到的流事件数据移动到其它类型的数据汇点中,例如,被配置成对馈送执行数据分析的数据解析引擎。收集流事件数据能够使用大量的计算资源,例如,存储器和网络带宽。在一些情况下,日志收集引擎上的负载可能难以预测。特别地,在系统正在托管多租户应用的情况下,日志收集引擎上的负载可能随着各种租户发送流事件数据而显著地波动。日志收集引擎能够被配置成执行负载均衡以在托管多租户应用的系统中提供高可用性,例如,在通道正在经历高负载时通过监视通道负载并且分配新通道。图2是被配置成执行负载均衡的示例日志收集引擎200的框图。能够在图1的分布式计算系统100中使用该日志收集引擎。该日志收集引擎包括决策引擎202。该决策引擎被配置成注册流事件数据的新引入的馈送。该决策引擎能够从流事件数据提供方接收用于注册新馈送的请求,例如,应用以及由应用在多租户环境中托管的租户。能够例如使用针对分布式配置服务的Apache ZooKeeperTM架构来实现该决策引擎。响应于接收到用于注册新馈送的请本文档来自技高网...

【技术保护点】
一种计算机实现的方法,所述方法包括:在包括多个计算机的分布式计算系统中接收流事件数据的多个馈送;将来自所述馈送中的每一个的馈送数据路由到多个通道中的相应通道,包括将来自第一馈送的馈送数据路由到第一通道,所述通道中的每一个被配置成存储馈送数据直到该馈送数据被数据汇点消耗为止;确定所述第一通道的负载度量超过阈值;响应于确定所述负载度量超过所述阈值,为所述第一馈送分配第二通道;以及将来自所述第一馈送的馈送数据重定向到所述第二通道而不是所述第一通道。

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,所述方法包括:在包括多个计算机的分布式计算系统中接收流事件数据的多个馈送;将来自所述馈送中的每一个的馈送数据路由到多个通道中的相应通道,包括将来自第一馈送的馈送数据路由到第一通道,所述通道中的每一个被配置成存储馈送数据直到该馈送数据被数据汇点消耗为止;确定所述第一通道的负载度量超过阈值;响应于确定所述负载度量超过所述阈值,为所述第一馈送分配第二通道;以及将来自所述第一馈送的馈送数据重定向到所述第二通道而不是所述第一通道。2.根据权利要求1所述的方法,还包括:从第一馈送源接收用于注册所述第一馈送的请求;为所述第一馈送分配所述第一通道,使得所述第一通道仅接收来自所述第一馈送的数据;为所述第一馈送分配网络化连接,所述网络化连接被配置成接收来自所述第一馈送源的馈送数据;以及使所述网络化连接与所述第一通道相关联,使得所述分布式计算系统将来自所述第一馈送的所述馈送数据从所述网络化连接路由到所述第一通道。3.根据权利要求2所述的方法,其中,将来自所述第一馈送的馈送数据重定向到所述第二通道包括:使所述网络化连接与所述第二通道相关联。4.根据权利要求3所述的方法,还包括,在使所述网络化连接与所述第二通道相关联之后,解除分配所述第一通道,使得由所述第一通道使用的所述分布式计算系统的一个或多个计算资源变得可用于一个或多个其它通道。5.根据权利要求2所述的方法,其中,所述分布式计算系统至少对被配置成为多个租户服务的第一多租户应用进行托管,并且其中,接收用于注册所述第一馈送的所述请求包括:从第一租户接收所述请求。6.根据权利要求1所述的方法,其中,所述第一通道的所述负载度量指定由所述第一通道使用的存储器的量或网络业务的量。7.根据权利要求1所述的方法,还包括:响应于确定所述负载度量超过所述阈值,基于所述负载度量超过所述阈值的量来确定有多少新通道是对于所述第一馈送足够数目的新通道;为所述第一馈送分配所述足够数目的新通道;以及将来自所述第一馈送的馈送数据重定向到所述新通道而不是所述第一通道。8.根据权利要求1所述的方法,还包括:使来自所述通道中的每一个的相应输出沉入到所述分布式计算系统的分布式文件系统。9.根据权利要求1所述的方法,还包括:使来自所述通道中的每一个的相应输出沉入到被配置成对所述馈送执行数据分析的数据解析引擎。10.根据权利要求1所述的方法,其中,所述通道中的每一个包括软件实例,所述软件实例被配置成将馈送数据存储在对于所述分布式计算系统中的一个或多个计算机或一个或多个计算机的集群为本地的本地数据存储器中,其中,所述本地数据存储器包括随机存取存储器(RAM)或大容量存储部或两者。11.一种分布式计算系统,所述分布式计算系统包括多个物理计算机,所述多个物理计算机被配置成执行包括以下步骤的操作:接收流事件数据的多个馈送;将来自所述馈送中的每一个的馈送数据路由到多个通道中的相应通道,包括将来自第一馈送的馈送数据路由到第一通道,所述通道中的每一个被配置成存储馈送数据直到该馈送数据被数据汇点消耗为止;确定所述第一通道的负载度量超过阈值;响应于确定所述负载度量超过所述阈值,为所述第一馈送分配第二通道;以及将来自所述第一馈送的馈送数据重定向到所述第二通道而不是所述第一通道。12.根据权利要求11所述的分布式计算系统,所述操作还包括:从第一馈送源接收用于注册所述第一馈送的请求;为所述第一馈送分配所述第一通道,使得所述第一通道仅接收来自所述第一馈送的数据;为所述第一馈送分配网络化连接,所述网络化连接被配置成接收来自所述第一馈送源的馈送数据;以及使所述网络化连接与所述第一通道相关联,使得所述分布式计算系统将来自所述第一馈送的所述馈送数据从所述网络化连接路由到所述第一通道。13.根据权利要求12所述的分布式计算系统,其中,将来自所述第一馈送的馈送数据重定向到所述第二通道包括:使所述网络化连接与所述第二通道相关联。14.根据权利要求13所述的分布式计算系统,所述操作还包括,在使所述网络化连接与所述第二通道相关联之后,解除分配所述第一通道,使得由所述第一通道使用的所述分布式计算系统的一个或多个计算资源变得可用于一个或多个其它通道。15.根据权利要求12所述的分布式计算系统,其中,所述分布式计算系统至少对被配置成为...

【专利技术属性】
技术研发人员:李熊高小明李烨韩冷朱磊
申请(专利权)人:皮沃塔尔软件公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1