用于创建海量数据实时分拣系统的方法及其装置制造方法及图纸

技术编号:17615069 阅读:57 留言:0更新日期:2018-04-04 06:26
本发明专利技术涉及用于创建海量数据实时分拣系统的方法及其装置,该方法包括对实时接入数据进行规范设计,并对接入数据进行分配存储;设计编程模型;设计实时计算内部组织;设计实时计算EPL模型。本发明专利技术通过对接入数据的设计、分配、编程模型的设计、实时计算内部组织的设计以及实时计算EPL模型的设计,建立分布式的基于push‐subscribe的消息系统,用于实时分拣海量数据,该系统具备快速、可扩展、可持久化的效果,使其可以实时的处理大量数据以满足各种需求场景。

A method and device for creating a real time sorting system for mass data

The invention relates to a method for creating massive real-time data sorting system and device, the method includes design of real-time access to data, and storage allocation to access data; programming model; design of real-time calculation of internal organization; design of real time calculation of EPL model. The data access design, distribution, programming model design, real-time calculation of internal organization design and real-time calculation of EPL model design, the establishment of information system based on distributed push - subscribe, for real-time sorting of massive data, the system has fast, scalable, persistent effect, so that it can be the real-time processing of large amounts of data to meet the various needs of the scene.

【技术实现步骤摘要】
用于创建海量数据实时分拣系统的方法及其装置
本专利技术涉及海量数据分拣方法,更具体地说是指用于创建海量数据实时分拣系统的方法及其装置。
技术介绍
当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息,在大数据时代,我们面临如下三大挑战,如何收集这些巨大的信息、如何分析它以及如何及时做到如上两点;以上三个挑战形成了一个业务需求模型,即生产者生产各种信息,消费者消费信息,而在生产者与消费者之间,需要一个沟通两者的桥梁即消息系统。从一个微观层面来说,这种需求也可理解为不同的系统之间如何传递消息,即如何进行数据的实时分拣。目前采用RabbitMQ、ZeroMQ以及ActiveMQ三种消息处理方式进行数据实时分拣,RabbitMQ是使用Erlang编写的一个开源的消息队列,本身支持很多的协议有AMQP、XMPP、SMTP、STOMP,更适合于企业级的开发,同时实现了Broker构架,这意味着消息在发送给客户端时先在中心队列排队。对路由,负载均衡或者数据持久化都有很好的支持;Redis是一个基于Key-Value对的NoSQL数据库,开发维护很活跃,入队时,当数据比本文档来自技高网...
用于创建海量数据实时分拣系统的方法及其装置

【技术保护点】
用于创建海量数据实时分拣系统的方法,其特征在于,所述方法包括:对实时接入数据进行规范设计,并对接入数据进行分配存储;设计编程模型;设计实时计算内部组织;设计实时计算EPL模型。

【技术特征摘要】
1.用于创建海量数据实时分拣系统的方法,其特征在于,所述方法包括:对实时接入数据进行规范设计,并对接入数据进行分配存储;设计编程模型;设计实时计算内部组织;设计实时计算EPL模型。2.根据权利要求1所述的用于创建海量数据实时分拣系统的方法,其特征在于,设计编程模型的步骤,包括以下具体步骤:提交作业,并启动任务控制节点;利用作业内的执行进程以线程方式运行任务;任务控制节点接收接入数据,生成块,将块的ID汇报给任务控制节点,并备份到另外一个执行进程;维护任务控制节点汇报的块的ID;定时启动任务发生器,根据仿真器的关系生成逻辑RDD,创建任务椎并发送至任务调度器;调度任务椎并发送至给DAG调度器,DAG调度器根据逻辑RDD生成相应的阶段;将任务调度到执行进程上,并维护任务的运行状态。3.根据权利要求2所述的用于创建海量数据实时分拣系统的方法,其特征在于,设计实时计算内部组织的步骤,包括以下具体步骤:获取提交的计算应用,并构建基本运行环境;向资源管理器注册并申请运行执行进程的资源;分配资源至执行进程,并启动执行进程,执行进程运行情况发送至资源管理器上;根据RDD的依赖关系构建DAG图,并发送至DAG调度器进行解析将DAG图分解成多个阶段,计算出各个阶段之间的依赖关系,将阶段的任务集提交至底层的任务调度器进行处理;执行进程向SparkContext申请任务,任务调度器将任务分发给执行进程运行,且将应用程序代码发放给执行进程;获取执行进程运行任务的执行结果,并反馈给任务调度器以及DAG调度器;写入数据并释放所有任务集的资源。4.根据权利要求3所述的用于创建海量数据实时分拣系统的方法,其特征在于,所述方法包括:构建Spark,将Spark批处理程序变成streaming程序。5.根据权利要求4所述的用于创建海量数据实时分拣系统的方法,其特征在于,构建spark,将spark批处理程序变成streaming程序的步骤,构建spark时需要构建一个静态RDDDAG模板、一个动态工作控制器、DAG实例、任务控制节点以及长时运行任务的保障处理。6.根据权利要求5所述的用于创建海量数据实时分拣系统的方法,其特征在于,设计实时计算EPL模型的步骤,具体是对实时事件处理引擎进行设计。7.用于创建海量数据实时分拣系统的装置,其特征在于,包括数据设计单元、编程模型设计...

【专利技术属性】
技术研发人员:官辉顾正
申请(专利权)人:深圳市华成峰科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1