一种面向迭代式海量实时流计算方法技术

技术编号:13338144 阅读:140 留言:0更新日期:2016-07-13 10:22
本发明专利技术提出了一种面向迭代式海量实时流计算方法,属于[在线,批处理/流处理,Iterative]类型的大数据编程模型,包括以下步骤:步骤一、搭建集群环境;步骤二、开发拓扑结构,上传拓扑任务到大数据集群环境;步骤三、打开监控页面;步骤四、启动监控器,感知拓扑结构的运行状态。本发明专利技术提出了一种面向迭代式海量实时流计算方法,能够为特定算法或应用提供数据迭代计算的编程基础;具有低延迟、迭代计算、内存计算、高度并行等优点;在充分利用现有的大数据底层通信技术的前提下,实时读取海量流数据,迭代计算并行化的数据流,达到满足特定业务下数据迭代计算的需求。

【技术实现步骤摘要】

本专利技术涉及云计算大数据计算、分布式计算、流式计算领域,具体涉及到一种面向迭代式海量实时流计算方法
技术介绍
海量数据的计算是大数据产生和发展的基础,目前流行的基于海量数据的编程模型可以分为在线型与离线型、流处理型与批处理型、DAG型与Iterative型等。例如Hadoop可以分为[离线,批处理,DAG]型,Storm可以分为[在线,流处理,DAG]型,Haloop可以分为[离线,批处理,Iterative]型。然而,目前还没有找到[在线,流处理,Iterative]型的大数据计算框架,而现实应用中有很多类似的应用场景,例如在线推介系统。因此,目前亟待开发出一种能在线迭代式处理流数据的编程模型。
技术实现思路
为解决现有技术的不足,本专利技术提出一种面向迭代式海量实时流计算方法,实现了一种新的大数据下的在线、迭代、内存计算模型,弥补了当前业界对编程模型的不足。本专利技术的技术方案是这样实现的:一种面向迭代式海量实时流计算方法,属于[在线,批处理/流处理,Iterative]类型的大数据编程模型,包括以下步骤:步骤一、搭建集群环境;步骤二、开发拓扑结构,上传拓扑任务到大数据集群环境;步骤三、打开监控页面;步骤四、启动监控器,感知拓扑结构的运行状态。可选地,所述步骤一中的集群环境由6台服务器组成,协同运行在一个私有网络空间里面,共同形成所述面向迭代式海量实时流计算方法的编程模型的物理环境。可选地,所述拓扑结构由多层前后连接而成,网络层的个数、每一层的分析器个数、层与层之间消息元组的数据结构、层与层之间的数据流的流动方式按照不同业务需求动态调整。可选地,所述拓扑结构按照批数据计算的方式进行。可选地,所述批数据计算的方式,具体为:当前一批数据在环形编程模型进行多次迭代计算,满足结束计算阈值时候,当前数据落地,然后下一批计算数据才进入编程模型。可选地,所述拓扑结构的具体流程为:首先需要建立模型实例,然后设置拓扑结构的层数,然后设置每一层分析器的个数,最后设置数据的流动模式和输入与输出。本专利技术的有益效果是:(1)专注于内存计算,满足实时性的要求,而实时性是很多业务系统的要求之一,例如在线推介系统、肇事车辆逃逸跟踪、在线游戏用户行为分析等等。(2)适合海量数据下的数据挖掘、机器学习、智能计算等算法的训练学习。人工智能很多算法需要迭代式计算,例如RNN(recurrentneuralnetwork)的学习过程就涉及到训练数据的迭代计算,多层反馈神经网络的训练也涉及到参数的迭代反馈,在海量数据下,这样的训练学习在分布式环境下能将训练时间大大提高。(3)本专利技术方法的拓扑结构由多层前后连接而成(如图1所示),网络层的个数、每一层的分析器个数、层与层之间消息元组的数据结构(如图2所示)、层与层之间的数据流的流动方式可以按照不同业务需求动态调整。(4)按照“批数据计算”的方式进行。当前一批数据在此环形编程模型进行多次迭代计算,满足结束计算阈值时候,当前数据落地,然后下一批计算数据才进入此编程模型。迭代次数、从哪一层进入或者退出编程模型、每一批数据量大小等参数都是可以灵活改变的。(5)能灵活对接多种消息队列(例如RabbitMQ、JMS、ActiveMQ、RocketMQ等)、HTTP连接、RPC、HBase等目前市场上常见的数据接口。为了防止数据接口异构性,本专利技术提供了一套统一的适配器;同时,为了监控迭代计算任务在分布式环境下的运行状态,本专利技术也提供了一套用于集群监控的API接口。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种面向迭代式海量实时流计算方法的编程模型示意图;图2为本专利技术一种面向迭代式海量实时流计算方法的编程模型的数据流示意图;图3为本专利技术一种面向迭代式海量实时流计算方法的编程模型物理集群示意图;图4为本专利技术一种面向迭代式海量实时流计算方法的编程模型一个具体实施例的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提出了一种面向迭代式海量实时流计算方法,属于[在线,批处理/流处理,Iterative]类型的大数据编程模型,能够在线对获得的流数据进行迭代式的计算。下面结合说明书附图对本专利技术的面向迭代式海量实时流计算方法进行详细说明:步骤一、搭建集群环境,图3示出了一个集群环境的具体实施例,该集群环境由6台服务器组成,协同运行在一个私有网络空间里面,共同形成本专利技术提出的一种面向迭代式海量实时流计算方法的编程模型的物理环境。步骤二、开发拓扑结构,上传拓扑任务到大数据集群环境。优选地,开发如图1所示的拓扑结构,指定每一层的名称、个数等参数配置。本专利技术提出的拓扑结构由多层前后连接而成,如图1所示。网络层的个数、每一层的分析器个数、层与层之间消息元组的数据结构(如图2所示)、层与层之间的数据流的流动方式可以按照不同业务需求动态调整。本专利技术提出的拓扑结构是按照“批数据计算”的方式进行的。当前一批数据在此环形编程模型进行多次迭代计算,满足结束计算阈值时候,当前数据落地,然后下一批计算数据才进入此编程模型。迭代次数、从哪一层进入或者退出编程模型、每一批数据量大小等参数都是可以灵活改变的。本专利技术提出的拓扑结构能灵活对接多种消息队列(例如RabbitMQ、JMS、ActiveMQ、RocketMQ等)、HTTP连接、RPC、HBase等目前市场上常见的数据接口。为了防止数据接口异构性,本专利技术提出了一套统一的适配器。同时,为了监控迭代计算任务在分布式环境下的运行状态,本专利技术也提供了一套用于集群监控的API接口。本专利技术拓扑结构的具体流程如图4所示:首先需要建立模型实例,也就是创建此模型的软件内存实例,然后设置拓扑结构的层数(例如图1中,层数是6),然后设置每一层分析器的个数(例如图1中,每层个本文档来自技高网...

【技术保护点】
一种面向迭代式海量实时流计算方法,其特征在于,属于[在线,批处理/流处理,Iterative]类型的大数据编程模型,包括以下步骤:步骤一、搭建集群环境;步骤二、开发拓扑结构,上传拓扑任务到大数据集群环境;步骤三、打开监控页面;步骤四、启动监控器,感知拓扑结构的运行状态。

【技术特征摘要】
1.一种面向迭代式海量实时流计算方法,其特征在于,属于[在线,批处理
/流处理,Iterative]类型的大数据编程模型,包括以下步骤:
步骤一、搭建集群环境;
步骤二、开发拓扑结构,上传拓扑任务到大数据集群环境;
步骤三、打开监控页面;
步骤四、启动监控器,感知拓扑结构的运行状态。
2.如权利要求1所述的面向迭代式海量实时流计算方法,其特征在于,所
述步骤一中的集群环境由6台服务器组成,协同运行在一个私有网络空间里面,
共同形成所述面向迭代式海量实时流计算方法的编程模型的物理环境。
3.如权利要求1所述的面向迭代式海量实时流计算方法,其特征在于,所
述拓扑结构由多层前后连接而成,网络层的个数、每一层的分析器个数、层...

【专利技术属性】
技术研发人员:张卫山段鹏程宫文娟卢清华李忠伟
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1