【技术实现步骤摘要】
一种基于多计算引擎的大数据离线处理方法及其系统
[0001]本专利技术属于大数据
,具体涉及一种基于多计算引擎的大数据离线处理方法及其系统
。
技术介绍
[0002]随着互联网技术的飞速发展和普及,各行各业都在积极探索新的数据处理和分析方法
。
而大数据时代的到来,则将这种需求推向了一个全新的高度
。
在大数据应用场景下,如何高效地对海量的数据进行处理和分析,成为了各家公司和机构争相研究的焦点问题
。
离线计算作为一种传统的数据处理方式,在大数据应用场景下也得到了广泛的应用
。
分布式计算框架是大数据离线计算的核心技术之一,目前最为流行的开源分布式计算框架包括
Hadoop、Spark
等,这些框架能够有效地提升大数据处理的效率和可靠性
。
虽然大数据离线计算已经取得了一系列的成果,但是在实际应用中还存在一些技术挑战,其中一个比较凸出的难点就是计算效率问题
。
尽管目前已有多种分布式计算框架可供选择,但是如何进一步提升大数据离线计算的计算效率仍然是一个重要问题
。
[0003]Akka
是一个优秀的分布式计算框架,具有高可伸缩性
、
高并发性
、
高可靠性
、
分布式计算和响应式编程等多重优势
。
通过基于
Actor
模型的设计,
Akka
可以将应用程序划分为独立的运算单 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于多计算引擎的大数据离线处理方法,其特征在于,该方法包括如下步骤:响应于第三方应用通过
Web
端发起的作业请求,所述作业请求调用引擎执行器控制层接口
EECI
;引擎作业提交执行器
EJSR
会轮询独立引擎作业队列,并取出作业信息
JCI
提交给离线计算引擎
WebActor
‑
WSActor
;启动离线计算引擎
Actor
‑
SJEActor
,发送启动信息至离线计算引擎
WebActor
‑
WSActor
实例;同时启动作业执行器
JER
,所述作业执行器
JER
不断轮询作业队列,查看作业队列中是否存在作业信息
JCI
,轮询到作业信息
JCI
时创建并提交所述作业信息
JCI
给作业执行者
JERA
,作业执行者
JERA
调用具体引擎进行处理
。2.
根据权利要求1所述的基于多计算引擎的大数据离线处理方法,其特征在于,还包括:
SJEActor
实例启动后会给
WSActor
实例发送启动信息,并创建一个第一计时器,
WSActor
实例在接收到
SJEActor
实例启动信息后,创建一个第二计时器;然后把作业信息
JCI
发送给
SJEActor
实例,
SJEActor
实例在接收到作业信息
JCI
后关闭第二计时器,同时将作业信息
JCI
存放到作业队列中,并发送一个确认收到
JCI
的信息给
WSActor
实例,
WSActor
实例在收到确认信息后关闭第一计时器
。3.
根据权利要求2所述的基于多计算引擎的大数据离线处理方法,其特征在于,还包括:引擎执行器控制层接口
EECI
接口在接收到作业请求后,会调用一个引擎执行器服务类接口
EESI
;对传参进行参数校验,如果作业
ID
为空,则会抛出异常,如果作业
ID
不为空,则会根据引擎的运行模式把作业信息
JCI
提交给
Web
端独立引擎作业队列
。4.
根据权利要求3所述的基于多计算引擎的大数据离线处理方法,其特征在于,还包括:根据请求传参获取对应的作业
ID
,并启动一个名为此作业
ID
的离线计算引擎
WebActor
实例
‑
WSActor
,然后传入作业信息
JCI
;离线计算引擎
WebActor
‑
WSActor
接收到作业信息之后,调用引擎管理服务构建一个离线计算引擎
Actor
‑
SJEActor
启动命令;然后启动带有
WSActor
实例的
IP
地址与作业
技术研发人员:甘朗杰,卢居辉,朱海勇,魏超,林至贤,陈子沣,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。