一种基于多计算引擎的大数据离线处理方法及其系统技术方案

技术编号:39496937 阅读:7 留言:0更新日期:2023-11-24 11:25
本发明专利技术提出了一种基于多计算引擎的大数据离线处理方法及其系统,该方法包括如下步骤:响应于第三方应用通过

【技术实现步骤摘要】
一种基于多计算引擎的大数据离线处理方法及其系统


[0001]本专利技术属于大数据
,具体涉及一种基于多计算引擎的大数据离线处理方法及其系统


技术介绍

[0002]随着互联网技术的飞速发展和普及,各行各业都在积极探索新的数据处理和分析方法

而大数据时代的到来,则将这种需求推向了一个全新的高度

在大数据应用场景下,如何高效地对海量的数据进行处理和分析,成为了各家公司和机构争相研究的焦点问题

离线计算作为一种传统的数据处理方式,在大数据应用场景下也得到了广泛的应用

分布式计算框架是大数据离线计算的核心技术之一,目前最为流行的开源分布式计算框架包括
Hadoop、Spark
等,这些框架能够有效地提升大数据处理的效率和可靠性

虽然大数据离线计算已经取得了一系列的成果,但是在实际应用中还存在一些技术挑战,其中一个比较凸出的难点就是计算效率问题

尽管目前已有多种分布式计算框架可供选择,但是如何进一步提升大数据离线计算的计算效率仍然是一个重要问题

[0003]Akka
是一个优秀的分布式计算框架,具有高可伸缩性

高并发性

高可靠性

分布式计算和响应式编程等多重优势

通过基于
Actor
模型的设计,
Akka
可以将应用程序划分为独立的运算单元,这些单元之间可以异步接收和发送消息,并在必要时创建更多的
Actor
,从而轻松地扩展到多个节点,实现高度可伸缩的应用程序

同时,
Akka
还可以实现高效的并发编程,提高应用程序的性能和吞吐量;通过监视和恢复机制来保证应用程序的高可靠性,避免系统崩溃或数据丢失等问题;支持在不同的节点上部署
Actor
,构建复杂的分布式应用程序;并且支持响应式编程模型,实现非阻塞
IO
操作,提高应用程序的反应速度和可伸缩性

因此,采用
Akka
来构建离线计算架构体系可以提高数据的处理效率

以及计算的可靠性,系统的灵活性和可扩展性,同时也有利于降低系统维护成本

[0004]Akka
本身并不是一个专门用于离线计算的框架,但是可以通过
Akka
实现一些离线计算的功能


Akka
中,
Actor
可以看作是一个独立的计算单元,可以处理任务

保存状态和发送消息等操作

因此,可以使用
Akka
分布式
Actor
来实现对大数据的离线计算

[0005]有鉴于此,提出一种基于多计算引擎的大数据离线处理方法及其系统是非常具有意义的


技术实现思路

[0006]为了解决现有大数据离线计算的计算效率不高的问题,本专利技术提供一种基于多计算引擎的大数据离线处理方法及其系统,以解决上述存在的技术缺陷问题

[0007]第一方面,本专利技术提出了一种基于多计算引擎的大数据离线处理方法,该方法包括如下步骤:
[0008]响应于第三方应用通过
Web
端发起的作业请求,所述作业请求调用引擎执行器控制层接口
EECI

[0009]引擎作业提交执行器
EJSR
会轮询独立引擎作业队列,并取出作业信息
JCI
提交给离线计算引擎
WebActor

WSActor

[0010]启动离线计算引擎
Actor

SJEActor
,发送启动信息至离线计算引擎
WebActor

WSActor
实例;
[0011]同时启动作业执行器
JER
,所述作业执行器
JER
不断轮询作业队列,查看作业队列中是否存在作业信息
JCI
,轮询到作业信息
JCI
时创建并提交所述作业信息
JCI
给作业执行者
JERA
,作业执行者
JERA
调用具体引擎进行处理

[0012]优选的,还包括:
[0013]SJEActor
实例启动后会给
WSActor
实例发送启动信息,并创建一个第一计时器,
WSActor
实例在接收到
SJEActor
实例启动信息后,创建一个第二计时器;
[0014]然后把作业信息
JCI
发送给
SJEActor
实例,
SJEActor
实例在接收到作业信息
JCI
后关闭第二计时器,同时将作业信息
JCI
存放到作业队列中,并发送一个确认收到
JCI
的信息给
WSActor
实例,
WSActor
实例在收到确认信息后关闭第一计时器

[0015]进一步优选的,还包括:
[0016]引擎执行器控制层接口
EECI
接口在接收到作业请求后,会调用一个引擎执行器服务类接口
EESI

[0017]对传参进行参数校验,如果作业
ID
为空,则会抛出异常,如果作业
ID
不为空,则会根据引擎的运行模式把作业信息
JCI
提交给
Web
端独立引擎作业队列

[0018]进一步优选的,还包括:
[0019]根据请求传参获取对应的作业
ID
,并启动一个名为此作业
ID
的离线计算引擎
WebActor
实例

WSActor
,然后传入作业信息
JCI

[0020]离线计算引擎
WebActor

WSActor
接收到作业信息之后,调用引擎管理服务构建一个离线计算引擎
Actor

SJEActor
启动命令;
[0021]然后启动带有
WSActor
实例的
IP
地址与作业
ID
的作业程序命令,该程序通过
IP
地址与作业
ID

WSActor
实例建立连接通道

[0022]进一步优选的,还包括:
[0023]若第一计时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多计算引擎的大数据离线处理方法,其特征在于,该方法包括如下步骤:响应于第三方应用通过
Web
端发起的作业请求,所述作业请求调用引擎执行器控制层接口
EECI
;引擎作业提交执行器
EJSR
会轮询独立引擎作业队列,并取出作业信息
JCI
提交给离线计算引擎
WebActor

WSActor
;启动离线计算引擎
Actor

SJEActor
,发送启动信息至离线计算引擎
WebActor

WSActor
实例;同时启动作业执行器
JER
,所述作业执行器
JER
不断轮询作业队列,查看作业队列中是否存在作业信息
JCI
,轮询到作业信息
JCI
时创建并提交所述作业信息
JCI
给作业执行者
JERA
,作业执行者
JERA
调用具体引擎进行处理
。2.
根据权利要求1所述的基于多计算引擎的大数据离线处理方法,其特征在于,还包括:
SJEActor
实例启动后会给
WSActor
实例发送启动信息,并创建一个第一计时器,
WSActor
实例在接收到
SJEActor
实例启动信息后,创建一个第二计时器;然后把作业信息
JCI
发送给
SJEActor
实例,
SJEActor
实例在接收到作业信息
JCI
后关闭第二计时器,同时将作业信息
JCI
存放到作业队列中,并发送一个确认收到
JCI
的信息给
WSActor
实例,
WSActor
实例在收到确认信息后关闭第一计时器
。3.
根据权利要求2所述的基于多计算引擎的大数据离线处理方法,其特征在于,还包括:引擎执行器控制层接口
EECI
接口在接收到作业请求后,会调用一个引擎执行器服务类接口
EESI
;对传参进行参数校验,如果作业
ID
为空,则会抛出异常,如果作业
ID
不为空,则会根据引擎的运行模式把作业信息
JCI
提交给
Web
端独立引擎作业队列
。4.
根据权利要求3所述的基于多计算引擎的大数据离线处理方法,其特征在于,还包括:根据请求传参获取对应的作业
ID
,并启动一个名为此作业
ID
的离线计算引擎
WebActor
实例

WSActor
,然后传入作业信息
JCI
;离线计算引擎
WebActor

WSActor
接收到作业信息之后,调用引擎管理服务构建一个离线计算引擎
Actor

SJEActor
启动命令;然后启动带有
WSActor
实例的
IP
地址与作业

【专利技术属性】
技术研发人员:甘朗杰卢居辉朱海勇魏超林至贤陈子沣
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1