一种基于多计算引擎的海量数据在线分析方法及其系统技术方案

技术编号:39488647 阅读:15 留言:0更新日期:2023-11-24 11:09
本发明专利技术提出了一种基于多计算引擎的海量数据在线分析方法及其系统,包括:响应于第三方应用发起的作业请求,并将所述作业请求提交到

【技术实现步骤摘要】
一种基于多计算引擎的海量数据在线分析方法及其系统


[0001]本专利技术属于数据处理
,具体涉及一种基于多计算引擎的海量数据在线分析方法及其系统


技术介绍

[0002]在大数据时代,如何高效地处理海量数据是每个数据科学家和工程师都需要面对的挑战

分布式计算作为一种高效处理海量数据的方式,在大数据计算引擎中发挥了重要作用

在大数据应用场景中,会话计算是一种非常有效的技术手段

通过分析用户行为数据,企业可以深度挖掘用户的需求和行为模式,并基于这些发现进行产品设计

运营策略和服务体验等方面的优化

[0003]然而,会话计算也面临着一些挑战和难点

例如,如何确定会话的准确界定,如何识别相似或重叠的会话以及如何进行实时处理和分析等问题

为了克服这些难点,会话计算需要结合分布式计算

机器学习和数据可视化等技术手段

这些技术可以帮助企业更好地理解用户行为数据,并利用这些信息开发出更加智能

高效的产品和服务

通过不断探索和应用这些技术,企业可以更好地服务于客户,提升市场竞争力,实现商业价值的最大化

[0004]Akka
是一个优秀的分布式计算框架,具有高可伸缩性

高并发性

高可靠性

分布式计算和响应式编程等多重优

通过基于
Actor
模型的设计,
Akka
可以将应用程序划分为独立的运算单元,这些单元之间可以异步接收和发送消息,并在必要时创建更多的
Actor
,从而轻松地扩展到多个节点,实现高度可伸缩的应用程序

同时,
Akka
还可以实现高效的并发编程,提高应用程序的性能和吞吐量;通过监视和恢复机制来保证应用程序的高可靠性,避免系统崩溃或数据丢失等问题;支持在不同的节点上部署
Actor
,构建复杂的分布式应用程序;并且支持响应式编程模型,实现非阻塞
IO
操作,提高应用程序的反应速度和可伸缩性

因此,采用
Akka
结合
Spark
来构建一套会话计算引擎架构体系可以提高数据的处理效率

以及计算的可靠性,系统的灵活性和可扩展性,同时也有利于降低系统维护成本

[0005]当前基于多计算引擎的海量数据在线分析面临着一些重要的问题,其中比较凸出的一个问题是由于分布式计算的复杂性,在基于多计算引擎的海量数据在线分析方法中实现高效的数据通信和同步仍然是一个挑战

[0006]有鉴于此,提出一种基于多计算引擎的海量数据在线分析方法及其系统是非常具有意义的


技术实现思路

[0007]为了解决现有基于多计算引擎的海量数据在线分析方法面临数据通信和同步效率低的问题,本专利技术提供一种基于多计算引擎的海量数据在线分析方法及其系统,以解决上述存在的技术缺陷问题

[0008]第一方面,本专利技术提出了一种基于多计算引擎的海量数据在线分析方法,该方法包括如下步骤:
[0009]响应于第三方应用发起的作业请求,并将所述作业请求提交到
web
端在线引擎作业队列;
[0010]引擎作业提交执行器
EJSR
轮询会话计算引擎作业队列,并取出作业信息
JCI
提交给会话计算引擎
WebActor

[0011]启动会话计算引擎
WebActor
,接收到所述作业信息后,将作业执行条件
JEC
发布到远程消息队列
MQT

Web
服务启动后自动启动会话计算引擎
Actor
,并订阅远程消息队列主题
MQT

[0012]同时启动作业执行器
JER
,所述作业执行器
JER
不断轮询作业队列,查看作业队列中是否存在作业信息
JCI
,轮询到作业信息
JCI
时创建并提交所述作业信息
JCI
给作业执行者
JERA
,作业执行者
JERA
调用具体引擎进行处理

[0013]优选的,还包括:
[0014]远程消息队列主题
MQT
在接收到发布的作业执行条件
JEC
之后,对订阅该
MQT
主题的会话计算引擎
Actor
进行广播;符合作业执行条件
JEC
的会话计算引擎
Actor

SeEActor
会发送可以接收作业信息
JCI
的消息给会话计算引擎
WebActor
,并创建一个第一计时器用于接收确认信息,会话计算引擎
WebActor
在接收到确认信息后关闭第一计时器;然后发送作业信息
JCI
给最先接收到发送符合条件确认信息的会话计算引擎
Actor

SeEActor
‑1,同时再创建一个第二计时器用于等待返回的确认信息;
SeEActor
‑1在接收到作业信息
JCI
之后,会关闭第二计时器,并将作业信息
JCI
发送到作业队列,同时也发送确认收到
JCI
的信息给会话计算引擎
WebActor

WseEActor
,此时
WSeEActor
会发送广播消息已过期的信息给其余
SeEActor

WSeEActor
在接收到确认信息后会关闭第三计时器,然后发送一个确认消息给
SeEActor
‑1,并结束

[0015]进一步优选的,还包括:
[0016]若第一计时器

第二计时器或第三计时器等待超时会抛出异常,然后统一持久化到分布式存储数据库,第三方应用会定时拉取分布式存储数据库对应的持久化表,以获取相关请求结果信息

[0017]进一步优选的,作业执行者
JERA
调用具体引擎进行处理具体包括:
[0018]作业执行者
JERA
调用初始化引擎方法,然后在执行作业前调用一下作业执行之前的预处理方法,完成之后调用开始作业的执行方法,作业结束后调用清理操作方法,并将结果持久化到分布式存储数据库;如果作业执行过程中报错,则调用对应的异常处理方法,并将异常信息持久化到分布式存储数据库;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多计算引擎的海量数据在线分析方法,其特征在于,该方法包括如下步骤:响应于第三方应用发起的作业请求,并将所述作业请求提交到
web
端在线引擎作业队列;引擎作业提交执行器
EJSR
轮询会话计算引擎作业队列,并取出作业信息
JCI
提交给会话计算引擎
WebActor
;启动会话计算引擎
WebActor
,接收到所述作业信息后,将作业执行条件
JEC
发布到远程消息队列
MQT

Web
服务启动后自动启动会话计算引擎
Actor
,并订阅远程消息队列主题
MQT
;同时启动作业执行器
JER
,所述作业执行器
JER
不断轮询作业队列,查看作业队列中是否存在作业信息
JCI
,轮询到作业信息
JCI
时创建并提交所述作业信息
JCI
给作业执行者
JERA
,作业执行者
JERA
调用具体引擎进行处理
。2.
根据权利要求1所述的基于多计算引擎的海量数据在线分析方法,其特征在于,还包括:远程消息队列主题
MQT
在接收到发布的作业执行条件
JEC
之后,对订阅该
MQT
主题的会话计算引擎
Actor
进行广播;符合作业执行条件
JEC
的会话计算引擎
Actor

SeEActor
会发送可以接收作业信息
JCI
的消息给会话计算引擎
WebActor
,并创建一个第一计时器用于接收确认信息,会话计算引擎
WebActor
在接收到确认信息后关闭第一计时器;然后发送作业信息
JCI
给最先接收到发送符合条件确认信息的会话计算引擎
Actor

SeEActor
‑1,同时再创建一个第二计时器用于等待返回的确认信息;
SeEActor
‑1在接收到作业信息
JCI
之后,会关闭第二计时器,并将作业信息
JCI
发送到作业队列,同时也发送确认收到
JCI
的信息给会话计算引擎
WebActor

WseEActor
,此时
WSeEActor
会发送广播消息已过期的信息给其余
SeEActor

WSeEActor
在接收到确认信息后会关闭第三计时器,然后发送一个确认消息给
SeEActor
‑1,并结束
。3.
根据权利要求2所述的基于多计算引擎的海量数据在线分析方法,其特征在于,还包括:若第一计时器

第二计时器或第三计时器等待超时会抛出异常,然后统一持久化到分布式存储数据库,第三方应用会定时拉取分布式存储数据库对应的持久化表,以获取相关请求结果信息
。4.
根据权利要求3所述的基于多计算引擎的海量数据在线分析方法,其特征在于,作业执行者
JERA
调用具体引擎进行处理具体包括:作业执行者
JERA
调用初始化引擎方法,然后在执行作业前调用一下作业执行之前的预处理方法,完成之后调用开始作业的执行方法,作业结束后调用清理操作方法,并将结果持久化到分布式存储数据库;如...

【专利技术属性】
技术研发人员:卢居辉甘朗杰周成祖朱海勇吴文林至贤
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1