流式数据处理方法、系统及存储介质技术方案

技术编号:38821623 阅读:35 留言:0更新日期:2023-09-15 20:00
本发明专利技术提供了一种流式数据处理方法、系统及存储介质,属于大数据处理领域。包括如下步骤:监听多条数据源,对于处于激活状态的采集任务,将数据推送到消息队列中;根据消息队列中的数据,判断所需的输入数据是否可用,将计算任务划分成多个独立或并行执行的子计算任务;根据子计算任务,将每个计算任务定义一个或多个输入数据包和输出数据包;判断当前已启动的子计算任务是否完成:一旦某个子计算任务完成,则向资源调度模块发送通知,接收到通知后,回收已完成的子计算任务所占用的内存资源。本发明专利技术提出的方法在数据安全性、权限管理、复杂流任务处理、容错能力以及处理速度等方面相比现有技术具有显著优势。相比现有技术具有显著优势。相比现有技术具有显著优势。

【技术实现步骤摘要】
流式数据处理方法、系统及存储介质


[0001]本专利技术涉及大数据处理领域,尤其涉及流式数据处理方法、系统及存储介质。

技术介绍

[0002]现有的流式处理技术,包括Apache Flink和Apache Storm,已经在大数据处理领域取得了显著的成就。然而,它们在数据安全保护和复杂流任务处理方面仍存在一些挑战。
[0003]Apache Flink在流处理领域表现优秀,具有处理速度快、延迟低的特点。但是,它在数据安全性和权限管理方面的功能却相对较弱,缺乏有效的安全机制以保护敏感数据,这在大数据环境下尤其显得关键。其次,尽管Flink支持一些复杂的流任务,但在处理大规模、复杂的流数据任务时,可能会面临效率降低的问题。
[0004]Apache Storm是一种基于JVM的开源分布式实时计算流式引擎,广泛应用于实时分析、在线机器学习、连续计算、分布式RPC等任务。然而,Storm的数据安全性问题也较为突出。另一方面,虽然Storm在处理大规模流数据方面有其独特优势,但在复杂流任务处理能力上相对较弱。
[0005]以上所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种流式数据处理方法,其特征在于,包括如下步骤:监听多条数据源,针对所述数据源创建采集任务,检测所述采集任务的状态,找出处于激活状态的任务;对于处于激活状态的采集任务,将数据推送到消息队列Kafka中,以便在有新数据时进行数据采集;根据推送到消息队列Kafka中的数据,判断所需的输入数据是否可用,将一系列计算规则和数据流组织成计算任务数据包存储在内存中,根据最小计算规则因子,将计算任务划分成多个独立或者可以并行执行的子计算任务;根据划分的所述子计算任务,将每个计算任务定义一个或多个输入数据包和一个或多个输出数据包;核实两个计算阶段执行顺序或是否能同时执行;监控和判断当前已启动的子计算任务是否完成:一旦某个子计算任务完成,则向资源调度模块发送通知;资源调度模块接收到通知后,回收已完成的子计算任务所占用的内存资源。2.根据权利要求1所述的流式数据处理方法,其特征在于,所述子计算任务的划分规则包括:规则a、一个计算任务所需的输入数据是否依赖于其他任务或操作的输出结果,若依赖,则将当前计算任务划分为子任务;规则b、执行某个计算任务所需的计算量或处理时间是否处于预设区间A内;规则c、用于执行计算任务或操作的资源数量是否处于预设区间B内;在执行计算子任务前,按照上述规则a至规则c,并初始间隔值,从接收器中取出相应的数据,将这些数据组织成一个子计算任务。3.根据权利要求1所述的流式数据处理方法,其特征在于,核实两个计算阶段执行顺序或是否能同时执行,进一步包括:检查每一个计算阶段的先行条件,即当前计算阶段能够正确运行所需要满足的条件;条件包括:所有的输入数据都已经准备好、所有必要的流式引擎资源都已经分配给了当前阶段;判断子计算任务并行性:当所有的先行条件都已经满足时,判断下一个计算阶段是否能与当前已启动的计算阶段同时运行;判断依据包括:两个阶段之间没有数据依赖关系、流式引擎资源充足可以同时运行两个阶段;判断初始间隔值下的批次处理时间是否大于等于N倍的初始间隔值:若处理时间大于等于初始间隔值的N倍,则启动A级调整程序:设置下一个批次间隔值为当前间隔值的N倍;按照新计算的下一个批次间隔值从接收器中取出对应的数据,对这些数据进行计算,并记录处理时间;若处理时间小于初始间隔值的N倍,则启动B级调整程序:设定下一个批次间隔值是当前批次间隔值N倍内的某个数,并且随着运行次数的增加,批次间隔值逐渐减少;按照新计算的下一个批次间隔值从接收器中取出对应的数据,进行处理,并记录处理时间;在确认两个计算阶段可以同时执行,并且不会影响整体运行结果的情况下,子计算任务同时执行两个计算阶段。4.根据权利要求3所述的流式数据处理方法,其特征在于,N取值区间为(1,2)。5.根据权利要求1所述的流式数据处理方法,其特征在于,还包括:
当处理多任务流数据时,确定两个任务的最佳间隔值,使得数据处理时间等于间隔值;从两个最佳间隔值中选择小于预定值的一个作为实际使用的间隔值;判断两个连续批次的间隔值是否超过较大的最佳间隔值:如果超过,则对间隔值进行调整;新的批次的间隔值基于前一个间隔值确定。6.根据权利要求1所述的流式数据处理方法,其特征在于,在对子计算任务计算时,采用并行组计算策略,包括:设定组的初始批次间隔值,使用一个调整因子ρ将调整为本组第一批次间隔值t1的初始值,然后进行第一批次的计算,计算完成后,本组第一批次的执行时间记为p(t1);使用p(t1)作为本组第二批次间隔值t2的初始值;对t2进行调整后得到最终的t2值,然后进行第二批次的计算,计算完成后,本组第二批次的执行时间记为p(t2);根据以下公式计算下一组的批次初始间隔值

next:

next=+ρ*(p(t2)

p(t1));式中,p(t2)和p(t1)分别为本组第二批次和第一批次的执行时间,为本组的初始批次间隔值;下一组的初始间隔值

next取决于本组的初始间隔值和两个批次的执行时间差。7.根据权利要求1所述的流式数据处理方法,其特征在于:在对子计算任务计算时,还包括采用三阶段计算方法提高高并发态势下的数据处理效率,包括模糊层次聚类、粗粒度聚类树适配以及细粒度聚类簇调度三个阶段。8.根据权利要求7所述的流式数据处理方法,其特征在于,模糊层次聚类的过程包括:对于每个到达的数据点,实时计算其对每个聚类的隶属度;根据新的数据点的隶属度,更新当前的聚类结果;利用模糊层次聚类算法的特性,对数据进行多级划分,形成一个层次结构;利用模糊层次聚类的模糊性处理数据的不确定性和模糊性;当数据存在问题时,向发送方重新请求部分数据。...

【专利技术属性】
技术研发人员:赵丹怀艾怀丽孟浩王一淳陆田
申请(专利权)人:中国移动紫金江苏创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1