基于计算框架的数据处理方法、装置、设备和存储介质制造方法及图纸

技术编号:28941859 阅读:21 留言:0更新日期:2021-06-18 21:47
本申请提供一种基于计算框架的数据处理方法、装置、设备和存储介质,其中该方法包括:在基于计算框架接收数据时,在确定对数据接收速度进行限速时,确定第一数据量,第一数据量是与当前时间片对应的数据的第一数据条数;在确定第一数据量与预存的第二数据量之间的数据差值大于预设值、且第一数据量小于第二数据量时,第二数据量是与前一个时间片对应的数据的第二数据条数,将排队中的数据进行合并;将归属于同一批次的合并数据,以批次处理方式进行数据处理。将排队中的数据进行合并处理,得到至少一个批次的合并数据。将排队中的数据进行合并处理,可以将数据提前进行处理,避免了数据持续堆积,有效的提升了基于计算框架的数据处理效率。

【技术实现步骤摘要】
基于计算框架的数据处理方法、装置、设备和存储介质
本申请涉及数据处理
,尤其涉及一种基于计算框架的数据处理方法、装置、设备和存储介质。
技术介绍
随着数据处理技术的发展,对于大数据的处理要求也越来越高。现在为了满足对实时性数据的处理需求,提供了一种SparkStreaming计算框架。SparkStreaming可以提供丰富的API、基于内存的高速执行引擎。现在,可以通过SparkStreaming计算框架,在每一个时间片上接收数据;然后,将每一个时间片上的数据作为一个整体进行处理。具体的,通过SparkStreaming计算框架,规定了时间片的时间长度;在第一个时间片内接收数据,然后将与第一时间片对应的数据做为一个批次进行处理;然后,在第二时间片内接收数据,然后将与第二时间片对应的数据做为一个批次进行处理;以此类推。然而现有技术中,在基于SparkStreaming计算框架接收数据和处理数据的时候,由于是将每一个时间片上的数据作为一个整体进行处理,需要先在一个时间片内接收数据,然后再将与该时间片对应的这些数据进行处理,从而会出现在与上一个时间片对应的数据没有处理结束时,下一个时间片的数据就开始进行接收了,进而会造成数据堆积的情况,进而会造成数据处理效率较低。
技术实现思路
本申请提供一种基于计算框架的数据处理方法、装置、设备和存储介质,用以解决基于计算框架的数据处理过程中的数据堆积、数据处理效率较低的问题。第一方面,本申请提供了一种基于计算框架的数据处理方法,所述方法包括:在基于计算框架接收数据时,在确定对数据接收速度进行限速时,确定第一数据量,其中,所述第一数据量是与当前时间片对应的数据的第一数据条数,并且,与当前时间片对应的数据是位于处理状态的数据;在确定所述第一数据量与预存的第二数据量之间的数据差值大于预设值、且所述第一数据量小于所述第二数据量时,其中,所述第二数据量是与前一个时间片对应的数据的第二数据条数,将排队中的数据进行合并,得到归属于同一批次的合并数据,其中,所述排队中的数据是在所述当前时间片内接收到的、且未处理的数据;将归属于同一批次的合并数据,以批次处理方式进行数据处理。进一步地,所述将排队中的数据进行合并,得到归属于同一批次的合并数据,包括:根据所述排队中的数据的数据总条数、以及预设的平均条数,确定批次个数N,其中,N为大于等于1的正整数;根据所述批次个数N,将所述排队中的数据进行合并,得到N个批次的合并数据;将归属于同一批次的合并数据,以批次处理方式进行数据处理,包括:将N个批次的合并数据中的每一个批次的合并数据,分别以批次处理方式进行数据处理。进一步地,所述批次个数其中,S是所述数据总条数,T是所述平均条数。进一步地,在根据所述排队中的数据的数据总条数、以及预设的平均条数,确定批次个数N之前,还包括:获取与多个时间片中每一个时间片对应的数据的时间片内数据条数,其中,所述多个时间片为在所述的当前时间片之前的时间片;将各所述时间片内数据条数的平均值,做为所述平均条数。进一步地,所述在确定对数据接收速度进行限速时,确定第一数据量之前,还包括:获取所述当前时间片的第一时间长度,并获取处理与当前时间片所对应的数据所需要的第二时间长度;在确定所述第二时间长度大于所述第一时间长度时,对数据接收速度进行限速。进一步地,所述方法,还包括:在确定所述第二时间长度小于等于所述第一时间长度时,以预设速度对与每一个时间片对应的数据进行处理。进一步地,所述方法,还包括:在确定所述第一数据量与预存的第二数据量之间的数据差值小于等于预设值、且所述第一数据量小于所述第二数据量时,或者在确定所述第一数据量大于等于所述第二数据量时,以预设速度与每一个时间片对应的数据进行处理。第二方面,本申请提供了一种基于计算框架的数据处理装置,所述装置包括:第一确定单元,用于在基于计算框架接收数据时,在确定对数据接收速度进行限速时,确定第一数据量,其中,所述第一数据量是与当前时间片对应的数据的第一数据条数,并且,与当前时间片对应的数据是位于处理状态的数据;合并单元,用于在确定所述第一数据量与预存的第二数据量之间的数据差值大于预设值、且所述第一数据量小于所述第二数据量时,其中,所述第二数据量是与前一个时间片对应的数据的第二数据条数,将排队中的数据进行合并,得到归属于同一批次的合并数据,其中,所述排队中的数据是在所述当前时间片内接收到的、且未处理的数据;第一处理单元,用于将归属于同一批次的合并数据,以批次处理方式进行数据处理。进一步地,所述合并单元,包括:确定模块,用于根据所述排队中的数据的数据总条数、以及预设的平均条数,确定批次个数N,其中,N为大于等于1的正整数;合并模块,用于根据所述批次个数N,将所述排队中的数据进行合并,得到N个批次的合并数据;所述第一处理单元,具体用于:将N个批次的合并数据中的每一个批次的合并数据,分别以批次处理方式进行数据处理。进一步地,所述批次个数其中,S是所述数据总条数,T是所述平均条数。进一步地,所述装置,还包括:第二确定单元,用于在所述确定模块根据所述排队中的数据的数据总条数、以及预设的平均条数,确定批次个数N之前,获取与多个时间片中每一个时间片对应的数据的时间片内数据条数,其中,所述多个时间片为在所述的当前时间片之前的时间片;将各所述时间片内数据条数的平均值,做为所述平均条数。进一步地,所述装置,还包括:获取单元,用于所述第一确定单元在确定对数据接收速度进行限速时,确定第一数据量之前,获取所述当前时间片的第一时间长度,并获取处理与当前时间片所对应的数据所需要的第二时间长度;限速单元,用于在确定所述第二时间长度大于所述第一时间长度时,对数据接收速度进行限速。进一步地,所述装置,还包括:第二处理单元,用于在确定所述第二时间长度小于等于所述第一时间长度时,以预设速度对与每一个时间片对应的数据进行处理。进一步地,所述装置,还包括:第三处理单元,用于在确定所述第一数据量与预存的第二数据量之间的数据差值小于等于预设值、且所述第一数据量小于所述第二数据量时,或者在确定所述第一数据量大于等于所述第二数据量时,以预设速度与每一个时间片对应的数据进行处理。第三方面,本申请提供了一种基于计算框架的数据处理设备,包括用于执行以上第一方面的任一方法各个步骤的单元或者手段(means)。第四方面,本申请提供了一种基于计算框架的数据处理设备,包括处理器、存储器以及计算机程序,其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现第一方面的任一方法。第五方面,本申请提供了一种基于计算框架的数据处理设备,包括用于执行以上第一方面的任一方法的至少一个处理元件或芯片。本文档来自技高网...

【技术保护点】
1.一种基于计算框架的数据处理方法,其特征在于,所述方法包括:/n在基于计算框架接收数据时,在确定对数据接收速度进行限速时,确定第一数据量,其中,所述第一数据量是与当前时间片对应的数据的第一数据条数,并且,与当前时间片对应的数据是位于处理状态的数据;/n在确定所述第一数据量与预存的第二数据量之间的数据差值大于预设值、且所述第一数据量小于所述第二数据量时,其中,所述第二数据量是与前一个时间片对应的数据的第二数据条数,将排队中的数据进行合并,得到归属于同一批次的合并数据,其中,所述排队中的数据是在所述当前时间片内接收到的、且未处理的数据;/n将归属于同一批次的合并数据,以批次处理方式进行数据处理。/n

【技术特征摘要】
1.一种基于计算框架的数据处理方法,其特征在于,所述方法包括:
在基于计算框架接收数据时,在确定对数据接收速度进行限速时,确定第一数据量,其中,所述第一数据量是与当前时间片对应的数据的第一数据条数,并且,与当前时间片对应的数据是位于处理状态的数据;
在确定所述第一数据量与预存的第二数据量之间的数据差值大于预设值、且所述第一数据量小于所述第二数据量时,其中,所述第二数据量是与前一个时间片对应的数据的第二数据条数,将排队中的数据进行合并,得到归属于同一批次的合并数据,其中,所述排队中的数据是在所述当前时间片内接收到的、且未处理的数据;
将归属于同一批次的合并数据,以批次处理方式进行数据处理。


2.根据权利要求1所述的方法,其特征在于,所述将排队中的数据进行合并,得到归属于同一批次的合并数据,包括:
根据所述排队中的数据的数据总条数、以及预设的平均条数,确定批次个数N,其中,N为大于等于1的正整数;
根据所述批次个数N,将所述排队中的数据进行合并,得到N个批次的合并数据;
将归属于同一批次的合并数据,以批次处理方式进行数据处理,包括:
将N个批次的合并数据中的每一个批次的合并数据,分别以批次处理方式进行数据处理。


3.根据权利要求2所述的方法,其特征在于,所述批次个数
其中,S是所述数据总条数,T是所述平均条数。


4.根据权利要求2所述的方法,其特征在于,在根据所述排队中的数据的数据总条数、以及预设的平均条数,确定批次个数N之前,还包括:
获取与多个时间片中每一个时间片对应的数据的时间片内数据条数,其中,所述多个时间片为在所述的当前时间片之前的时间片;
将各所述时间片内数据条数的平均值,做为所述平均条数。


5.根据权利要求1-4任一项所述的方法,其特征在于,所述在确定对数据接收速度进行限速时,确定第一数据量之前,还包括:
获取所述当前时间片的第一时间长度,并获取处理与当前时间片所对应的数据所需要的第二时间长度;
在确定所述第二时间长度大于所述第一时间长度时,对数据接收速度进行限速。


6.根据权利要求5所述的方法,其特征在于,所述方法,还包括:
在确定所述第二时间长度小于等于所述第一时间长度时,以预设速度对与每一个时间片对应的数据进行处理。


7.根据权利要求1-4任一项所述的方法,其特征在于,所述方法,还包括:
在确定所述第一数据量与预存的第二数据量之间的数据差值小于等于预设值、且所述第一数据量小于所述第二数据量时,或者在确定所述第一数据量大于等于所述第二数据量时,以预设速度与每一个时间片对应的数据进行处理。


8.一种基于计算框架的数据处理装置,其特征在于,所述装置包括:
第一确定单元,用于在基于计算框架接收数据时,在确定对数据接收速度进行限速时,确定第一数据量,其中,所述第一数据量是与当前时间片对应的数据的第一数据条数,并且,与当前时间片对应...

【专利技术属性】
技术研发人员:安金龙刘业辉张宁张飞王彦明
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1