数据处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37489056 阅读:24 留言:0更新日期:2023-05-07 09:27
本申请涉及一种数据处理方法、装置、电子设备和存储介质,应用于计算机技术领域,其中,该方法应用于计算引擎,所述计算引擎中包括一组算子,方法包括:将待处理数据进行切分,得到N份切分数据,其中,N为大于1的整数;对所述一组算子进行复制,得到M组算子,其中,M为大于1的整数;将所述切分数据分发至每组算子中。以解决现有技术中,采用算子内并行的方式,每次的互斥访问会造成计算引擎耗费较多的时间进行互斥运算,从而使得处理效率较低的问题。从而使得处理效率较低的问题。从而使得处理效率较低的问题。

【技术实现步骤摘要】
数据处理方法、装置、电子设备和存储介质


[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、电子设备和存储介质。

技术介绍

[0002]分析型数据库计算引擎在对数据进行处理时,将本节点数据读取到内存中交给算子处理,一个算子处理完毕,将处理结果交给下一个算子,直到处理完毕将结果集发送给客户端。
[0003]相关技术中,对于计算引擎中的每个算子会创建多个子线程,将数据切分成多份分别交给每个线程处理。
[0004]但是,上述方式,采用算子内并行的方式对数据进行处理,在每组算子内会共享一些全局数据需要互斥访问,每次的互斥访问会造成计算引擎耗费较多的时间进行互斥运算,从而使得处理效率较低。

技术实现思路

[0005]本申请提供了一种数据处理方法、装置、电子设备和存储介质,用以解决现有技术中,采用算子内并行的方式,每次的互斥访问会造成计算引擎耗费较多的时间进行互斥运算,从而使得处理效率较低的问题。
[0006]第一方面,本申请实施例提供了一种数据处理方法,应用于计算引擎,所述计算引擎中包括一组算子,所述方法包括:
[0007]将待处理数据进行切分,得到N份切分数据,其中,N为大于1的整数;
[0008]对所述一组算子进行复制,得到M组算子,其中,M为大于1的整数;
[0009]将所述切分数据分发至每组算子中。
[0010]可选的,所述将待处理数据进行切分,包括:
[0011]获取所述待处理数据的数据处理条件,数据处理条件中包括处理方式;
[0012]基于所述处理方式切分所述待处理数据。
[0013]可选的,所述基于所述处理方式切分所述待处理数据,包括:
[0014]获取所述待处理数据的数据特征;
[0015]基于所述数据特征确定所述待处理数据的切分方式;
[0016]基于所述切分方式和所述处理方式,切分所述待处理数据。
[0017]可选的,所述数据特征包括所述待处理数据的数据表类型;所述基于所述数据特征确定所述待处理数据的切分方式,包括:
[0018]基于所述数据表类型,判断所述待处理数据是否需要重新哈希或重新分区;
[0019]若否,确定所述切分方式为按照所述待处理数据的行号切分;
[0020]若是,确定所述切分方式为增加切分算子和本地数据交换算子,并基于所述切分算子切分所述待处理数据。
[0021]可选的,所述对所述一组算子进行复制,包括:
[0022]获取所述待处理数据的数据处理条件,数据处理条件中包括处理方式;
[0023]基于所述处理方式对所述一组算子进行复制,以使复制得到的M组算子满足所述处理方式。
[0024]可选的,所述将待处理数据进行切分,包括:
[0025]确定待处理数据的切分规则;
[0026]按照所述切分规则对所述待处理数据进行切分。
[0027]可选的,所述N与所述M相等,所述将所述切分数据分发至每组算子中,包括:
[0028]将每组算子中分发一份所述切分数据;
[0029]所述N与所述M不相等,所述将所述切分数据分发至每组算子中,包括:
[0030]在每组所述算子中至少分发至少一份所述切分数据。
[0031]第二方面,本申请实施例提供了一种数据处理装置,包括:
[0032]切分模块,用于将待处理数据进行切分,得到N份切分数据,其中,N为大于1的整数;
[0033]复制模块,用于对所述一组算子进行复制,得到M组算子,其中,M为大于1的整数;
[0034]分发模块,用于将所述切分数据分发至每组算子中。
[0035]第三方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
[0036]所述存储器,用于存储计算机程序;
[0037]所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的数据处理方法。
[0038]第四方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的数据处理方法。
[0039]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,通过将待处理数据进行切分,得到N份切分数据,其中,N为大于1的整数;对所述一组算子进行复制,得到M组算子,其中,M为大于1的整数;将所述切分数据分发至每组算子中。如此,在对待处理数据处理之前,先对待处理数据切分,并通过复制的多组算子,使得待处理数据能够在多组算子间被并行处理,从而,避免了算子内并行处理时,共享数据的互斥访问,提高了待处理数据的效率。
附图说明
[0040]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0041]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0042]图1为本申请一实施例提供的数据处理方法的应用场景图;
[0043]图2为本申请一实施例提供的数据处理方法的流程图;
[0044]图3为本申请一实施例提供的数据处理装置的结构图;
[0045]图4为本申请一实施例提供的电子设备的结构图。
具体实施方式
[0046]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0047]根据本申请一实施例提供了一种数据处理方法。可选地,在本申请实施例中,上述数据处理方法可以应用于如图1所示的由终端101和服务器102所构成的硬件环境中。如图1所示,服务器102通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务(如视频服务、应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器102提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101并不限定于PC、手机、平板电脑等。
[0048]本申请实施例的数据处理方法可以由服务器102来执行,也可以由终端101来执行,还可以是由服务器102和终端101共同执行。其中,终端101执行本申请实施例的数据处理方法,也可以是由安装在其上的客户端来执行。对于服务器和/或终端上,均可设置计算引擎,以通过计算引擎中的算子进行数据处理。
[0049]以终端执行本申请实施例的数据处理方法为例,图2是根据本申请实施例的一种可选的数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于计算引擎,所述计算引擎中包括一组算子,所述方法包括:将待处理数据进行切分,得到N份切分数据,其中,N为大于1的整数;对所述一组算子进行复制,得到M组算子,其中,M为大于1的整数;将所述切分数据分发至每组算子中。2.根据权利要求1所述的数据处理方法,其特征在于,所述将待处理数据进行切分,包括:获取所述待处理数据的数据处理条件,数据处理条件中包括处理方式;基于所述处理方式切分所述待处理数据。3.根据权利要求2所述的数据处理方法,其特征在于,所述基于所述处理方式切分所述待处理数据,包括:获取所述待处理数据的数据特征;基于所述数据特征确定所述待处理数据的切分方式;基于所述切分方式和所述处理方式,切分所述待处理数据。4.根据权利要求3所述的数据处理方法,其特征在于,所述数据特征包括所述待处理数据的数据表类型;所述基于所述数据特征确定所述待处理数据的切分方式,包括:基于所述数据表类型,判断所述待处理数据是否需要重新哈希或重新分区;若否,确定所述切分方式为按照所述待处理数据的行号切分;若是,确定所述切分方式为增加切分算子和本地数据交换算子,并基于所述切分算子切分所述待处理数据。5.根据权利要求1所述的数据处理方法,其特征在于,所述对所述一组算子进行复制,包括:获取所述待处理数据的数据处理条件,数据处理条件中包括处理方式;基于所述处理方式...

【专利技术属性】
技术研发人员:李晨光崔杰袁清乾
申请(专利权)人:天津南大通用数据技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1