【技术实现步骤摘要】
一种数据处理方法、节点设备、系统及存储介质
本专利技术实施例涉及数据处理
,具体涉及一种数据处理方法、节点设备、系统及存储介质。
技术介绍
在数据处理任务的数据量级较大时,单一节点设备的数据处理能力有限,如果仅由单一节点设备执行数据处理任务(即仅由单一节点设备处理量级较大的数据),无疑极为低效耗时;节点设备是指具有数据处理能力的电子设备。在数据处理任务的数据量级较大时,使用多节点设备并发处理数据无疑是一种较好的选择;然而在使用多节点设备时,如何优化数据处理方式,成为了进一步提升数据处理效果的难题。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据处理方法、节点设备、系统及存储介质,以在多节点设备并发处理数据时,优化数据处理方式,为进一步提升数据处理效果提供可能。为解决上述问题,本专利技术实施例提供一种数据处理方法,所述方法基于包括多个节点设备的分布式平台,所述多个节点设备至少包括第一节点设备和第二节点设备;所述方法应用于第一节点设备,所述方法包括:为待处理数据标记相应的节 ...
【技术保护点】
1.一种数据处理方法,其特征在于,所述方法基于包括多个节点设备的分布式平台,所述多个节点设备至少包括第一节点设备和第二节点设备;所述方法应用于第一节点设备,所述方法包括:/n为待处理数据标记相应的节点设备,以确定各节点设备相应的待处理数据;其中,所述待处理数据存储在预定数据目录下,且所述预定数据目录向分布式平台内的节点设备共享;/n获取第一节点设备相应的待处理数据;/n处理所述第一节点设备相应的待处理数据,并将第一节点设备的数据处理结果存储在第一节点设备的预定结果目录下;其中,所述预定结果目录向第二节点设备共享,所述预定结果目录至少存储所述第一节点设备的数据处理结果以及所述 ...
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法基于包括多个节点设备的分布式平台,所述多个节点设备至少包括第一节点设备和第二节点设备;所述方法应用于第一节点设备,所述方法包括:
为待处理数据标记相应的节点设备,以确定各节点设备相应的待处理数据;其中,所述待处理数据存储在预定数据目录下,且所述预定数据目录向分布式平台内的节点设备共享;
获取第一节点设备相应的待处理数据;
处理所述第一节点设备相应的待处理数据,并将第一节点设备的数据处理结果存储在第一节点设备的预定结果目录下;其中,所述预定结果目录向第二节点设备共享,所述预定结果目录至少存储所述第一节点设备的数据处理结果以及所述第二节点设备的数据处理结果;
根据所述预定结果目录下的数据处理结果,确定待处理数据的数据处理结果。
2.根据权利要求1所述的数据处理方法,其特征在于,所述为待处理数据标记相应的节点设备包括:
根据数据量阈值为待处理数据标记相应的节点设备,以在任一节点设备相应的待处理数据达到数据量阈值时,停止继续将待处理数据标记为与该节点设备相应。
3.根据权利要求2所述的数据处理方法,其特征在于,所述根据数据量阈值为待处理数据标记相应的节点设备包括:
依次为待处理数据标记相应的节点设备;其中,在上一节点设备相应的待处理数据达到数据量阈值时,将下一待处理数据标记至下一节点设备,直至所有待处理数据均标记相应的节点设备。
4.根据权利要求1-3任一项所述的数据处理方法,其特征在于,所述方法还包括:
在每为一份待处理数据标记相应的节点设备后,将相应的标记结果写入划分文件;所述划分文件记录有多份标记结果,一份标记结果表示一份待处理数据与相应节点设备的关系;所述划分文件存储在所述预定数据目录的根目录下,并向分布式平台内的节点设备共享。
5.根据权利要求4所述的数据处理方法,其特征在于,所述方法还包括:
在为待处理数据标记相应的节点设备后,在所述预定数据目录的根目录下建立完成文件,以在第二节点设备在所述根目录下检测到完成文件时,使得第二节点设备根据所述根目录下的划分文件获取相应的待处理数据。
6.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述预定结果目录下的数据处理结果,确定待处理数据的数据处理结果包括:
通过平台服务器定时检测第二节点设备的数据处理状态;其中,第二节点设备的数据处理状态定时上传至所述平台服务器;
若检测到第二节点设备的数据处理状态表示数据处理完成,将所述预定结果目录下的数据处理结果,确定为待处理数据的数据处理结果。
7.根据权利要求6所述的数据处理方法,其特征在于,所述通过平台服务器定时检测第二节点设备的数据处理状态包括:
获取当前数据处理任务相应的节点设备文件,所述节点设备文件记录有执行当前数据处理任务的节点设备;
根据所述节点设备文件,定时获取第二节点设备相应的表示数据处理状态的状态文件,直至所获取的状态文件指示数据处理完成。
8.根据权利要求1所述的数据处理方法,其特征在于,所述预定数据目录通过Samba服务共享,所述预定数据目录位于所述第一节点设备或所述分布式平台的平台服务器;所述预定结果目录通过Samba服务共享,所述预定结果目录位于所述第一节点设备;所述分布式平台为Jenkins平台。
9.一种数据处理方法,其特征在于,所述方法基于包括多个节点设备的分布式平台,所述多个节点设备至少包括第一节点设备和第二节点设备;所述方法应用于第二节点设备,所述方法包括:
在检测到为待处理数据标记的相应节点设备至少为第二节点设备后,获取第二节点设备相应的待处理数据;其中,所述待处理数据存储在预定数据目录下,所述预定数据目录向分布式平台内的节点设备共享;
处理所述第二节点设备相应的待处理数据,并将第二节点设备的数据处理结果上传...
【专利技术属性】
技术研发人员:苏志海,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。