本申请公开了一种缺失数据处理方法、装置、存储介质及电子设备,涉及计算机技术领域,其中方法包括:首先获取远程对象存储中的待执行缺失数据处理任务、数据挖掘任务模块发送的任务注册信息和任务执行服务器发送的硬件资源信息;将待执行缺失数据处理任务按照预设时间滑动窗口进行划分,得到多个待执行子任务;依据任务注册信息,构建多个待执行子任务有向无环图,并基于有向无环图,生成多个待执行子任务的任务执行顺序;基于硬件资源信息和任务注册信息,按照任务执行顺序将多个待执行子任务依次分配至多个任务执行服务器。与目前现有技术相比,本申请可以合理优化任务执行顺序,提高任务的执行效率。
【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种缺失数据处理方法、装置、存储介质及电子设备。
技术介绍
1、在数据挖掘过程中,缺失数据的清洗是一项关键步骤,缺失数据清洗是数据预处理阶段的一项重要任务,它涉及识别和处理数据集中存在的缺失值,以提高后续分析和建模的准确性。
2、目前,对缺失数据处理主要是通过用户将zookeeper集群将业务服务器集群与数据挖掘调度模块相连,通过zookeeper集群选择最合适运行挖掘任务的业务服务器,最终将任务推送至优选出的业务服务器执行数据挖掘操作。
3、然而,使用这种缺失数据挖掘方式,由于zookeeper集群使用的paxos算法的复杂性较高,会导致选择业务服务器的过程耗时较长、效率较低,进而导致业务服务器集群与数据挖掘调度模块之间的数据不一致,影响确实数据挖掘准确率。
技术实现思路
1、有鉴于此,本申请提供了一种缺失数据处理方法、装置、存储介质及电子设备,主要目的在于改善目前现有技术会导致选择业务服务器的过程耗时较长、效率较低,进而导致业务服务器集群与数据挖掘调度模块之间的数据不一致,影响确实数据挖掘准确率的技术问题。
2、第一方面,本申请提供了一种缺失数据处理方法,应用于任务调度服务器,包括:
3、获取远程对象存储中的待执行缺失数据处理任务、数据挖掘任务模块发送的任务注册信息和任务执行服务器发送的硬件资源信息;
4、将所述待执行缺失数据处理任务按照预设时间滑动窗口进行划分,得到多个待执行子任务;
5、依据所述任务注册信息,构建所述多个待执行子任务有向无环图,并基于所述有向无环图,生成所述多个待执行子任务的任务执行顺序;
6、基于所述硬件资源信息和所述任务注册信息,按照所述任务执行顺序将所述多个待执行子任务依次分配至所述多个任务执行服务器,所述多个任务执行服务器用于通过所述数据挖掘任务模块对所述多个待执行子任务进行基于长短时记忆网络的数据挖掘处理。
7、第二方面,本申请提供了一种缺失数据处理方法,应用于数据挖掘任务模块,包括:
8、响应于接收任务调度服务器发送的待执行缺失数据处理任务对应的任务注册信息的获取请求,将所述任务注册信息发送至所述任务调度服务器,所述任务调度服务器用于依据所述任务注册信息确定所述待执行缺失数据处理任务对应的多个待执行子任务的任务执行顺序;
9、接收任务执行服务器发送的多个待执行子任务,基于长短时记忆网络分别对所述多个待执行子任务进行数据挖掘处理;
10、生成所述多个待执行子任务分别进行数据挖掘处理的执行结果;
11、将所述执行结果发送至所述任务执行服务器,所述任务执行服务器用于将所述执行结果发送至所述任务调度服务器,所述任务调度服务器用于将所述执行结果发送至数据挖掘执行状态监视模块,所述数据挖掘执行状态监视模块用于对所述执行结果进行分析,并在确定所述执行结果中存在执行失败的情况下,生成执行失败的待执行子任务对应的告警信息。
12、第三方面,本申请提供了一种缺失数据处理装置,应用于任务调度服务器,包括:
13、获取模块,被配置为获取远程对象存储中的待执行缺失数据处理任务、数据挖掘任务模块发送的任务注册信息和任务执行服务器发送的硬件资源信息;
14、划分模块,被配置为将所述待执行缺失数据处理任务按照预设时间滑动窗口进行划分,得到多个待执行子任务;
15、构建模块,被配置为依据所述任务注册信息,构建所述多个待执行子任务有向无环图,并基于所述有向无环图,生成所述多个待执行子任务的任务执行顺序;
16、分配模块,被配置为基于所述硬件资源信息和所述任务注册信息,按照所述任务执行顺序将所述多个待执行子任务依次分配至所述多个任务执行服务器,所述多个任务执行服务器用于通过所述数据挖掘任务模块对所述多个待执行子任务进行基于长短时记忆网络的数据挖掘处理。
17、第四方面,本申请提供了一种缺失数据处理装置,应用于数据挖掘任务模块,包括:
18、发送模块,被配置为响应于接收任务调度服务器发送的待执行缺失数据处理任务对应的任务注册信息的获取请求,将所述任务注册信息发送至所述任务调度服务器,所述任务调度服务器用于依据所述任务注册信息确定所述待执行缺失数据处理任务对应的多个待执行子任务的任务执行顺序;
19、处理模块,被配置为接收任务执行服务器发送的多个待执行子任务,基于长短时记忆网络分别对所述多个待执行子任务进行数据挖掘处理;
20、生成模块,被配置为生成所述多个待执行子任务分别进行数据挖掘处理的执行结果;
21、发送模块,被配置为将所述执行结果发送至所述任务执行服务器,所述任务执行服务器用于将所述执行结果发送至所述任务调度服务器,所述任务调度服务器用于将所述执行结果发送至数据挖掘执行状态监视模块,所述数据挖掘执行状态监视模块用于对所述执行结果进行分析,并在确定所述执行结果中存在执行失败的情况下,生成执行失败的待执行子任务对应的告警信息。
22、第五方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面或第二方面的缺失数据处理方法。
23、第六方面,本申请提供了一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现第一方面或第二方面的缺失数据处理方法。
24、第七方面,本申请提供了一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序被处理器执行时实现第一方面或第二方面的缺失数据处理方法。
25、借由上述技术方案,本申请提供的一种缺失数据处理方法、装置、存储介质及电子设备,首先获取远程对象存储中的待执行缺失数据处理任务、数据挖掘任务模块发送的任务注册信息和任务执行服务器发送的硬件资源信息;将所述待执行缺失数据处理任务按照预设时间滑动窗口进行划分,得到多个待执行子任务;依据所述任务注册信息,构建所述多个待执行子任务有向无环图,并基于所述有向无环图,生成所述多个待执行子任务的任务执行顺序;基于所述硬件资源信息和所述任务注册信息,按照所述任务执行顺序将所述多个待执行子任务依次分配至所述多个任务执行服务器,所述多个任务执行服务器用于通过所述数据挖掘任务模块对所述多个待执行子任务进行基于长短时记忆网络的数据挖掘处理。与目前现有技术相比,本申请通过在任务调度服务器中将待执行缺失数据处理任务按照预设时间滑动窗口进行划分,得到多个待执行子任务,再基于数据挖掘任务模块发送的任务注册信息和任务执行服务器发送的硬件资源信息构建多个待执行子任务有向无环图确定任务执行顺序,可以合理优化任务执行顺序,提高任务的执行效率,通过将待执行缺失数据处理任务在任务调度服务器中进行存储,使得任务调度服务器具备可迁移和高可用性。
26、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照本文档来自技高网
...
【技术保护点】
1.一种缺失数据处理方法,其特征在于,应用于任务调度服务器,包括:
2.根据权利要求1所述的方法,其特征在于,所述依据所述任务注册信息,构建所述多个待执行子任务有向无环图,并基于所述有向无环图,生成所述多个待执行子任务的任务执行顺序,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述硬件资源信息和所述任务注册信息,按照所述任务执行顺序将所述多个待执行子任务依次分配至所述多个任务执行服务器,包括:
4.根据权利要求3所述的方法,其特征在于,按照任务类型标签信息和所述任务注册信息,将所述多个待执行子任务依次分配至所述多个任务执行服务器,包括:
5.根据权利要求4所述的方法,其特征在于,在所述基于所述目标任务类型和所述任务类型标签信息,确定所述多个任务执行服务器中所述目标待执行子任务对应的候选任务执行服务器之后,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,在所述基于所述硬件资源信息和所述任务注册信息,按照所述任务执行顺序将所述多个待执行子任务依次分配至所述多个任务执行服务器之后,所述方法还包括:p>7.根据权利要求1所述的方法,其特征在于,在所述获取远程对象存储中的待执行缺失数据处理任务、数据挖掘任务模块发送的任务注册信息和任务执行服务器发送的硬件资源信息之前,所述方法还包括:
8.一种缺失数据处理方法,其特征在于,应用于数据挖掘任务模块,包括:
9.一种缺失数据处理装置,其特征在于,应用于任务调度服务器,包括:
10.一种缺失数据处理装置,其特征在于,应用于数据挖掘任务模块,包括:
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。
12.一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法,或如权利要求8所述的方法。
13.一种计算机程序产品,所述计算机程序产品包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的方法,或如权利要求8所述的方法。
...
【技术特征摘要】
1.一种缺失数据处理方法,其特征在于,应用于任务调度服务器,包括:
2.根据权利要求1所述的方法,其特征在于,所述依据所述任务注册信息,构建所述多个待执行子任务有向无环图,并基于所述有向无环图,生成所述多个待执行子任务的任务执行顺序,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述硬件资源信息和所述任务注册信息,按照所述任务执行顺序将所述多个待执行子任务依次分配至所述多个任务执行服务器,包括:
4.根据权利要求3所述的方法,其特征在于,按照任务类型标签信息和所述任务注册信息,将所述多个待执行子任务依次分配至所述多个任务执行服务器,包括:
5.根据权利要求4所述的方法,其特征在于,在所述基于所述目标任务类型和所述任务类型标签信息,确定所述多个任务执行服务器中所述目标待执行子任务对应的候选任务执行服务器之后,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,在所述基于所述硬件资源信息和所述任务注册信息,按照所述任务执行顺序将所述多个待执行子任务依次分配至所述多个任务执行服务器之后,所述方法还...
【专利技术属性】
技术研发人员:陈锃,
申请(专利权)人:中移苏州软件技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。