【技术实现步骤摘要】
一种数据处理方法以及装置
本申请涉及计算机
,具体涉及一种数据处理方法。本申请同时涉及一种数据处理装置以及一种电子设备。本申请还涉及一种数据校验方法、一种数据校验装置以及一种电子设备。
技术介绍
对于跨网络数据,由于数据来源和数据处理分布在不同网络环境中,例如,混合云建设中需将数据从公有云网络传输到私有云网络进行数据处理,在对该类型跨网络数据的数据处理过程中,需进行任务调度。现有的针对跨网络数据的调度方式通常根据约定时间进行任务调度,例如,对公有云网络的数据按约定的时间进行数据采集,私有云网络的数据处理平台根据数据采集结束时间进行任务调度。然而,现有的针对跨网络数据的任务调度方法存在以下不足:对于数据采集周期不规律,或者异常情况下导致的约定时间内数据无法采集完成,在无法确定跨网络数据到达数据处理平台的时间的情况下,数据无法正常调度;并且,在跨网络数据无法满足数据质量要求的情况下,如果根据约定时间进行任务调度,则可造成后续依赖于该跨网络数据所生成的数据发生错误,从而影响整个数据处理流程。< ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获得目标任务和所述目标任务所需处理的目标数据,所述目标数据来源于第一网络环境;/n如果确定所述目标数据满足第二网络环境的数据质量要求,则启动所述目标任务。/n
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获得目标任务和所述目标任务所需处理的目标数据,所述目标数据来源于第一网络环境;
如果确定所述目标数据满足第二网络环境的数据质量要求,则启动所述目标任务。
2.根据权利要求1所述的方法,其特征在于,所述获得目标任务,包括:
根据预定的离线数据处理流程,获得数据依赖关系集合;
根据所述数据依赖关系集合,获得目标任务。
3.根据权利要求2所述的方法,其特征在于,所述根据预定的离线数据处理流程,获得数据依赖关系集合,包括:
对所述离线数据处理流程所对应的任务语句进行解析,获得数据依赖关系集合;
或者,从针对所述离线数据处理流程的任务配置信息中获得所述数据依赖关系集合。
4.根据权利要求2所述的方法,其特征在于,所述数据依赖关系集合包括数据表与数据表之间的依赖关系集合、数据表与数据任务之间的依赖关系集合以及数据任务与数据任务之间的依赖关系,所述根据所述数据依赖关系集合,获得目标任务,包括:
根据所述数据表与数据表之间的依赖关系集合,获得基础数据表;
根据所述基础数据表和所述数据表与数据任务之间的依赖关系集合,获得依赖于所述基础数据表的数据任务;
根据所述依赖于基础数据表的数据任务和所述数据任务与数据任务之间的依赖关系集合,获得所述目标任务。
5.根据权利要求4所述的方法,其特征在于,所述获得所述目标任务所需处理的目标数据,包括:
获得所述目标任务所需处理的目标数据对应的第一业务时间区间集合;所述第一业务时间区间集合包括至少一个数据表对应的业务时间区间;
获得所述基础数据表中的基础数据对应的第二业务时间区间集合;所述第二业务时间区间集合包括至少一个数据表对应的业务时间区间;
判断所述第一业务时间区间集合与所述第二业务时间区间集合是否相同;
如果所述第一业务时间区间集合与所述第二业务时间区间集合相同,则确定所述基础数据表中的基础数据为所述目标数据。
6.根据权利要求5所述的方法,其特征在于,所述数据表与数据任务之间的依赖关系集合包括业务时间参数,所述业务时间参数用于表示数据任务对应的基准时间与该数据任务所需处理的数据对应的业务时间区间的换算关系,所述获得所述目标任务所需处理的目标数据对应的第一业务时间区间集合,包括:
获得所述目标任务对应的基准时间;
根据所述目标任务对应的基准时间和所述业务时间参数,获得所述目标任务所需处理的目标数据对应的第一业务时间区间集合。
7.根据权利要求6所述的方法,其特征在于,所述获得所述目标任务对应的基准时间,包括:
从来源于所述第一网络环境的所述基础数据表中的基础数据中获得业务数据更新频率最高的基础数据;
将所述业务数据更新频率最高的基础数据的业务数据更新时间中与当前时间所需的业务数据一致的更新时间,作为所述目标任务对应的基准时间。
8.根据权利要求1所述的方法,其特征在于,还包括:
对来源于第一网络环境的跨网络数据进行数据校验,获得未发生传输错误的跨网络数据;
按照第二网络环境的数据质量验证方法,对所述未发生传输错误的跨网络数据进行数据质量验证,获得符合第二网络环境的使用需求的跨网络数据;
对应的,所述确定所述目标数据满足第二网络环境的数据质量要求,包括:
如果所述符合第二网络环境的使用需求的跨网络数据中包含所述目标数据,则确定所述目标数据满足第二网络环境的数据质量要求。
9.根据权利要求8所述的方法,其特征在于,所述来源于第一网络环境的跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,所述数据校验信息包括记录有能够表示所述数据内容的传输状态的网络环境标识信息,所述对来源于第一网络环境的跨网络数据进行数据校验,获得未发生传输错误的跨网络数据,包括:
判断所述跨网络数据的数据内容在传输过程中是否发生变化;
如果发生变化,则根据所述记录有所述数据内容的传输状态的网络环境标识信息确定所述数据内容发生变化时所处的网络环境;
从所述数据内容发生变化时所处的网络环境采集来源于该网络环境的上游网络环境的上游跨网络数据;
在确定所述上游跨网络数据的数据内容未发生变化时,将所述上游跨网络数据作为未发生传输错误的跨网络数据。
10.根据权利要求9所述的方法,其特征在于,所述判断所述跨网络数据的数据内容在传输过程中是否发生变化
根据所述数据内容,获得与所述网络环境相对应的、用于对所述数据内容进行标识的内容标识信息;
将所述内容标识信息进行比对,如果所述内容标识信息不同,则确定所述跨网络数据的数据内容在传输过程中发生变化。
11.根据权利要...
【专利技术属性】
技术研发人员:徐攀登,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。