分布式数据处理方法及装置制造方法及图纸

技术编号:24799010 阅读:30 留言:0更新日期:2020-07-07 20:57
本申请实施例提供一种分布式数据处理方法及装置,将具有不同数据分析需求的多个用户的数据分析服务集成配置到分布式计算引擎程序中,然后根据分析服务数据包在集群服务器中配置分布式调度程序,并调用分布式调度程序监听消息中间件传输的包括多个待执行的数据分析服务的消息内容。由此,可以根据消息内容生成分布式数据执行计划,并对分布式数据执行计划进行分布式调度计算,得到分布式计算结果。如此,后续无需分别提交数据分析服务即可自动执行一次性提交的所有数据分析服务,无需数据分析人员人工干预,降低业务复杂度,从而提高数据分析效率,减少数据分析服务执行出错的情况。

【技术实现步骤摘要】
分布式数据处理方法及装置
本申请涉及分布式计算
,具体而言,涉及一种分布式数据处理方法及装置。
技术介绍
目前,数据分析服务越来越受到企业的重视,尤其是结合了大数据之后,数据分析在企业日常的运营中显得至关重要。传统数据分析领域中,数据分析服务的环节较多,导致各个产品和服务之间的数据分析结果无法自动流转,需要数据分析人员人工干预,一旦企业业务规模扩大,业务复杂度加深,人工分析流转数据的方式就显得效率十分低下并且极其容易出错。
技术实现思路
基于现有设计的不足,本申请提供一种分布式数据处理方法及装置,通过将具有不同数据分析需求的多个用户的数据分析服务集成配置到分布式计算引擎程序中,使得后续无需分别提交数据分析服务即可自动执行一次性提交的所有数据分析服务,无需数据分析人员人工干预,降低业务复杂度,从而提高数据分析效率,减少数据分析服务执行出错的情况。根据本申请实施例的第一方面,提供一种分布式数据处理方法,应用于与分布式计算集群通信连接的集群服务器,所述方法包括:将具有不同数据分析需求的多个用户的数据分本文档来自技高网...

【技术保护点】
1.一种分布式数据处理方法,其特征在于,应用于与分布式计算集群通信连接的集群服务器,所述方法包括:/n将具有不同数据分析需求的多个用户的数据分析服务集成配置到分布式计算引擎程序中,得到分析服务数据包,其中,不同的数据分析服务在所述分析服务数据包中以不同的class文件进行区分;/n根据所述分析服务数据包在所述集群服务器中配置分布式调度程序,并调用所述分布式调度程序监听消息中间件传输的包括多个待执行的数据分析服务的消息内容;/n根据所述消息内容生成分布式数据执行计划,并对所述分布式数据执行计划进行分布式调度计算,得到分布式计算结果。/n

【技术特征摘要】
1.一种分布式数据处理方法,其特征在于,应用于与分布式计算集群通信连接的集群服务器,所述方法包括:
将具有不同数据分析需求的多个用户的数据分析服务集成配置到分布式计算引擎程序中,得到分析服务数据包,其中,不同的数据分析服务在所述分析服务数据包中以不同的class文件进行区分;
根据所述分析服务数据包在所述集群服务器中配置分布式调度程序,并调用所述分布式调度程序监听消息中间件传输的包括多个待执行的数据分析服务的消息内容;
根据所述消息内容生成分布式数据执行计划,并对所述分布式数据执行计划进行分布式调度计算,得到分布式计算结果。


2.根据权利要求1所述的分布式数据处理方法,其特征在于,所述将具有不同数据分析需求的多个用户的数据分析服务集成配置到分布式计算引擎程序中,得到分析服务数据包的步骤,包括:
将每个数据分析服务定义为所述分布式计算引擎中的一个接口服务,并为每个接口服务配置对应的计算逻辑,以及配置每个接口服务的计算结果返回的矩阵数据表;
通过所述分布式计算引擎根据每个矩阵数据表将每个接口服务进行集成配置,得到分析服务数据包。


3.根据权利要求1所述的分布式数据处理方法,其特征在于,所述根据所述消息内容生成分布式数据执行计划的步骤,包括:
在监听到所述消息中间件传输的消息内容时,将该消息内容和对应的传输时间戳保存到预设数据库中,并设置该消息内容的执行状态为未执行状态;
每隔预设时间间隔扫描所述预设数据库,在扫描到所述预设数据库中存在执行状态为未执行状态的消息内容,且不存在执行状态为正在执行状态的执行程序时,按照执行状态为未执行状态的消息内容的传输时间戳的顺序对每个消息内容进行排序,生成消息内容排序列表;
按照所述消息内容排序列表中每个消息内容的顺序分别生成每个消息内容的分布式数据执行计划;
当任意一个消息内容对应的分布式数据执行计划执行完毕时,设置该消息内容的执行状态为已执行状态。


4.根据权利要求1-3中任意一项所述的分布式数据处理方法,其特征在于,所述对所述分布式数据执行计划进行分布式调度计算,得到分布式计算结果的步骤,包括:
解析所述分布式数据执行计划的计划信息,所述计划信息包括数据分析服务列表、分析服务类型和所述数据分析服务列表中每个数据分析服务对应的任务计划标识;
根据所述计划信息启动第一线程和第二线程,其中,所述第一线程用于启动所述分析服务类型所对应的目标分布式计算引擎程序,并获取所述目标分布式计算引擎程序的返回状态码,所述第二线程用于获取所述目标分布式计算引擎程序的日志信息;
当启动所述分析服务类型所对应的目标分布式计算引擎程序后,将所述数据分析服务列表传入到所述目标分布式计算引擎程序中;
从预先定义的数据源表中加载所述任务计划标识所对应的待计算数据,并通过所述目标分布式计算引擎程序执行传入的所述数据分析服务列表的数据分析服务,对所述待计算数据进行分布式计算调度,得到分布式计算结果。


5.根据权利要求4所述的分布式数据处理方法,其特征在于,所述通过所述目标分布式计算引擎程序执行传入的所述数据分析服务列表的数据分析服务,对所述待计算数据进行分布式计算调度,得到分布式计算结果的步骤,包括:
当所述分析服务类型为回溯分析服务类型时,通过所述目标分布式计算引擎程序查找所述数据分析服务列表中是否存在依赖于其它数据分析服务的目标数据分析服务,其中,所述其它数据分析服务不存在于所述数据分析服务列表中;
当所述数据分析服务列表中存在依赖于其它数据分析服务的目标数据分析服务时,则将所述其它数据分析服务添加到所述数据分析服务列表中;
根据预先定义的所述消息内容排序列表中每个消息内容的顺序,对所述所述数据分析服务列表进行排序,并按照排序结果执行所述数据分析服务列表中的每个数据分析服务,分别将每个数据分...

【专利技术属性】
技术研发人员:顾凌云郭志攀王伟刘建业
申请(专利权)人:上海冰鉴信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1