一种数据分析处理方法和系统技术方案

技术编号:24330552 阅读:41 留言:0更新日期:2020-05-29 19:27
本发明专利技术提供一种数据分析处理方法和系统,涉及大数据处理领域,该数据分析处理方法包括:获取数据分析处理工作流的配置信息;根据所述配置信息确定所述数据分析处理工作流的运行方式;所述运行方式包括单机式或分布式;基于确定出的运行方式,运行所述数据分析处理工作流。本发明专利技术实施例中的数据分析处理系统可以兼容单机式运行方式和分布式运行方式,灵活地运用单机式运行方式或分布式运行方式运行数据分析处理工作流,实现了对大数据分析系统中资源的有效分配,克服了大数据分析系统的资源瓶颈,提高了大数据分析系统的资源利用效率,使得大数据分析系统计算速度更快、计算量更大。

A data analysis and processing method and system

【技术实现步骤摘要】
一种数据分析处理方法和系统
本专利技术涉及大数据处理领域,尤其涉及一种数据处理处理方法和系统。
技术介绍
随着社会信息化和智能化水平提高,使用大数据分析系统训练业务模型,并使用训练好的业务模型实现大数据业务智能化处理也逐渐成为大数据行业的通用手段。现有大数据分析系统在进行大数据分析时可以选择单机式或分布式方式处理数据、训练模型。然而,现有的大数据分析系统无法兼容单机式运行和分布式运行方式,大数据分析系统的资源利用效率低。
技术实现思路
本专利技术实施例提供一种数据分析处理方法和系统,解决现有的大数据分析系统无法兼容单机式运行和分布式运行方式,资源利用效率低的问题。为解决上述技术问题,本专利技术提供一种数据分析处理方法,所述方法包括:获取数据分析处理工作流的配置信息;根据所述配置信息确定所述数据分析处理工作流的运行方式;所述运行方式包括单机式或分布式;基于确定出的运行方式,运行所述数据分析处理工作流。优选的,上述方法中,所述根据所述配置信息确定所述数据分析处理工作流的运行方式的步骤包括:基于运行环境参数和/或数据量大小,确定所述数据分析处理工作流的运行方式;或者,基于所述数据分析处理工作流对应的工作流模板,确定所述数据分析处理工作流的运行方式。优选的,上述方法中,所述基于确定出的运行方式,运行所述数据分析处理工作流包括:配置分布式资源;各个计算节点基于所述分布式资源,运行所述数据分析处理工作流。优选的,上述方法中,所述各个计算节点基于所述分布式资源,运行所述数据分析处理工作流的步骤包括:主计算节点分发子数据;各个计算节点基于得到的子数据,运行所述数据分析处理工作流。优选的,上述方法中,所述配置分布式资源步骤包括:所述各个计算节点同步初始信息;和/或,根据计算节点数量更新学习率和批大小。优选的,上述方法中,所述初始信息包括以下至少一项:初始变量、进程信息、数据信息和参数信息。优选的,上述方法中,所述批大小与所述计算节点数量呈正相关;所述学习率与所述计算节点数量呈正相关。优选的,上述方法中,所述各个计算节点基于得到的子数据,运行所述数据分析处理工作流的步骤包括:所述各个计算节点运行所述数据分析处理工作流,训练所述数据分析处理工作流中的模型;所述各个计算节点分别获取所述模型参数更新信息;所述各个计算节点根据所述模型参数更新信息,基于参数更新算法,更新并同步所述各个计算节点中模型的参数信息。优选的,上述方法中,所述计算节点为N个,N为大于或等于1的正整数,所述各个计算节点根据所述模型参数更新信息,基于参数更新算法,更新并同步所述各个计算节点的模型的参数信息的步骤包括:将所述各个计算节点的数据划分为N份;将所述各个计算节点排序成环;将第一计算节点的第一份数据传输至第二计算节点,相应的依序同步进行,将第i-1计算节点的第i-1份数据传输至第i计算节点,将所述第N计算节点的第N份数据传输至第一计算节点,完成第一轮数据同步,其中,i为大于2且小于N的正整数;将所述第一计算节点的第N份数据传输至第二计算节点,相应的依序同步进行,将第i-1计算节点的第i-2份数据传输至第i计算节点,将第N计算节点的第N-1份数据传输至第一计算节点完成第二轮数据同步;依次类推,直到完成第N-1轮数据同步;在第N-1轮数据同步的基础上,再次进行N-1轮数据同步过程:将第一计算节点的第二份数据传输至第二计算节点,相应的依序同步进行,将第i-1计算节点的第i份数据传输至第i计算节点,将所述第N计算节点的第一份数据传输至第一计算节点,完成第N轮数据同步;将所述第一计算节点的第一份数据传输至第二计算节点,相应的依序同步进行,将第i-1计算节点的第i-1份数据传输至第i计算节点,将第N计算节点的第N份数据传输至第一计算节点,完成第N+1轮数据同步;依次类推,直到完成第2(N-1)轮数据同步。优选的,上述方法中,使用更新的所述学习率和所述批大小对所述模型进行训练。优选的,上述方法中,所述主计算节点免密登陆到其他各个所述计算节点。优选的,上述方法中,所述基于确定出的运行方式,运行所述数据分析处理工作流的步骤,包括:获取所述数据分析处理工作流对应的代码类库;根据所述确定出的运行方式,基于所述代码类库获取与所述确定出的运行方式对应的框架下的组件;基于获取的所述组件运行所述数据分析处理工作流。优选的,上述方法中,所述根据所述确定出的运行方式,基于所述代码类库获取与所述确定出的运行方式对应的框架下的组件的步骤包括:基于所述代码类库以及所述确定出的运行方式,确定运行所述数据分析处理工作流的框架类型;适配与所述数据处理工作流对应的所述框架类型下的组件。本专利技术实施例还提供了一种数据分析处理系统,所述数据分析处理系统包括:获取模块,用于获取数据分析处理工作流的配置信息;确定模块,用于根据所述配置信息确定所述数据分析处理工作流的运行方式;所述运行方式包括单机式或分布式;运行模块,用于基于确定出的运行方式,运行所述数据分析处理工作流。优选的,上述数据分析处理系统中,所述确定模块具体用于:基于运行环境参数和/或数据量大小,确定所述数据分析处理工作流的运行方式;或者,基于所述数据分析处理工作流对应的工作流模板,确定所述数据分析处理工作流的运行方式。优选的,上述数据分析处理系统中,所述运行模块包括:配置单元,用于配置分布式资源;第一运行单元,用于各个计算节点基于所述分布式资源,运行所述数据分析处理工作流。优选的,上述数据分析处理系统中,所述第一运行单元包括:分发子单元,用于主计算节点分发子数据;运行子单元,用于各个计算节点基于得到的子数据,运行所述数据分析处理工作流。优选的,上述数据分析处理系统中,所述配置单元包括:同步子单元,用于所述各个计算节点同步初始信息;和/或,更新子单元,用于根据计算节点数量更新学习率和批大小。优选的,上述数据分析处理系统中,所述初始信息包括以下至少一项:初始变量、进程信息、数据信息和参数信息。优选的,上述数据分析处理系统中,所述批大小与所述计算节点数量呈正相关;所述学习率与所述计算节点数量呈正相关。优选的,上述数据分析处理系统中,所述运行子单包括:训练子单元,用于所述各个计算节点运行所述数据分析处理工作流,训练所述数据分析处理工作流中的模型;获取子单元,用于所述各个计算节点分别获取所述模型参数更新信息;更新子单元,用于所述各个计算节点根据所述模型参数更新信息,基于参数更新算法,更新并同步所述各个计算节点中模型的参数信息。优选的,上述数据分析处理系统中,所述计算节点为N个,N为本文档来自技高网...

【技术保护点】
1.一种数据分析处理方法,其特征在于,所述方法包括:/n获取数据分析处理工作流的配置信息;/n根据所述配置信息确定所述数据分析处理工作流的运行方式;所述运行方式包括单机式或分布式;/n基于确定出的运行方式,运行所述数据分析处理工作流。/n

【技术特征摘要】
1.一种数据分析处理方法,其特征在于,所述方法包括:
获取数据分析处理工作流的配置信息;
根据所述配置信息确定所述数据分析处理工作流的运行方式;所述运行方式包括单机式或分布式;
基于确定出的运行方式,运行所述数据分析处理工作流。


2.根据权利要求1所述的方法,其特征在于,所述根据所述配置信息确定所述数据分析处理工作流的运行方式的步骤包括:
基于运行环境参数和/或数据量大小,确定所述数据分析处理工作流的运行方式;
或者,
基于所述数据分析处理工作流对应的工作流模板,确定所述数据分析处理工作流的运行方式。


3.根据权利要求1或2所述的方法,其特征在于,所述基于确定出的运行方式,运行所述数据分析处理工作流包括:
配置分布式资源;
各个计算节点基于所述分布式资源,运行所述数据分析处理工作流。


4.根据权利要求1或2所述的方法,其特征在于,所述基于确定出的运行方式,运行所述数据分析处理工作流的步骤,包括:
获取所述数据分析处理工作流对应的代码类库;
根据所述确定出的运行方式,基于所述代码类库获取与所述确定出的运行方式对应的框架下的组件;
基于获取的所述组件运行所述数据分析处理工作流。


5.根据权利要求4所述的方法,其特征在于,所述根据所述确定出的运行方式,基于所述代码类库获取与所述确定出的运行方式对应的框架下的组件的步骤包括:
基于所述代码类库以及所述确定出的运行方式,确定运行所述数据分析处理工作流的框架类型;
适配与所述数据处理工作流对应的所述框架类型下的...

【专利技术属性】
技术研发人员:路明奎刘汶成
申请(专利权)人:北京九章云极科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1