【技术实现步骤摘要】
计算方法及装置
本专利技术涉大数据
,具体而言,涉及一种计算方法及装置。
技术介绍
随着大数据技术的发展以及移动互联网的快速普及,收集到的数据剧烈增加,对数据的处理速度提出更高要求。目前技术较为先进的有Hadoop和Spark等离线计算框架。如果对速度要求比较高,则更多的选择Spark。当前情况是,业界存在很多由Hadoop到Spark的过渡阶段,大量企业仍然采用Hive进行ETL(Extract-Transform-Load)。Hive的底层是利用Hadoop的MapReduce来实现类SQL操作,性能受到限制,而Spark有效地结合了Hive,采用Hive的元数据,结合弹性分布式数据集(ResilientDistributedDatasets,RDD)操作,利用类SQL实现了快速计算。现有技术中,使用Spark进行计算的通常是根据特定业务编写代码,打成jar包,再放到Spark集群里去运行。这种模式要求业务是不变的,如果业务发生改变,就必须修改代码,再打成jar包。这对于一个业务架构是固定,但具体内容不固定的任务,过于繁琐,无法满足一次编写,多次使用的原 ...
【技术保护点】
1.一种计算方法,其特征在于,包括:读取并解析配置文件,所述配置文件的内容包括多个节点以及连接所述多个节点的至少一条边,其中,每个节点用于表示业务流程中的一个数据处理单元,每条边用于表示两个节点之间的数据流向;创建所述多个节点,并基于所述多个节点以及所述至少一条边构建用于表示所述业务流程的有向无环图,其中,每个节点以及每个节点对应的数据处理操作均定义在预先生成的程序包中;按照所述有向无环图中的数据流向执行每个节点对应的数据处理操作,直至每个节点对应的数据处理操作均执行完毕。
【技术特征摘要】
1.一种计算方法,其特征在于,包括:读取并解析配置文件,所述配置文件的内容包括多个节点以及连接所述多个节点的至少一条边,其中,每个节点用于表示业务流程中的一个数据处理单元,每条边用于表示两个节点之间的数据流向;创建所述多个节点,并基于所述多个节点以及所述至少一条边构建用于表示所述业务流程的有向无环图,其中,每个节点以及每个节点对应的数据处理操作均定义在预先生成的程序包中;按照所述有向无环图中的数据流向执行每个节点对应的数据处理操作,直至每个节点对应的数据处理操作均执行完毕。2.根据权利要求1所述的计算方法,其特征在于,所述多个节点包括数据源节点以及动作节点;所述数据源节点用于基于所述配置文件中指定的数据源参数从数据源读取并输出数据,所述动作节点用于基于所述配置文件中指定的动作参数对所述数据进行运算处理。3.根据权利要求2所述计算方法,其特征在于,所述按照所述有向无环图中的数据流向执行每个节点对应的数据处理操作,直至每个节点对应的数据处理操作均执行完毕,包括:执行每个数据源节点对应的数据处理操作,并在执行完毕后将每个数据源节点的执行状态标记为执行完毕;选择一个可执行动作节点,所述可执行动作节点为尚未执行对应的数据处理操作的,且自身的前驱节点的执行状态均被标记为执行完毕的动作节点;执行所述可执行动作节点对应的数据处理操作,并在执行完毕后将所述可执行动作节点的执行状态标记为执行完毕;重复执行所述“选择一个可执行动作节点”至“在执行完毕后将所述可执动作行节点的执行状态标记为执行完毕”的步骤,直至每个动作节点对应的数据处理操作均执行完毕。4.根据权利要求3所述的计算方法,其特征在于,所述选择一个可执行动作节点,包括:在尚未执行对应的数据处理操作的动作节点中包括多个可执行动作节点时,从中随机选择一个可执行动作节点,可执行动作节点的选择不影响所述业务流程的最终执行结果。5.根据权利要求3或4所述的计算方法,其特征在于,在所述选择一个可执行动作节点之前,所述方法还包括:将每个动作节点的标识以及每个动作节点的前驱节点构成的键值对保存至第一哈希表。6.根据权利要求2所述的计算方法,其特征在于,所述计算方法应用于Spark程序中,所述数据在传输以及处理过程中被封装为弹性分布式数据集RDD的形式。7.根据权利...
【专利技术属性】
技术研发人员:石城,姚佳,
申请(专利权)人:广东惠禾科技发展有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。