【技术实现步骤摘要】
本专利技术属于大数据分布式计算领域,更具体地,涉及一种用于大数据处理系统的内存数据集置换系统与置换方法。
技术介绍
近年来,大数据分布式处理系统受到了广泛关注。工业界和学术界涌现了多个大数据分布式处理系统:Spark,Flink,Dryad,GraphX等。开发者利用此类系统提供的API描述大数据应用程序,通常情况下,此类应用程序处理的数据量远超过单机器的运算能力。因此实际中,通常在包含多个运算节点的集群中部署此类系统。大数据应用程序处理的输入数据通常位于集群共享的存储(如HDFS等)中,程序运行阶段大数据处理系统将程序划分为多个运算阶段对数据进行处理。同一运算阶段中,集群各节点同时处理分布式系统调度到该节点的部分输入数据;相邻阶段之间,分布式处理系统通过网络将前一阶段生成的结果数据序列化后传输到后一阶段,反序列化后在后一阶段中进行下一步处理操作,这一网络传输的过程在分布式系统中称为Shuffle操作,该操作需要使用大量的网络及运算资源,通常情 ...
【技术保护点】
一种用于大数据处理系统的内存数据集置换系统,包括分析模块、信息监测模块、决策模块,其特征在于,所述分析模块用于对上层用户程序进行逻辑分析,得出各运算阶段中生成内存数据集的运算步骤集合;所述信息监测模块用于对运行中的用户程序进行监测,并收集生成内存数据集时的信息提交给决策模块;所述决策模块用于对信息监测模块收集到的信息进行分析,判断当前阶段是否需要对系统中的内存数据集进行置换,在系统需要进行置换时确定需要移除的内存数据集并通知系统换入新的内存数据集。
【技术特征摘要】
1.一种用于大数据处理系统的内存数据集置换系统,包括分析模块、
信息监测模块、决策模块,其特征在于,
所述分析模块用于对上层用户程序进行逻辑分析,得出各运算阶段中
生成内存数据集的运算步骤集合;
所述信息监测模块用于对运行中的用户程序进行监测,并收集生成内
存数据集时的信息提交给决策模块;
所述决策模块用于对信息监测模块收集到的信息进行分析,判断当前
阶段是否需要对系统中的内存数据集进行置换,在系统需要进行置换时确
定需要移除的内存数据集并通知系统换入新的内存数据集。
2.根据权利要求1所述的内存数据集置换系统,其特征在于,所述分
析模块在上层用户程序运行时在分布式系统的Master节点上对程序逻辑进
行分析,确定用户程序中生成的内存数据集,并确定生成时所经历的运算
步骤。
3.根据权利要求2所述的内存数据集置换系统,其特征在于,所述分
析模块的分析功能是通过分析程序运行中的逻辑运算关系图,找出程序生
成的需要放入内存的数据集,在逻辑运算关系图中搜索该内存数据集生成
过程中经历的运算集合;Master节点将分析的结果传送到各Worker节点。
4.根据权利要求1或2所述的内存数据集置换系统,其特征在于,所
述信息监测模块在进行实际运算的Worker节点上对运算中的程序进行实时
监控,监测信息包括生成内存数据集过程的运算集合中各运算消耗的时间;
内存数据集生成完毕后,将消耗时间和数据集大小传送到决策模块。信息
监测模块同时监测节点的内存剩余状况,在剩余内存不足以存放新的内存
数据集时,通知决策模块置换出部分已存在的内存数据集。
5.根据权利要求4所述的内存数据集置换系统,其特征在于,所述信
\t息监测模块的监测功能是通过在运算集合中的各运算操作前后记录时间
戳,在生成数据时记录数据集占用空间大小,动态更新内存剩余空间大小
并与内存阈值进行比较来实现。
6.根据权...
【专利技术属性】
技术研发人员:石宣化,金海,耿元振,王斐,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。