一种面向分布式数据挖掘工作流的调度系统技术方案

技术编号:30501232 阅读:18 留言:0更新日期:2021-10-27 22:33
本发明专利技术公开了一种面向分布式数据挖掘工作流的任务调度系统,涉及数据挖掘领域,包括功能模块、搜索模块、控件模块、画布模块,各个模块在所述系统的用户界面包括功能模块对应的功能区,搜索模块对应的搜索区,控件模块对应的控件区,画布模块对应的画布区;针对传统的数据挖掘任务调度技术存在的问题,本发明专利技术设计了一个面向基于工作流的分布式数据挖掘任务的调度系统,针对数据挖掘工作流任务中并行子任务总完成时间这个指标,设计了一种长任务优先(LTF)调度算法,并使用分布式技术使数据挖掘任务分布式进行,大大提高了数据挖掘任务的执行效率。的执行效率。的执行效率。

【技术实现步骤摘要】
一种面向分布式数据挖掘工作流的调度系统


[0001]本专利技术涉及数据挖掘领域,具体是一种面向分布式数据挖掘工作流的调度系统。

技术介绍

[0002]随着互联网、大数据和云计算等信息技术的飞速发展,人类社会进入信息时代,数据产生的规模和速度呈指数级增长,形成了海量数据。如何从海量数据中提取出有价值的信息,数据挖掘技术和数据分析技术是常用的方法。数据挖掘和数据分析的区别在于:数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。而数据挖掘在挖掘信息前,没有一个明确的目标,可以从数据中寻找未知的模式与规律。数据挖掘与数据分析相比,可以最大化的发挥数据的价值,从数据中挖掘出潜在的、有价值的知识。
[0003]随着企业数据量的不断积累,数据已成为企业的一种无形资产。数据蕴含丰富的信息,从不同的角度对数据进行挖掘分析,可以得到不同的知识,深挖数据价值已成为许多企业近几年来提高效益的途径。在分布式数据挖掘系统中,对同一数据集使用多种挖掘算法进行数据挖掘时,需要一种恰当的调度策略来对并行的数据挖掘任务进行调度,以达到较好的QoS性能指标。
[0004]目前常用的分布式任务调度平台有XXL

JOB、Easy Scheduler以及南京云创大数据的JobKeeper。这些任务调度平台主要是针对定时任务或以整个工作流任务为调度单元进行调度,没有考虑工作流任务中多个并行子任务如何调度的问题。

技术实现思路

[0005]本专利技术的目的在于提供一种面向分布式数据挖掘工作流的调度系统,以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]一种面向分布式数据挖掘工作流的调度系统,包括功能模块、搜索模块、控件模块、画布模块,各个模块在所述系统的用户界面包括功能模块对应的功能区,搜索模块对应的搜索区,控件模块对应的控件区,画布模块对应的画布区;
[0008]所述功能模块用于实现用户通过功能区对任务进行的操作,包括新建、保存、打开工作流,交互式执行工作流,删除控件操作;
[0009]所述搜索模块用于实现用户通过搜索区对控件搜索,用户在搜索栏中输入控件名称,快速查找出所需要的控件;
[0010]所述控件模块用于提供常用的数据加载、数据预处理和数据挖掘控件,用户通过控件区选择需要的控件;
[0011]所述画布模块对应于构建数据挖掘工作流任务的画布区,通过鼠标选中控件区的控件拖拽到画布,点击控件相对应的输入和输出则出现一条曲线将两个控件连接在一起,控件两两相连即构建一个数据挖掘工作流任务。
[0012]作为本专利技术进一步的方案:所述数据挖掘工作流的调度系统采用Workflow工作流框架来实现数据挖掘任务自动化执行。
[0013]作为本专利技术再进一步的方案:所述Workflow工作流框架包含如下表结构信息:
[0014]控件配置表:所述控件配置表用于存放配置的相关信息;
[0015]控件输入端配置表:所述控件输入端配置表用于存放控件输入端配置的相关信息;
[0016]控件输出端配置表:所述控件输出端配置表用于存放控件输出端配置的相关信息;
[0017]目录表:所述目录表用于存放控件目录的相关信息;
[0018]控件表:所述控件表用于存放控件的相关信息;
[0019]工作流表:所述工作流表用于存放工作流的相关信息。
[0020]作为本专利技术再进一步的方案:所述搜索模块支持模糊搜索,在搜索栏中输入K,控件区中可查找出与K有关的控件。
[0021]作为本专利技术再进一步的方案:所述控件包括加载数据集、抽样、拆分数据、选择属性、线性回归、逻辑回归、K

Means、支持向量积、决策树、随机森林、预测、数据查看器;
[0022]加载数据集:通过加载数据集控件选择数据集,加载数据集页面会显示该数据集的记录数、属性列及属性列的类型;
[0023]抽样:可以设置分层属性、抽样比例等参数;
[0024]拆分数据:将数据集分为训练集和测试集,可以设置拆分比例、分层抽样分层属性、是否可重复抽样,输出分为两部分:train为训练集、test为测试集;
[0025]选择属性:可以设置特征属性、分组属性、标记属性等;
[0026]线性回归:可以设置算法名称;
[0027]逻辑回归:可以设置优化器、迭代次数;
[0028]K

Means:可以设置簇数量、最大迭代次数、最小质心、聚合函数等参数;
[0029]支持向量积:可以设置SVM类型、核函数、初始学习率等参数;
[0030]决策树:可以设置树的最大深度、最小分支节点数等参数;
[0031]随机森林:可以设置树数量、树的最大深度、最小分支节点数等参数;
[0032]预测:连接训练好的模型和测试集,对测试集进行预测以表格的形式展示预测结果;
[0033]数据查看器:以表格的形式展示数据。
[0034]本专利技术中的方法的有效范围并不局限于上述提到的算法和数据处理组件。
[0035]作为本专利技术再进一步的方案:所述数据挖掘工作流的调度系统还包括副调度系统,所述副调度系统部署在基于KVM虚拟机搭建的集群环境中。
[0036]作为本专利技术再进一步的方案:所述副调度系统包括:前端模块、任务调度模块和任务执行模块,所述前端模块用于以默认参数运行的方式执行数据挖掘工作流任务;所述任务调度模块用于从数据库中获取并行子任务,再根据LTF调度算法对子任务进行调度;所述任务执行模块用于从任务队列中获取子任务并将其交给Greenplum集群执行。
[0037]作为本专利技术再进一步的方案:所述Greenplum集群的执行步骤如下:集群中的主节点根据群集资源队列的信息,依次从任务调度模块接收任务,并任务分配系统资源(如内
存),生成任务执行计划分发到各子节点,子节点负责任务的执行。
[0038]作为本专利技术再进一步的方案:所述任务调度模块通过数据集的大小V建立线性回归模型预测每个挖掘算法的执行时间T,所述挖掘算法的执行时间T可通过以下公式进行预测:
[0039]T=β1*V+β2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1);
[0040]所述公式(1)中的系数β1和β2可对样本使用最小二乘法进行反复的实验来获得。
[0041]作为本专利技术再进一步的方案:所述任务调度模块采用耗时最长的任务优先调度的策略:
[0042]定义数据挖掘任务集合E={E1,

Ei,

Em},Ei表示第i个任务;
[0043]定义数据集集合V={V1,

Vi,

Vm},Vi表示第i个任务此次处理的数据集大小;
[0044]定义数据挖掘任务预测执行时间集合T={T1,
...

【技术保护点】

【技术特征摘要】
1.一种面向分布式数据挖掘工作流的调度系统,其特征在于,包括功能模块、搜索模块、控件模块、画布模块,所述功能模块用于实现用户通过功能区对任务进行的操作,包括新建、保存、打开工作流,交互式执行工作流,删除控件操作;所述搜索模块用于实现用户通过搜索区对控件搜索,用户在搜索栏中输入控件名称,快速查找出所需要的控件;所述控件模块用于提供常用的数据加载、数据预处理和数据挖掘控件,用户通过控件区选择需要的控件;所述画布模块对应于构建数据挖掘工作流任务的画布区,通过鼠标选中控件区的控件拖拽到画布,点击控件相对应的输入和输出则出现一条曲线将两个控件连接在一起,控件两两相连即构建一个数据挖掘工作流任务。2.根据权利要求1所述的面向分布式数据挖掘工作流的调度系统,其特征在于,所述数据挖掘工作流的调度系统采用Workflow工作流框架来实现数据挖掘任务自动化执行。3.根据权利要求2所述的面向分布式数据挖掘工作流的调度系统,其特征在于,所述Workflow工作流框架包含以下表结构信息:控件配置表,所述控件配置表用于存放配置的相关信息;控件输入端配置表,所述控件输入端配置表用于存放控件输入端配置的相关信息;控件输出端配置表,所述控件输出端配置表用于存放控件输出端配置的相关信息;目录表,所述目录表用于存放控件目录的相关信息;控件表,所述控件表用于存放控件的相关信息;工作流表,所述工作流表用于存放工作流的相关信息。4.根据权利要求1所述的面向分布式数据挖掘工作流的调度系统,其特征在于,所述搜索模块支持模糊搜索,在搜索栏中输入K,控件区中可查找出与K有关的控件。5.根据权利要求4所述的面向分布式数据挖掘工作流的调度系统,其特征在于,所述控件包括:加载数据集,其用于选择数据集,加载数据集页面会显示该数据集的记录数、属性列及属性列的类型;抽样,其可设置分层属性、抽样比例参数;拆分数据,其将数据集分为训练集和测试集,可设置拆分比例、分层抽样分层属性、是否可重复抽样,输出分为两部分:train为训练集、test为测试集;选择属性,其可设置特征属性、分组属性、标记属性;线性回归,其可设置算法名称;逻辑回归,其可设置优化器、迭代次数;K

Means,其可设置簇数量、最大迭代次数、最小质心、聚合函数参数;支持向量积,其可设置SVM类型、核函数、初始学习率数;决策树,其可设置树的最大深度、最小分支节点数参数;随机森林,其可设置树数量、树的最大深度、最小分支节点数参数;预测,其连接训练好的模型和测试集,对测试集进...

【专利技术属性】
技术研发人员:李晖李一水周彧
申请(专利权)人:贵州优联博睿科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1