一种面向分布式数据挖掘工作流的调度系统技术方案

技术编号：30501232 阅读：18 留言：0更新日期：2021-10-27 22:33

本发明专利技术公开了一种面向分布式数据挖掘工作流的任务调度系统，涉及数据挖掘领域，包括功能模块、搜索模块、控件模块、画布模块，各个模块在所述系统的用户界面包括功能模块对应的功能区，搜索模块对应的搜索区，控件模块对应的控件区，画布模块对应的画布区；针对传统的数据挖掘任务调度技术存在的问题，本发明专利技术设计了一个面向基于工作流的分布式数据挖掘任务的调度系统，针对数据挖掘工作流任务中并行子任务总完成时间这个指标，设计了一种长任务优先(LTF)调度算法，并使用分布式技术使数据挖掘任务分布式进行，大大提高了数据挖掘任务的执行效率。的执行效率。的执行效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向分布式数据挖掘工作流的调度系统

[0001]本专利技术涉及数据挖掘领域，具体是一种面向分布式数据挖掘工作流的调度系统。

技术介绍

[0002]随着互联网、大数据和云计算等信息技术的飞速发展，人类社会进入信息时代，数据产生的规模和速度呈指数级增长，形成了海量数据。如何从海量数据中提取出有价值的信息，数据挖掘技术和数据分析技术是常用的方法。数据挖掘和数据分析的区别在于：数据分析的目标明确，先做假设，然后通过数据分析来验证假设是否正确，从而得到相应的结论。而数据挖掘在挖掘信息前，没有一个明确的目标，可以从数据中寻找未知的模式与规律。数据挖掘与数据分析相比，可以最大化的发挥数据的价值，从数据中挖掘出潜在的、有价值的知识。
[0003]随着企业数据量的不断积累，数据已成为企业的一种无形资产。数据蕴含丰富的信息，从不同的角度对数据进行挖掘分析，可以得到不同的知识，深挖数据价值已成为许多企业近几年来提高效益的途径。在分布式数据挖掘系统中，对同一数据集使用多种挖掘算法进行数据挖掘时，需要一种恰当的调度策略来对并行的数据挖掘任务进行调度，以达到较好的QoS性能指标。
[0004]目前常用的分布式任务调度平台有XXL
‑
JOB、Easy Scheduler以及南京云创大数据的JobKeeper。这些任务调度平台主要是针对定时任务或以整个工作流任务为调度单元进行调度，没有考虑工作流任务中多个并行子任务如何调度的问题。

技术实现思路

[0005]本专利技术的目的在于提供一种面向分布式

【技术保护点】

【技术特征摘要】
1.一种面向分布式数据挖掘工作流的调度系统，其特征在于，包括功能模块、搜索模块、控件模块、画布模块，所述功能模块用于实现用户通过功能区对任务进行的操作，包括新建、保存、打开工作流，交互式执行工作流，删除控件操作；所述搜索模块用于实现用户通过搜索区对控件搜索，用户在搜索栏中输入控件名称，快速查找出所需要的控件；所述控件模块用于提供常用的数据加载、数据预处理和数据挖掘控件，用户通过控件区选择需要的控件；所述画布模块对应于构建数据挖掘工作流任务的画布区，通过鼠标选中控件区的控件拖拽到画布，点击控件相对应的输入和输出则出现一条曲线将两个控件连接在一起，控件两两相连即构建一个数据挖掘工作流任务。2.根据权利要求1所述的面向分布式数据挖掘工作流的调度系统，其特征在于，所述数据挖掘工作流的调度系统采用Workflow工作流框架来实现数据挖掘任务自动化执行。3.根据权利要求2所述的面向分布式数据挖掘工作流的调度系统，其特征在于，所述Workflow工作流框架包含以下表结构信息：控件配置表，所述控件配置表用于存放配置的相关信息；控件输入端配置表，所述控件输入端配置表用于存放控件输入端配置的相关信息；控件输出端配置表，所述控件输出端配置表用于存放控件输出端配置的相关信息；目录表，所述目录表用于存放控件目录的相关信息；控件表，所述控件表用于存放控件的相关信息；工作流表，所述工作流表用于存放工作流的相关信息。4.根据权利要求1所述的面向分布式数据挖掘工作流的调度系统，其特征在于，所述搜索模块支持模糊搜索，在搜索栏中输入K，控件区中可查找出与K有关的控件。5.根据权利要求4所述的面向分布式数据挖掘工作流的调度系统，其特征在于，所述控件包括：加载数据集，其用于选择数据集，加载数据集页面会显示该数据集的记录数、属性列及属性列的类型；抽样，其可设置分层属性、抽样比例参数；拆分数据，其将数据集分为训练集和测试集，可设置拆分比例、分层抽样分层属性、是否可重复抽样，输出分为两部分：train为训练集、test为测试集；选择属性，其可设置特征属性、分组属性、标记属性；线性回归，其可设置算法名称；逻辑回归，其可设置优化器、迭代次数；K
‑
Means，其可设置簇数量、最大迭代次数、最小质心、聚合函数参数；支持向量积，其可设置SVM类型、核函数、初始学习率数；决策树，其可设置树的最大深度、最小分支节点数参数；随机森林，其可设置树数量、树的最大深度、最小分支节点数参数；预测，其连接训练好的模型和测试集，对测试集进...

【专利技术属性】
技术研发人员：李晖，李一水，周彧，
申请(专利权)人：贵州优联博睿科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人