大数据任务可拖拽建模方法、系统、存储介质和终端技术方案

技术编号:31503986 阅读:16 留言:0更新日期:2021-12-22 23:31
本发明专利技术涉及数据建模领域,提出了一种大数据任务可拖拽建模方法、系统、存储介质和终端设备,其中,所述方法包括:确定目标任务的任务类型,并上传所述目标任务的源数据;基于功能组件的拖拽轨迹以及所述功能组件之间连线顺序,确定所述目标任务的处理流程,并根据所述任务类型确定所述目标任务的解析器;触发所述解析器解析所述目标任务的处理流程,并根据所述处理流程对所述源数据进行处理,得到所述目标任务的处理结果。本发明专利技术通过拖拽并连接组件实现建模流程,将大数据建模任务简单化,操作简单,容易上手。容易上手。容易上手。

【技术实现步骤摘要】
大数据任务可拖拽建模方法、系统、存储介质和终端


[0001]本专利技术涉及数据建模
,尤其涉及大数据任务可拖拽建模方法、系统、存储介质和终端。

技术介绍

[0002]可拖拽技术由向导式技术发展而来,它可以实现多元功能组件复杂结合并简单使用,现有的可拖拽建模有一款可拖拽式的大数据ETL工具SDC(Streamsets Data Collector)工具和阿里PAI(Platform of Artificial Intelligence)等等,SDC是一款可拖拽式的大数据ETL工具,只针对ETL等加工处理流程实现可拽功能组件设计,阿里PAI是主要面向企业及开发者的云原生机器学习平台,使用较复杂且初学者无法直接使用,然而大数据的任务建模及数据挖掘等功能需要灵活并便于初学者使用,而传统的技术无法满足用户。
[0003]大数据不同类型任务建模所需的参数格式样式及格式都不相同,且数据不同类型任务建模所需的解析引擎也不同,如果每种类型任务都写一个解析引擎势必太笨重,那么如何做到区分界限部分通用、部分单独针对解析就变得重要。开源的可拖拽机器学习挖掘建模只支持简单的线性回归及逻辑回归算法,而当下国外一些热门算法及集成算法都没有接入,缺乏与时俱进的专业性及严谨性。

技术实现思路

[0004]为了至少解决上述一个技术问题,本专利技术提出了大数据任务可拖拽建模方法和系统,本专利技术具体是以如下技术方案实现的:
[0005]本专利技术的第一个方面提出了大数据任务可拖拽建模方法,所述方法包括:
[0006]确定目标任务的任务类型,并上传所述目标任务的源数据;
[0007]基于功能组件的拖拽轨迹以及所述功能组件之间连线顺序,确定所述目标任务的处理流程,并根据所述任务类型确定所述目标任务的解析器;
[0008]触发所述解析器解析所述目标任务的处理流程,并根据所述处理流程对所述源数据进行处理,得到所述目标任务的处理结果。
[0009]在一些可能的实施方式中,所述功能组件包括数据源组件、写数据表组件、随机采样组件、类型转换组件、拆分组件、缺失值填充组件、归一化组件、标准化组件、SQL脚本组件、增加序列号组件、全表统计组件、皮尔森系数组件、柱状图组件、线性回归组件、线性回归预测组件、逻辑回归组件、逻辑回归预测组件和数据同步组件。
[0010]在一些可能的实施方式中,所述触发所述解析器解析所述目标任务的处理流程,并根据所述处理流程对所述源数据进行处理,包括:
[0011]判断所述功能组件的参数以及所述功能组件之间连线的参数是否正确,若不正确,则提示功能组件错误,若正确,则根据所述处理流程对所述源数据进行处理。
[0012]在一些可能的实施方式中,所述根据所述处理流程对所述源数据进行处理,触发
所述解析器解析所述目标任务的处理流程,并根据所述处理流程对所述源数据进行处理,还包括:
[0013]检测数据预处理后的所述源数据是否存在异常数据,若存在,则提示功能组件错误,若不存在,则根据所述处理流程对所述源数据进行处理。
[0014]在一些可能的实施方式中,所述触发所述解析器解析所述目标任务的处理流程,并根据所述处理流程对所述源数据进行处理,还包括:
[0015]验证所述处理结果与标准结果的误差是否小于预设值,若不小于预设值,则响应所述功能组件的参数的更改,对所述源数据继续进行处理,若小于预设值,则保存所述处理结果。
[0016]本专利技术的第二个方面提出了大数据任务可拖拽建模系统,所述系统包括:
[0017]任务确定模块,用于确定目标任务的任务类型,并上传所述目标任务的源数据;
[0018]流程确定模块,用于基于功能组件的拖拽轨迹以及所述功能组件之间连线顺序,确定所述目标任务的处理流程,并根据所述任务类型确定所述目标任务的解析器;
[0019]流程执行模块,用于触发所述解析器解析所述目标任务的处理流程,并根据所述处理流程对所述源数据进行处理,得到所述目标任务的处理结果。
[0020]在一些可能的实施方式中,
[0021]所述流程选择模块包括源目标单元、数据预处理单元、统计分析单元、机器学习单元和数据同步单元;
[0022]所述源目标单元包括数据源组件和写数据表组件;
[0023]所述数据预处理单元包括随机采样组件、类型转换组件、拆分组件、缺失值填充组件、归一化组件、标准化组件、SQL脚本组件和增加序列号组件;
[0024]统计分析单元包括全表统计组件、皮尔森系数组件和柱状图组件;
[0025]机器学习单元包括线性回归组件、线性回归预测组件、逻辑回归组件和逻辑回归预测组件;
[0026]所述数据同步单元包括数据同步组件。
[0027]在一些可能的实施方式中,所述流程解析模块还包括判断单元、检测单元和验证单元;
[0028]所述判断单元用于判断所述功能组件的参数以及所述功能组件之间连线的参数是否正确,若不正确,则提示功能组件错误,若正确,则根据所述处理流程对所述源数据进行处理;
[0029]所述检测单元用于检测数据预处理后的所述源数据是否存在异常数据,若存在,则提示功能组件错误,若不存在,则根据所述处理流程对所述源数据进行处理;
[0030]所述验证单元用于验证所述处理结果与标准结果的误差是否小于预设值,若不小于预设值,则响应所述功能组件的参数的更改,对所述源数据继续进行处理,若小于预设值,则保存所述处理结果。
[0031]本专利技术还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的大数据任务可拖拽建模系统方法。
[0032]本专利技术还提供一种终端,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使
得所述一个或多个处理器实现如上述的大数据任务可拖拽建模系统方法。
[0033]采用上述技术方案,本专利技术所述的大数据任务可拖拽建模系统和装置,具有如下有益效果:
[0034]本专利技术通过连接组件实现建模流程,将大数据建模任务简单化,操作简单,容易上手,且封装了不同的解析引擎,能够拖拽创建不同类型的任务,匹配合适的解析引擎。
附图说明
[0035]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1为本专利技术实施例提供的大数据任务可拖拽建模方法的流程图;
[0037]图2为本专利技术实施例提供的大数据任务可拖拽建模系统的结构图;
[0038]图3为本专利技术实施例提供的大数据任务可拖拽建模系统的架构图;
[0039]图4为本专利技术实施例提供的计算机终端设备的结构示意图。
具体实施方式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据任务可拖拽建模方法,其特征在于,所述方法包括:确定目标任务的任务类型,并上传所述目标任务的源数据;基于功能组件的拖拽轨迹以及所述功能组件之间连线顺序,确定所述目标任务的处理流程,并根据所述任务类型确定所述目标任务的解析器;触发所述解析器解析所述目标任务的处理流程,并根据所述处理流程对所述源数据进行处理,得到所述目标任务的处理结果。2.根据权利要求1所述的方法,其特征在于,所述功能组件包括数据源组件、写数据表组件、随机采样组件、类型转换组件、拆分组件、缺失值填充组件、归一化组件、标准化组件、SQL脚本组件、增加序列号组件、全表统计组件、皮尔森系数组件、柱状图组件、线性回归组件、线性回归预测组件、逻辑回归组件、逻辑回归预测组件和数据同步组件。3.根据权利要求1所述的方法,其特征在于,所述触发所述解析器解析所述目标任务的处理流程,并根据所述处理流程对所述源数据进行处理,包括:判断所述功能组件的参数以及所述功能组件之间连线的参数是否正确,若不正确,则提示功能组件错误,若正确,则根据所述处理流程对所述源数据进行处理。4.根据权利要求1所述的方法,其特征在于,所述根据所述处理流程对所述源数据进行处理,触发所述解析器解析所述目标任务的处理流程,并根据所述处理流程对所述源数据进行处理,还包括:检测数据预处理后的所述源数据是否存在异常数据,若存在,则提示功能组件错误,若不存在,则根据所述处理流程对所述源数据进行处理。5.根据权利要求1所述的方法,其特征在于,所述触发所述解析器解析所述目标任务的处理流程,并根据所述处理流程对所述源数据进行处理,还包括:验证所述处理结果与标准结果的误差是否小于预设值,若不小于预设值,则响应所述功能组件的参数的更改,对所述源数据继续进行处理,若小于预设值,则保存所述处理结果。6.一种大数据任务可拖拽建模系统,其特征在于,所述系统包括:任务确定模块,用于确定目标任务的任务类型...

【专利技术属性】
技术研发人员:刘大忠
申请(专利权)人:浙江吉利控股集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1