一种可视化的数据处理系统及处理方法技术方案

技术编号:30408133 阅读:22 留言:0更新日期:2021-10-20 11:19
本发明专利技术揭示了一种可视化的数据处理系统及处理方法,其中,系统由前台可视化操作部分以及后台数据处理部分组成,方法则包括如下步骤:S1、定义任务执行单元,依据具体的任务需求定义具体的任务执行单元的执行顺序,形成任务执行规则;S2、依据任务执行规则调用相对应的任务执行单元,得到任务执行结果并保存。本发明专利技术以一种可视化、自定义的方式,实现了对数据处理流程的有效控制,整个操作过程简单直观,极大地缩短了开发周期、节约了企业内宝贵的技术人员资源、提升了企业的生产效率和实际产出。出。出。

【技术实现步骤摘要】
一种可视化的数据处理系统及处理方法


[0001]本专利技术涉及一种数据处理系统及处理方法,具体而言,涉及一种综合性的、可视化的数据处理系统及应用该系统的数据处理方法,属于大数据处理


技术介绍

[0002]大数据是近年来受到人们广泛关注、讨论和研究热度较高的一个概念,其主要指无法在一定时间内利用常规软件工具对其内容进行抓取、管理和处理的数据集合。而大数据技术,则是指从各种各样类型的大数据中,快速获得有价值的信息的一项技术。适用于大数据的技术包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网以及可扩展存储系统等。
[0003]可以认为,目前行业内对于大数据的有效利用仍然是一项技术痛点,如何根据不同企业或同一企业不同项目的需要,对数据库中的数据进行有效地整合、利用,进而获得所期望达到的效果,是困扰着业内研究人员的一项难题。
[0004]在现阶段的实际应用过程中,对于大数据的处理工作一般需要由企业内的业务人员提出具体的项目需求,再由企业内的开发人员针对项目需求进行评估和系统开发,整个开发周期短则几个小时、长则几天或几周不等。一旦业务人员与开发人员之间存在沟通不畅的情况、导致开发人员理解偏差,则又需要将系统推倒重新开发。很显然,对于企业而言,上述操作流程无疑会造成资源的极大浪费、严重制约了企业的生产效率和实际产出。
[0005]综上所述,如何在现有技术的基础上提出一种综合性的、可视化的数据处理系统及应用该系统的数据处理方法,以克服现有技术中的诸多缺陷,也就成为了业内研究人员亟待解决的问题。

技术实现思路

[0006]鉴于现有技术存在上述缺陷,本专利技术的目的是提出一种综合性的、可视化的数据处理系统及应用该系统的数据处理方法,具体如下。
[0007]一种可视化的数据处理系统,用于实现对大数据的处理,包括:前台可视化操作部分,用于定义任务执行单元,依据具体的任务需求定义所述任务执行单元的执行顺序,形成任务执行规则并发送;后台数据处理部分,与所述前台可视化操作部分信号连接,用于接收所述任务执行规则,依据所述任务执行规则调用所述任务执行单元,得到任务执行结果并保存;所述前台可视化操作部分具体包括,多个清洗任务执行单元,用于定义具体的数据清洗任务操作,以模块化的形式对操作进行保存;多个建模任务执行单元,用于定义具体的数据清洗任务操作,以模块化的形式对操作进行保存,多个所述建模任务执行单元间相互独立;任务输入单元,用于依据具体的任务需求,对所述清洗任务执行单元及所述建模
任务执行单元的执行顺序进行定义,形成所述任务执行规则并发送;所述后台数据处理部分具体包括,任务接收单元,与所述任务输入单元信号连接,用于接收所述任务执行规则;任务解析和判断单元,与所述任务接收单元信号连接,用于对所述任务执行规则进行解析,判断所述任务执行规则是否有效、根据判断结果执行后续操作;任务链形成和执行单元,与所述任务解析和判断单元信号连接、还分别与多个所述清洗任务执行单元及多个所述建模任务执行单元信号连接,当所述任务解析和判断单元的判断所述任务执行规则有效时,依据所述任务执行规则按序对所述清洗任务执行单元及所述建模任务执行单元进行调用,得到所述任务执行结果并发送;任务结果保存单元,与所述任务链形成和执行单元信号连接,用于对所述任务执行规则及所述任务执行结果进行保存记录。
[0008]优选地,多个所述清洗任务执行单元间相互独立;每个所述清洗任务执行单元均包括,清洗对象输入模块,用于定义需要进行数据清洗的数据集对象;清洗过程定义模块,与所述清洗对象输入模块信号连接,用于定义具体的数据清洗过程;清洗结果导出模块,与所述清洗过程定义模块信号连接,用于依据所述数据清洗过程对所述数据集对象进行数据清洗,得到数据清洗结果并输出。
[0009]优选地,多个所述建模任务执行单元间相互独立,每个所述建模任务执行单元均包括一个模型训练子单元和一个模型应用子单元;所述模型训练子单元包括,训练集选择模块,用于对训练数据集进行选择;训练集预处理模块,与所述训练集选择模块信号连接,用于对所述训练数据集进行数据预处理操作;训练模型构建模块,与所述训练集预处理模块信号连接,用于依据预处理后的所述训练数据集,结合算法、参数,形成数据处理模型;所述模型应用子单元包括,数据集选择模块,用于对任务训练集进行选择;数据集预处理模块,与所述数据集选择模块信号连接,用于对所述任务训练集进行数据预处理操作;建模结果导出单元,与所述数据集预处理模块信号连接,用于依据预处理后的所述任务训练集,结合所述数据处理模型,得到数据建模处理结果并输出。
[0010]一种可视化的数据处理方法,基于如上所述一种可视化的数据处理系统,包括如下步骤:S1、定义任务执行单元,依据具体的任务需求定义具体的任务执行单元的执行顺序,形成任务执行规则;S2、依据所述任务执行规则调用相对应的所述任务执行单元,得到任务执行结果并保存;S1具体包括如下步骤,
S11、定义具体的数据清洗任务操作,以模块化的形式将操作保存至清洗任务执行单元中,并保证多个所述清洗任务执行单元间相互独立;S12、定义具体的数据建模任务操作,以模块化的形式将操作保存至建模任务执行单元中,并保证多个所述建模任务执行单元间相互独立;S13、依据具体的任务需求,对所述清洗任务执行单元及所述建模任务执行单元的执行顺序进行定义,形成所述任务执行规则并发送;S2具体包括如下步骤,S21、接收所述任务执行规则;S22、对所述任务执行规则进行解析,判断所述任务执行规则是否有效,若判断结果为所述任务执行规则有效则按需执行S23,若判断结果为所述任务执行规则无效则报错结束后续流程;S23、依据所述任务执行规则按序对所述清洗任务执行单元及所述建模任务执行单元进行调用,按序执行完操作流程后,得到所述任务执行结果并发送;S24、对所述任务执行规则及所述任务执行结果进行保存记录,若任务执行过程中涉及数据处理模型则将所述数据处理模型一并保存。
[0011]优选地,S11具体包括如下步骤:S111、定义需要进行数据清洗的数据集对象,所述数据集对象的来源可为文件类型数据库或关系型数据库或消息队列;S112、定义具体的数据清洗过程,所述清洗过程包括去重、均值填充、空值填充以及删除数据;S113、所述数据清洗过程对所述数据集对象进行数据清洗,可选择性地对清洗后的结果进行聚合或时空碰撞,得到数据清洗结果并输出。
[0012]优选地,S12包括按序进行的模型训练子步骤和模型应用子步骤;所述模型训练子步骤具体包括,S121、对训练数据集进行选择,所述训练数据集可为文件或数据库表,所述训练数据集内必须包含训练需要的特征列;S122、对所述训练数据集进行数据预处理操作;S123、依据预处理后的所述训练数据集,选择算法、设定参数,形成数据处理模型并保存,所述参数包括训练和测试数据集比例、迭代次数、树的深度、分类数量以及正则化参数;所述模型应用子步骤具体包括,S124、对任务训练集进行选择;S125、对所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可视化的数据处理系统,用于实现对大数据的处理,其特征在于,包括:前台可视化操作部分,用于定义任务执行单元,依据具体的任务需求定义所述任务执行单元的执行顺序,形成任务执行规则并发送;后台数据处理部分,与所述前台可视化操作部分信号连接,用于接收所述任务执行规则,依据所述任务执行规则调用所述任务执行单元,得到任务执行结果并保存;所述前台可视化操作部分具体包括,多个清洗任务执行单元,用于定义具体的数据清洗任务操作,以模块化的形式对操作进行保存;多个建模任务执行单元,用于定义具体的数据清洗任务操作,以模块化的形式对操作进行保存,多个所述建模任务执行单元间相互独立;任务输入单元,用于依据具体的任务需求,对所述清洗任务执行单元及所述建模任务执行单元的执行顺序进行定义,形成所述任务执行规则并发送;所述后台数据处理部分具体包括,任务接收单元,与所述任务输入单元信号连接,用于接收所述任务执行规则;任务解析和判断单元,与所述任务接收单元信号连接,用于对所述任务执行规则进行解析,判断所述任务执行规则是否有效、根据判断结果执行后续操作;任务链形成和执行单元,与所述任务解析和判断单元信号连接、还分别与多个所述清洗任务执行单元及多个所述建模任务执行单元信号连接,当所述任务解析和判断单元的判断所述任务执行规则有效时,依据所述任务执行规则按序对所述清洗任务执行单元及所述建模任务执行单元进行调用,得到所述任务执行结果并发送;任务结果保存单元,与所述任务链形成和执行单元信号连接,用于对所述任务执行规则及所述任务执行结果进行保存记录。2.根据权利要求1所述的一种可视化的数据处理系统,其特征在于:多个所述清洗任务执行单元间相互独立;每个所述清洗任务执行单元均包括,清洗对象输入模块,用于定义需要进行数据清洗的数据集对象;清洗过程定义模块,与所述清洗对象输入模块信号连接,用于定义具体的数据清洗过程;清洗结果导出模块,与所述清洗过程定义模块信号连接,用于依据所述数据清洗过程对所述数据集对象进行数据清洗,得到数据清洗结果并输出。3.根据权利要求1所述的一种可视化的数据处理系统,其特征在于:多个所述建模任务执行单元间相互独立,每个所述建模任务执行单元均包括一个模型训练子单元和一个模型应用子单元;所述模型训练子单元包括,训练集选择模块,用于对训练数据集进行选择;训练集预处理模块,与所述训练集选择模块信号连接,用于对所述训练数据集进行数据预处理操作;训练模型构建模块,与所述训练集预处理模块信号连接,用于依据预处理后的所述训练数据集,结合算法、参数,形成数据处理模型;
所述模型应用子单元包括,数据集选择模块,用于对任务训练集进行选择;数据集预处理模块,与所述数据集选择模块信号连接,用于对所述任务训练集进行数据预处理操作;建模结果导出单元,与所述...

【专利技术属性】
技术研发人员:马学中胡德斌
申请(专利权)人:苏州维众数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1