一种大数据算法平台和数据挖掘方法技术

技术编号:39676310 阅读:13 留言:0更新日期:2023-12-11 18:42
本发明专利技术实施例提供了一种大数据算法平台和数据挖掘方法,涉及数据处理技术领域,包括数据源管理模块

【技术实现步骤摘要】
一种大数据算法平台和数据挖掘方法


[0001]本专利技术属于数据处理
,具体是涉及一种大数据算法平台和数据挖掘方法


技术介绍

[0002]在现代数据驱动的世界中,有效地管理和处理大规模结构化数据变得至关重要

在利用这些数据进行数据挖掘时,通常需要相关人员具备一定的数据挖掘基础,或者将任务外包给其他专业服务

为了更有效地利用这些数据,特别是对于非技术用户,提供高度灵活的数据处理能力变得尤为关键,其中包括数据管理

数据处理和可视化展示

[0003]目前,市面上存在许多用于数据处理开源工具,但是这些工具的功能单一

例如,
Apache NiFi
工具,主要用于自动化处理和传输数据流,但是缺乏高级任务调度和数据可视化功能,因此需要额外的工具来实现完整的任务流程调度和数据可视化展示
。Apache Airflow
工具,用于构建复杂的工作流程用于调度和管理数据处理任务,但是它不包含数据源管理和数据可视化模块

由此不利于用户高效

便捷地进行数据处理,而且上述工具要求用户具备一定的技术知识,学习成本过高


技术实现思路

[0004]本专利技术的目的在于满足实际需求,提供一种大数据算法平台和数据挖掘方法,该大数据算法平台能够便捷和高效的进行数据处理

[0005]第一方面,本专利技术提供了一种大数据算法平台,包括数据源管理模块

数据挖掘模块和数据可视化模块;其中,所述数据挖掘模块预先封装若干种实现数据处理的算法组件;所述数据源管理模块,用于实现数据库的增删改查操作;将接收到的待处理数据上传至目标数据库中,以及对所述目标数据库中待处理数据进行更新

查看和删除;所述数据挖掘模块,用于在接收到用户输入的待组合算法组件的配置信息和算法组件组合指令后,基于所述配置信息配置所述待组合算法组件,基于所述算法组件组合指令对配置好的待组合算法组件进行组合,构建任务流程图;基于所述任务流程图对所述待处理数据进行数据挖掘,以生成输出数据;所述数据可视化模块,用于将输出数据与选取的图标进行对接,生成可视化图表

[0006]优选地,所述数据源管理模块,还用于将所述待处理数据上传至目标数据库中后,构建该待处理数据与该目标数据库的唯一标识之间的对应关系

[0007]优选地,所述数据挖掘模块中的每一算法组件对应一个注册模块;每一注册模块,用于将对应的算法组件进行注册处理,生成实例化对象;所述大数据算法平台的后端解析前端下发的待组合算法组件和算法组件组合指令后,根据任务流节点和执行顺序构建对应的实例化对象;基于所述实例化对象和调用顺序生成可执行文件,以使得所述数据挖掘模块基于所述可执行文件进行数据挖掘

[0008]优选地,所述注册模块中包括
build
方法和
registry
方法,所述
build
方法用于基
于配置文件获取实例化对象,所述
registry
方法用于维护字符串与实例化对象之间的对应关系;所述注册模块具体用于:将对应的算法组件进行注册处理,映射为目标字符串;基于所述对应关系,将所述目标字符串映射为对应的实例化对象

[0009]优选地,所述数据挖掘模块还包括任务调度子模块;所述任务调度子模块,用于接收用户输入的任务调度规则;根据所述任务调度规则,利用所述任务流程图对所述待处理数据进行数据处理,以得到输出数据,其中,所述任务调度规则包括:任务开始时刻

任务结束时刻和任务执行周期

[0010]优选地,所述数据挖掘模块还包括任务流程图版本管理子模块,用于在接收到用户输入的查询指令后,查询历史任务流程图;其中,所述任务流程图为有向无环图;所述数据可视化模块,具体用于根据用户导入的静态数据生成静态可视化图表;或者,根据用户导入的各个历史任务流程图生成的动态数据,生成动态可视化图表

[0011]优选地,所述算法组件包括:数据源组件

数据预处理组件

机器学习组件

数据统计组件

功能算法组件和深度学习组件

[0012]优选地,其特征在于,所述数据源管理模块

数据挖掘模块和数据可视化模块基于开源的大数据处理框架或任务流管理框架构建

[0013]第二方面,本专利技术还提供了一种数据挖掘方法,基于上述第一方面任一项所述的大数据算法平台,完成如下步骤:接收到新建任务流程图指令后,基于用户输入的任务调度规则,新建空白的目标任务流程图,其中,所述任务调度规则包括:任务流程图的开始执行时刻

任务流程图的结束执行时刻和任务流程图的执行周期;判断接收的用户指令是新建目标算法指令还是完成创建指令;若接收的用户指令是新建目标算法指令,则在所述目标任务流程图增加目标算法组件,作为所述目标任务流程图的节点;基于用户输入的配置信息配置所述目标算法组件;基于用户输入的算法组件组合指令,连接所述目标任务流程图中的各个节点;返回执行所述判断接收的用户指令是新建目标算法指令还是完成创建指令的步骤;若接收的用户指令是完成创建指令,则结束对所述目标任务流程图的构建;基于所述任务调度规则规定的开始执行时刻

结束执行时刻和执行周期,利用所述目标任务流程图对待处理数据进行数据挖掘,以获取输出数据

[0014]优选地,所述基于所述任务调度规则规定的开始执行时刻

结束执行时刻和执行周期,运行所述目标任务流程图对待处理数据进行数据挖掘,以获取输出数据,包括:判断是否接收到用户输入的立即运行指令;若未接收到用户输入的立即运行指令,则基于所述任务调度规则规定的开始执行时刻

结束执行时刻和执行周期,运行所述目标任务流程图对待处理数据进行数据挖掘,以获取输出数据;若接收到用户输入的立即运行指令,则立即运行所述目标任务流程图;若所述目标任务流程图运行成功,则显示输出数据;若所述目标任务流程图运行失败,则输出所述目标任务流程图中各个目标算法组件的运行状态和运行日志

[0015]与现有技术相比,本申请具有的优点和积极效果是:
本专利技术提供的大数据算法平台包括数据源管理模块

数据挖掘模块和数据可视化模块

数据源管理模块能够获取并管理待处理数据;数据挖掘模块能够通过算法组件构建任务流程图并基于任务流程图对待处理数据进行数据分析,无需编写复杂的代码,进而可以便捷地进行数据挖掘分析;数据可视化模块能够将输出数据可视化显示,以方便用户可以根据可视化图表进行数据分析

因此,大数据平台提供了一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种大数据算法平台,其特征在于,包括数据源管理模块

数据挖掘模块和数据可视化模块;其中,所述数据挖掘模块预先封装若干种实现数据处理的算法组件;所述数据源管理模块,用于实现数据库的增删改查操作;将接收到的待处理数据上传至目标数据库中,以及对所述目标数据库中待处理数据进行更新

查看和删除;所述数据挖掘模块,用于在接收到用户输入的待组合算法组件的配置信息和算法组件组合指令后,基于所述配置信息配置所述待组合算法组件,基于所述算法组件组合指令对配置好的待组合算法组件进行组合,构建任务流程图;基于所述任务流程图对所述待处理数据进行数据挖掘,以生成输出数据;所述数据可视化模块,用于将输出数据与选取的图标进行对接,生成可视化图表
。2.
根据权利要求1所述的大数据算法平台,其特征在于,所述数据源管理模块,还用于将所述待处理数据上传至目标数据库中后,构建该待处理数据与该目标数据库的唯一标识之间的对应关系
。3.
根据权利要求1所述大数据算法平台,其特征在于,所述数据挖掘模块中的每一算法组件对应一个注册模块;每一注册模块,用于将对应的算法组件进行注册处理,生成实例化对象;所述大数据算法平台的后端解析前端下发的待组合算法组件和算法组件组合指令后,根据任务流节点和执行顺序构建对应的实例化对象;基于所述实例化对象和调用顺序生成可执行文件,以使得所述数据挖掘模块基于所述可执行文件进行数据挖掘
。4.
根据权利要求3所述大数据算法平台,其特征在于,所述注册模块中包括
build
方法和
registry
方法,所述
build
方法用于基于配置文件获取实例化对象,所述
registry
方法用于维护字符串与实例化对象之间的对应关系;所述注册模块具体用于:将对应的算法组件进行注册处理,映射为目标字符串;基于所述对应关系,将所述目标字符串映射为对应的实例化对象
。5.
根据权利要求1所述的大数据算法平台,其特征在于,所述数据挖掘模块还包括任务调度子模块;所述任务调度子模块,用于接收用户输入的任务调度规则;根据所述任务调度规则,利用所述任务流程图对所述待处理数据进行数据处理,以得到输出数据,其中,所述任务调度规则包括:任务开始时刻

任务结束时刻和任务执行周期
。6.
根据权利要求1所述的大数据算法平台,其特征在于,所述数据挖掘模块还包括任务流程图版本管理子模块,用于在接收到用户输入的查询指令后,查...

【专利技术属性】
技术研发人员:代文静田楷陈立名曹彬胡江洪杨剑远晏文仲黄金方超群
申请(专利权)人:菲特天津检测技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1