一种数据挖掘控制方法和系统技术方案

技术编号:34815930 阅读:17 留言:0更新日期:2022-09-03 20:25
本发明专利技术公开了一种数据挖掘控制方法和系统,该方法包括:根据用户发送的抽样指令从全量数据中抽取部分数据并生成对部分数据的统计结果,以使用户根据统计结果从部分数据中筛选出目标数据;当检测到用户对目标数据的加载指令时,调用预设数据清洗分析工具对目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析,以使用户根据数据分析的结果建立初步数据挖掘模型并对初步数据挖掘模型进行评估;当检测到用户对全量数据的加载指令时,调用预设数据清洗分析工具对全量数据按照用户指定的最佳数据清洗和分析流程进行最终数据清洗和最终数据分析,以使用户根据最终数据分析的结果建立最终数据挖掘模型,从而提高了数据挖掘的效率。了数据挖掘的效率。了数据挖掘的效率。

【技术实现步骤摘要】
一种数据挖掘控制方法和系统


[0001]本申请涉及大数据
,更具体地,涉及一种数据挖掘控制方法和系统。

技术介绍

[0002]在进行数据挖掘的初期,用户往往需要将生产数据进行多种方式的转换和清洗,以提高建模的准确率和效率。数据探索是指在数据挖掘之前,对数据进行解释性的分析工作,包括对数据的定义、描述数据的形态特征并解释数据的相关性。通过数据探索的结果,用户能够更好的开展后续的数据挖掘与数据建模工作。
[0003]用户可使用数据可视化和统计技术来描述数据集的特征,例如大小,数量和准确性,以便更好地理解数据的性质。
[0004]传统的数据挖掘过程通常有两种方式:方式一,如图2所示,将全量数据加载到Python或者R,数据探索,数据清洗,分析和建模。图2中的虚线框里的过程是一个循环迭代的过程。
[0005]方式二,如图3所示,对于数据库的数据,通过SQL进行数据探索和数据清洗然后将数据加载到建模框架中进行分析和建模,并根据模型的结果进行循环迭代。
[0006]上述两种方式会存在以下问题:在方式一中,在对数据进行感知之前,就直接把全量数据加载进来,比较费时费力。另外,质量不好的数据加载进来,稍后又需要删除,这样也会浪费资源和时间。并且,由于数据探索、数据清洗和分析的过程会反复循环多次,如果在这个过程中一直对全量数据进行操作,效率会比较低。
[0007]在方式二中,数据分析和清洗的流程与分析建模不在同一环境中实现,使得循环的过程不够流程,用户需要一直重复加载不同的数据。而且直接用SQL查询去获取统计信息,不如常见的基于Python或R的数据清洗分析工具提供的方法多样,限制了数据处理能力。
[0008]因此,如何提高数据挖掘的效率,是目前有待解决的技术问题。

技术实现思路

[0009]本专利技术公开了一种数据挖掘控制方法,用以解决现有技术中数据挖掘效率低的技术问题,该方法包括:根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果,以使用户根据所述统计结果从所述部分数据中筛选出目标数据;当检测到用户对所述目标数据的加载指令时,调用预设数据清洗分析工具对所述目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析,以使用户根据数据分析的结果建立初步数据挖掘模型并对所述初步数据挖掘模型进行评估;当检测到用户对所述全量数据的加载指令时,调用所述预设数据清洗分析工具对所述全量数据按照用户指定的最佳数据清洗和分析流程进行最终数据清洗和最终数据分
析,以使用户根据最终数据分析的结果建立最终数据挖掘模型;其中,所述最佳数据清洗和分析流程是用户在所述初步数据挖掘模型满足预设评估标准时确定的。
[0010]在一些实施例中,根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果,具体为:根据用户发送的抽样指令和预设SQL语句框架生成SQL查询分析语句;在用户指定的数据源执行所述SQL查询分析语句,并根据执行结果获取所述部分数据和所述统计结果。
[0011]在一些实施例中,所述数据源包括数据库和HDFS,在用户指定的数据源执行所述SQL查询分析语句,具体为:若所述数据源为数据库,将所述SQL查询分析语句传到数据库执行;若所述数据源为HDFS,通过Hadoop连接器将所述SQL查询分析语句下推至HDFS中执行。
[0012]在一些实施例中,在根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果之前,所述方法还包括:根据用户发出的连接指令连接到所述数据源,并从所述数据源获取元数据;根据用户在所述元数据中选择的表、对表的抽样方式和抽样比例触发生成所述抽样指令;其中,所述元数据包括所述全量数据中数据表的名称、字段名称、字段类型和数据的总行数。
[0013]在一些实施例中,所述统计结果包括数据的统计变量和异常值变量,所述统计变量表征了数据的范围、大小和波动趋势,所述异常值变量表征了数据的异常值和空值情况。
[0014]相应的,本专利技术还提出了一种数据挖掘控制系统,所述系统包括:抽样模块,用于根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果,以使用户根据所述统计结果从所述部分数据中筛选出目标数据;第一清洗分析模块,用于当检测到用户对所述目标数据的加载指令时,调用预设数据清洗分析工具对所述目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析,以使用户根据数据分析的结果建立初步数据挖掘模型并对所述初步数据挖掘模型进行评估;第二清洗分析模块,用于当检测到用户对所述全量数据的加载指令时,调用所述预设数据清洗分析工具对所述全量数据按照用户指定的最佳数据清洗和分析流程进行最终数据清洗和最终数据分析,以使用户根据最终数据分析的结果建立最终数据挖掘模型;其中,所述最佳数据清洗和分析流程是用户在所述初步数据挖掘模型满足预设评估标准时确定的。
[0015]在一些实施例中,所述抽样模块,具体用于:根据用户发送的抽样指令和预设SQL语句框架生成SQL查询分析语句;在用户指定的数据源执行所述SQL查询分析语句,并根据执行结果获取所述部分数据和所述统计结果。
[0016]在一些实施例中,所述数据源包括数据库和HDFS,所述抽样模块,还具体用于:
若所述数据源为数据库,将所述SQL查询分析语句传到数据库执行;若所述数据源为HDFS,通过Hadoop连接器将所述SQL查询分析语句下推至HDFS中执行。
[0017]在一些实施例中,所述系统还包括获取模块,用于:根据用户发出的连接指令连接到所述数据源,并从所述数据源获取元数据;根据用户在所述元数据中选择的表、对表的抽样方式和抽样比例触发生成所述抽样指令;其中,所述元数据包括所述全量数据中数据表的名称、字段名称、字段类型和数据的总行数。
[0018]在一些实施例中,所述统计结果包括数据的统计变量和异常值变量,所述统计变量表征了数据的范围、大小和波动趋势,所述异常值变量表征了数据的异常值和空值情况。
[0019]通过应用以上技术方案,根据用户发送的抽样指令从全量数据中抽取部分数据并生成对部分数据的统计结果,以使用户根据统计结果从部分数据中筛选出目标数据;当检测到用户对目标数据的加载指令时,调用预设数据清洗分析工具对目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析,以使用户根据数据分析的结果建立初步数据挖掘模型并对初步数据挖掘模型进行评估;当检测到用户对全量数据的加载指令时,调用预设数据清洗分析工具对全量数据按照用户指定的最佳数据清洗和分析流程进行最终数据清洗和最终数据分析,以使用户根据最终数据分析的结果建立最终数据挖掘模型;其中,最佳数据清洗和分析流程是用户在初步数据挖掘模型满足预设评估标准时确定的,从而提高了数据挖掘的效率。
附图说明
[0020]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据挖掘控制方法,其特征在于,所述方法包括:根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果,以使用户根据所述统计结果从所述部分数据中筛选出目标数据;当检测到用户对所述目标数据的加载指令时,调用预设数据清洗分析工具对所述目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析,以使用户根据数据分析的结果建立初步数据挖掘模型并对所述初步数据挖掘模型进行评估;当检测到用户对所述全量数据的加载指令时,调用所述预设数据清洗分析工具对所述全量数据按照用户指定的最佳数据清洗和分析流程进行最终数据清洗和最终数据分析,以使用户根据最终数据分析的结果建立最终数据挖掘模型;其中,所述最佳数据清洗和分析流程是用户在所述初步数据挖掘模型满足预设评估标准时确定的。2.如权利要求1所述的方法,其特征在于,根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果,具体为:根据用户发送的抽样指令和预设SQL语句框架生成SQL查询分析语句;在用户指定的数据源执行所述SQL查询分析语句,并根据执行结果获取所述部分数据和所述统计结果。3.如权利要求2所述的方法,其特征在于,所述数据源包括数据库和HDFS,在用户指定的数据源执行所述SQL查询分析语句,具体为:若所述数据源为数据库,将所述SQL查询分析语句传到数据库执行;若所述数据源为HDFS,通过Hadoop连接器将所述SQL查询分析语句下推至HDFS中执行。4.如权利要求2所述的方法,其特征在于,在根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果之前,所述方法还包括:根据用户发出的连接指令连接到所述数据源,并从所述数据源获取元数据;根据用户在所述元数据中选择的表、对表的抽样方式和抽样比例触发生成所述抽样指令;其中,所述元数据包括所述全量数据中数据表的名称、字段名称、字段类型和数据的总行数。5.如权利要求1所述的方法,其特征在于,所述统计结果包括数据的统计变量和异常值变量,所述统计变量表征了数据的范围、大小和波动趋势,所述异常...

【专利技术属性】
技术研发人员:刘睿民易水寒陶杨
申请(专利权)人:北京柏睿数据技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1