数据挖掘方法、装置、设备和介质制造方法及图纸

技术编号:38462413 阅读:10 留言:0更新日期:2023-08-11 14:39
本公开提供了一种数据挖掘方法、装置、设备和存储介质,涉及人工智能技术领域,具体涉及大数据、数据分析等技术领域。数据挖掘方法包括:采用第一查询语句,获取原始数据集中目标项的排序结果;采用第二查询语句,调用预设函数,并采用所述预设函数根据所述目标项的排序结果对所述原始数据集进行数据挖掘处理,以获得数据挖掘结果。本公开可以简便地进行数据挖掘处理。挖掘处理。挖掘处理。

【技术实现步骤摘要】
数据挖掘方法、装置、设备和介质


[0001]本公开涉及人工智能
,具体涉及计算机视觉、深度学习等
,尤其涉及一种数据挖掘方法、装置、设备和介质。

技术介绍

[0002]频繁模式增长(Frequent Pattern Growth,FP

Growth)算法是一种关联规则挖掘算法。关联规则挖掘算法能够从数据库或其他信息所存储的大量数据中发现频繁项集及其关联性。
[0003]相关技术中,主要基于Python等编程语言自行实现FP

Growth算法,再采用FP

Growth算法挖掘频繁项集及其关联性。

技术实现思路

[0004]本公开提供了一种数据挖掘方法、装置、设备和存储介质。
[0005]根据本公开的一方面,提供了一种数据挖掘方法,包括:采用第一查询语句,获取原始数据集中目标项的排序结果;采用第二查询语句,调用预设函数,并采用所述预设函数根据所述目标项的排序结果对所述原始数据集进行数据挖掘处理,以获得数据挖掘结果。
[0006]根据本公开的另一方面,提供了一种数据挖掘装置,包括:排序模块,用于采用第一查询语句,获取原始数据集中目标项的排序结果;挖掘模块,用于采用第二查询语句,调用预设函数,并采用所述预设函数根据所述目标项的排序结果对所述原始数据集进行数据挖掘处理,以获得数据挖掘结果。
[0007]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
[0008]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
[0009]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
[0010]根据本公开的技术方案,可以简便地进行数据挖掘处理。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开第一实施例的示意图;
[0014]图2是根据本公开实施例提供的应用场景的示意图;
[0015]图3是根据本公开实施例提供的数据挖掘系统的整体架构示意图;
[0016]图4是根据本公开实施例提供的SQL模块的执行流程的示意图;
[0017]图5是根据本公开实施例提供的UDF模块的执行流程的示意图;
[0018]图6是根据本公开第二实施例的示意图;
[0019]图7是根据本公开第三实施例的示意图;
[0020]图8是用来实现本公开实施例的数据挖掘方法的电子设备的示意图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]相关技术中,基于Python等编程语言自行实现FP

Growth算法,为此需要用户具备编程能力,依赖编程语言和框架,编码成本高,实现较为复杂。
[0023]为了简便地进行数据挖掘处理,本公开提供如下实施例。
[0024]为了更好地理解本公开实施例,对本公开实施例涉及的术语进行说明如下:
[0025]数据集,数据的集合。数据集中可以包括至少一条事务(Transaction),每条事务中可以包括至少一个数据项。
[0026]以购物场景为例,每个数据项可以为一种类别的商品,例如,牛奶是一个数据项,啤酒是一个数据项,尿布是一个数据项。
[0027]假设存在四条事务,分别用T1、T2、T3、T4进行标识,所涉及的多种商品分别用a、b、c、d、e,则数据集中可以记录如表1所示的信息:
[0028]表1
[0029]事务商品种类T1a、bT2a、b、cT3b、c、d、eT4a、b、c
[0030]项集,是指数据项的集合,包含k个数据项的项集称为k项集,如集合{牛奶,啤酒,尿布}是一个三项集。
[0031]项集的出现次数,是指数据集中包含该项集的事务的数量,以一项集(即每个数据项)为例,基于表1的数据集,各个一项集(数据项)的出现次数分别为:a的出现次数=3,b的出现次数=4,c的出现次数=3,d的出现次数=1,e的出现次数=1。又例如,以两项集{a,b}为例,该两项集的出现次数=3。
[0032]项集的支持度,是指包含该项集的事务个数与事务集中事务总数的比值。以上述的一项集a为例,a的支持度=3/4。
[0033]频繁项集,是指出现次数(或支持度)大于等于预设阈值的项集。若出现次数的阈值=2,则上述示例中,a、b、c是频繁一项集。
[0034]关联规则,用于表示数据间隐含的关联性。以项集间的关联规则为例,假设两个项集分别用X和Y表示,若X是先决条件,Y是关联结果,则两者的关联规则可以表示为X—>Y。
[0035]关联规则的置信度,用于表明先决条件(如X)下发生关联结果(如Y)的概率。基于上述示例,a—>{a,b}的置信度=3/3。
[0036]图1是根据本公开第一实施例的示意图,本实施例提供一种数据挖掘方法,该方法包括:
[0037]101、采用第一查询语句,获取原始数据集中目标项的排序结果。
[0038]102、采用第二查询语句,调用预设函数,并采用所述预设函数根据所述目标项的排序结果对所述原始数据集进行数据挖掘处理,以获得数据挖掘结果。
[0039]其中,查询语句,是指通用的、基础的、能够对数据集进行操作的语句,例如为结构查询语言(Structured Query Language,SQL)语句。SQL是具有数据操纵和数据定义等多种功能的数据库语言,这种语言具有交互性特点,能为用户(使用方)提供极大的便利,数据库管理系统可以采用SQL语言提高计算机应用系统的工作质量与效率。
[0040]由于查询语句是通用且基础的,不需要使用方了解Python等编程语言,对使用方编码能力要求低,实现更为简便。
[0041]为了区分,数据集包括原始数据集和本地数据集,原始数据集是指整体的数据集,如包括100条事务;本地数据集是指对原始数据集分组后的数据集,如将100条本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据挖掘方法,包括:采用第一查询语句,获取原始数据集中目标项的排序结果;采用第二查询语句,调用预设函数,并采用所述预设函数根据所述目标项的排序结果对所述原始数据集进行数据挖掘处理,以获得数据挖掘结果。2.根据权利要求1所述的方法,其中,所述采用第一查询语句,获取数据集中目标项的排序结果,包括:采用所述第一查询语句,获取所述数据集中目标项的出现次数;采用所述第一查询语句,基于所述出现次数对所述目标项进行排序处理,以获得所述目标项的排序结果。3.根据权利要求2所述的方法,其中,所述第一查询语句包括:分组子句和计数子句;所述采用第一查询语句,获取数据集中目标项的出现次数,包括:采用所述分组子句,将所述数据集中同一个目标项分为同一个分组;采用所述计数子句,对每个分组内的目标项进行计数,以获得所述目标项的出现次数。4.根据权利要求3所述的方法,其中,所述第一查询语句还包括:开窗子句、第一拼接子句、排序子句、转换子句、第二拼接子句、匹配子句和数组子句;所述采用所述第一查询语句,基于所述出现次数对所述目标项进行排序处理,以获得所述目标项的排序结果,包括:采用所述开窗子句,基于所述出现次数为所述目标项分配序号,并基于所述目标项的所述序号和所述出现次数构建项头表,其中,所述项头表的每行元素包括每个目标项的序号和出现次数;采用所述第一拼接子句,针对所述项头表的每行元素,将所述序号和所述出行次数采用分隔符进行拼接;采用所述排序子句和所述转换子句,基于所述每行元素包含的序号,对所述每行元素进行排序;采用所述第二拼接子句和所述匹配子句,对排序后的每行元素进行拼接,并在拼接后的每行元素中去除所述序号和所述分隔符,以获得排序后的目标项组成的字符串;采用所述数组子句,将所述字符串转换为数组,将所述数组作为所述目标项的排序结果。5.根据权利要求1

4任一项所述的方法,其中,所述第二查询语句包括:选择子句;所述采用第二查询语句,调用预设函数,包括:采用所述选择子句,调用所述预设函数。6.根据权利要求1

4任一项所述的方法,其中,所述预设函数部署在多个计算节点上;所述采用所述预设函数根据所述目标项的排序结果对所述原始数据集进行数据挖掘处理,以获得数据挖掘结果,包括:采用所述多个计算节点上的所述预设函数,根据所述目标项的排序结果,并行对所述
原始数据集进行数据挖掘处理,以获得数据挖掘结果。7.根据权利要求6所述的方法,其中,所述多个计算节点包括:合并节点和多个添加节点;所述预设函数包括:添加函数、合并函数和转换函数,所述添加函数部署在每个添加节点上,所述合并函数和所述转换函数部署在所述合并节点上;所述采用所述多个计算节点上的所述预设函数,根据所述目标项的排序结果,并行对所述原始数据集进行数据挖掘处理,以获得数据挖掘结果,包括:根据所述目标项的排序结果和所述原始数据集,获得多个本地数据集,并将所述多个本地数据集分别分配给所述多个添加节点;并行采用每个添加节点上部署的所述添加函数,基于所述本地数据集,构建所述每个添加节点对应的本地频繁模式树;采用所述合并节点上部署的所述合并函数,对所述每个添加节点对应的本地频繁模式树进行合并处理,以获得最终的频繁模式树;采用所述合并节点上部署的所述转换函数,基于所述最终的频繁模式树获得所述数据挖掘结果。8.一种数据挖掘装置,包括:排序模块,用于采用第一查询语句,获取原始数据集中目标项的排序结果;挖掘模块,用于采用第二查询语句,调用预设函数...

【专利技术属性】
技术研发人员:鲁嘉俊叶玮彬刘涛
申请(专利权)人:百度中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1