一种频繁项挖掘方法、装置、服务器及可读存储介质制造方法及图纸

技术编号:27539687 阅读:19 留言:0更新日期:2021-03-03 11:32
本申请实施例适用于数据处理领域,提供了一种频繁项挖掘方法、装置、服务器及可读存储介质,该方法包括以下步骤:获取目标数据集;根据所述目标数据集中目标对象之间的关联关系生成知识图谱;基于预设的支持度阈值,从所述知识图谱中筛选出频繁项。可见,本申请可以采用知识图谱的形式挖掘出频繁项,减少了查找频繁项时对数据库的整体查询,提高了效率,降低了耗时。了耗时。了耗时。

【技术实现步骤摘要】
一种频繁项挖掘方法、装置、服务器及可读存储介质


[0001]本申请属于数据处理
,尤其涉及一种频繁项挖掘方法、装置、服务器及可读存储介质。

技术介绍

[0002]在经典的超市摆台案例中,尿布和啤酒的关系,随着超市人员对顾客购物篮中的东西进行分析,发现男性顾客在买完尿布都会再去买啤酒,针对该情况,可以给超市人员的启发是在摆放尿布的时候旁边可以再摆放啤酒,减少了客户查找的时间,也提升了超市的营业额。再者面包和牛奶,人们在买牛奶的时候,多数也会购买面包,因此二者也可以摆在相邻的位置。因此根据人们的行为轨迹发现事物之间的关联规则是必不可少的。现有技术中,一般是通过Apriori算法挖掘出频繁项,从而确定频繁项之间的关系,但是其缺点是产生频繁K-1项集进行自连接生成的候选频繁k项集数量巨大而且在验证候选频繁k项集时需要对整个数据库进行扫描,非常耗时。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种频繁项挖掘方法、装置、服务器及可读存储介质,以解决现有技术对频繁项挖掘过程中耗时较差的问题。
[0004]本申请实施例的第一方面提供了一种频繁项挖掘方法,包括:获取目标数据集;根据所述目标数据集中目标对象之间的关联关系生成知识图谱;基于预设的支持度阈值,从所述知识图谱中筛选出频繁项。
[0005]在第一方面的一种可能的实现方式中,获取目标数据集,包括:获取数据集;对所述数据集进行预处理,得到所述目标数据集。
[0006]在第一方面的一种可能的实现方式中,根据所述目标数据集中目标对象之间的关联关系生成知识图谱,包括:计算所述目标数据集中每个所述目标对象的频次以及支持度;根据所述目标对象的频次以及支持度确定出所述目标对象之间的连接关系,以及所述连接关系对应的关系频次;基于所述目标对象之间的连接关系,以及所述连接关系对应的关系频次构建所述知识图谱。
[0007]在第一方面的一种可能的实现方式中,基于预设的支持度阈值,从所述知识图谱中筛选出频繁项,包括:将所述预设的支持度阈值输入至所述知识图谱对应的数据库中,得到所述频繁项。
[0008]本申请实施例的第二方面提供了一种,包括:获取模块,用于获取目标数据集;
生成模块,用于根据所述目标数据集中目标对象之间的关联关系生成知识图谱;筛选模块,用于基于预设的支持度阈值,从所述知识图谱中筛选出频繁项。
[0009]在第二方面的一种可能的实现方式中,所述获取模块包括:获取单元,用于获取数据集;预处理单元,用于对所述数据集进行预处理,得到所述目标数据集。
[0010]在第二方面的一种可能的实现方式中,所述生成模块包括:计算单元,用于计算所述目标数据集中每个所述目标对象的频次以及支持度;确定单元,用于根据所述目标对象的频次以及支持度确定出所述目标对象之间的连接关系,以及所述连接关系对应的关系频次;构建单元,用于基于所述目标对象之间的连接关系,以及所述连接关系对应的关系频次构建所述知识图谱。
[0011]在第二方面的一种可能的实现方式中,所述筛选模块包括:输出单元,用于将所述预设的支持度阈值输入至所述知识图谱对应的数据库中,得到所述频繁项。
[0012]本申请实施例的第三方面提供了一种服务器,包括:存储器、处理器、摄像装置以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述方法的各个步骤。
[0013]本申请实施例的第四方面提供了一种可读存储介质,包括:计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上述提取方法的各个步骤。
[0014]本申请实施例与现有技术相比存在的有益效果是:本申请实施例采用知识图谱的形式挖掘出频繁项,减少了查找频繁项时对数据库的整体查询,提高了效率,降低了耗时。
附图说明
[0015]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本申请实施例提供的一种频繁项挖掘方法的一种流程示意图;图2是本申请实施例提供的一种频繁项挖掘结构示意图;图3是本申请实施例提供的服务器的示意图;图4是本申请实施例提供的一种频繁项挖掘方法的图1中数据结果存储到数据库中展示效果的示意图;图5是本申请实施例提供的一种频繁项挖掘方法的图1中连接关系对应的关系频次转换为支持度的展示效果的示意图。
具体实施方式
[0017]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体
细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0018]为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
[0019]参见图1,为本申请实施例提供的一种频繁项挖掘方法的一种流程示意图,该方法应用于服务器,该方法包括以下步骤:步骤S101、获取目标数据集。
[0020]示例性地,获取目标数据集的具体过程可以是:第一步、获取数据集。
[0021]第二步、对数据集进行预处理,得到目标数据集。
[0022]可以理解的是,数据的预处理主要是将数据中的“脏”数据变成“干净”的,脏数据的形式主要表现在形式上和内容上的脏,形式上的脏是指缺失值或者带有特殊符号的,形如上述数据集中的[牛奶,面*包];内容上的脏指的是异常值,形如上述数据集中的[电脑],在超市中一般是无法买到电脑的,因此当数据集中出现非超市内容数据时此类数据需要剔除。
[0023]步骤S102、根据目标数据集中目标对象之间的关联关系生成知识图谱。
[0024]示例性地,根据目标数据集中目标对象之间的关联关系生成知识图谱的具体可以是:第一步、计算目标数据集中每个目标对象的频次以及支持度。
[0025]例如,根据目标数据集中的数据条目,统计所有的物品的频次,结果如下:{面包:4,可乐:2,啤酒:3,牛奶:4,尿布:4,鸡蛋:1},支持度的结果为:{面包:0.8,可乐:0.4,啤酒:0.6,牛奶:0.8,尿布:0.8,鸡蛋:0.2}。其中支持度的计算方式为:事件发生的次数占据数据总量的比重;例如面包发生的频次为4次,数据集的总量为5,因此支持度为4/5=0.8。
[0026]第二步、根据目标对象的频次以及支持度确定出目标对象之间的连接关系,以及连接关系对应的关系频次。
[0027]例如,根据上面步骤中的结果可以得到物品的类型有面包,可乐,啤酒,牛奶,尿布,鸡蛋,现根据数据集中的数据建立其联系,如[面包,尿布,啤酒,鸡蛋]可以建立6条关系,面包-尿布,面包-啤酒,面包-鸡蛋,尿布-啤酒,尿布-鸡蛋,啤酒-鸡蛋。将数据集中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种频繁项挖掘方法,其特征在于,该方法包括:获取目标数据集;根据所述目标数据集中目标对象之间的关联关系生成知识图谱;基于预设的支持度阈值,从所述知识图谱中筛选出频繁项。2.如权利要求1所述的一种频繁项挖掘方法,其特征在于,获取目标数据集,包括:获取数据集;对所述数据集进行预处理,得到所述目标数据集。3.如权利要求1所述的一种频繁项挖掘方法,其特征在于,根据所述目标数据集中目标对象之间的关联关系生成知识图谱,包括:计算所述目标数据集中每个所述目标对象的频次以及支持度;根据所述目标对象的频次以及支持度确定出所述目标对象之间的连接关系,以及所述连接关系对应的关系频次;基于所述目标对象之间的连接关系,以及所述连接关系对应的关系频次构建所述知识图谱。4.如权利要求1-3任一项所述的一种频繁项挖掘方法,其特征在于,基于预设的支持度阈值,从所述知识图谱中筛选出频繁项,包括:将所述预设的支持度阈值输入至所述知识图谱对应的数据库中,得到所述频繁项。5.一种频繁项挖掘装置,其特征在于,该装置包括:获取模块,用于获取目标数据集;生成模块,用于根据所述目标数据集中目标对象之间的关联关系生成知识图谱;筛选模块,用于基于预设的支持度阈值...

【专利技术属性】
技术研发人员:聂镭齐凯杰聂颖
申请(专利权)人:龙马智芯珠海横琴科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1