一种基于改进Apriori算法找出频繁项集的方法技术

技术编号:23363266 阅读:54 留言:0更新日期:2020-02-18 17:21
本发明专利技术涉及数据挖掘领域,公开了一种基于改进Apriori算法找出频繁项集的方法,用以解决Apriori算法多次扫描数据库导致I/O开销大、效率低、以及产生大量候选项集增加了复杂度。本发明专利技术仅扫描数据库一件,扫描之后将数据库映射成布尔矩阵,并对布尔矩阵中的行向量和列向量中1的个数分别计数,得到布尔矩阵的频度;通过删除布尔矩阵列向量频度小于最小支持度的列,得到各个频繁项集;通过同时删除布尔矩阵列向量频度小于最小支持度的列以及行向量频度小于频繁项集维数k的行,生成新的布尔矩阵,不断压缩布尔矩阵,直到下一个频繁项集为空。本发明专利技术适用于关联规则获取频繁项集。

A method of finding frequent item set based on improved Apriori algorithm

【技术实现步骤摘要】
一种基于改进Apriori算法找出频繁项集的方法
本专利技术涉及数据挖掘领域,特别涉及一种基于改进Apriori算法找出频繁项集的方法。
技术介绍
目前,在移动终端的应用软件,比如购物应用软件上能够采集到的用户行为数据不断增长,通过分析数据库中这些海量的用户行为数据,获得用户在操作购物应用中潜在的内在联系,这可以为用户推荐产品提供有效参考,不仅能提升用户的购买力和体验性,而且能为公司带来广阔的经济效益。比如,利用数据库中的数据可以分析出,哪些商品可能会被大部分用户在一次购物时同时购买,那么把这些经常被同时购买的商品展示在一起,就能增加这些商品一并销售的几率,另外还可以规划哪些附属商品降价处理,以便刺激跟主体商品的捆绑销售,又或者将某几种可能会被同时购买的商品以套餐的形式推出,提升用户的购买欲望以及增加销售量和减少库存量。从大量的数据中分析用户的行为并找出隐藏的有用信息,就需要用到数据挖掘。关联规则是利用数据挖掘进行数据分析常用的方法之一。关联规则挖掘最主要的一步是找出频繁项集,特别注意本专利技术也是围绕得到频繁项集展开。关联规则找出频繁本文档来自技高网...

【技术保护点】
1.一种基于改进Apriori算法找出频繁项集的方法,其特征在于,包括如下步骤:/n步骤1:扫描数据库,将数据库映射成布尔矩阵,并对布尔矩阵中的行向量和列向量中1的个数分别计数,得到布尔矩阵的频度;/n步骤2:删除布尔矩阵列向量频度小于最小支持度的列,得到1-频繁项集;/n步骤3:删除布尔矩阵列向量频度小于最小支持度的列,同时删除矩阵行向量频度小于频繁项集维数k的行,其中k≥2,生成新的布尔矩阵,新的布尔矩阵记为k维布尔矩阵;/n步骤4:扫描k维布尔矩阵对应的列,对矩阵的第1,2,…,k列向量进行按位“与操作”,然后对向量运算后的结果中的1计数,得到k维布尔矩阵的频度;/n步骤5:删除k维布尔...

【技术特征摘要】
1.一种基于改进Apriori算法找出频繁项集的方法,其特征在于,包括如下步骤:
步骤1:扫描数据库,将数据库映射成布尔矩阵,并对布尔矩阵中的行向量和列向量中1的个数分别计数,得到布尔矩阵的频度;
步骤2:删除布尔矩阵列向量频度小于最小支持度的列,得到1-频繁项集;
步骤3:删除布尔矩阵列向量频度小于最小支持度的列,同时删除矩阵行向量频度小于频繁项集维数k的行,其中k≥2,生成新的布尔矩阵,新的布尔矩阵记为k维布尔矩阵;
步骤4:扫...

【专利技术属性】
技术研发人员:徐媛
申请(专利权)人:深圳易嘉恩科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1