一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法制造技术

技术编号：28673273 阅读：11 留言：0更新日期：2021-06-02 02:49

本发明专利技术请求保护一种基于UFIM‑Matrix算法改进的不确定频繁项集营销数据挖掘算法。该方法包括：在引入前置剪枝策略，该策略只涉及到一些常数的四则运算，是一种十分高效的剪枝手段，提前删除不频繁的项，避免前期数据量过大而导致过多的空间消耗；同时在计算k‑项集期望支持度时，引入位图表，根据位图表计算出相应的项集支持度，与最小阈值minsup比较，删减不频繁项集，得到频繁项集。该方法只需要对营销数据库进行两次扫描，节省了算法的时间，同时引入前置剪枝修剪策略和位图表，提高了内存和时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法
本专利技术属于数据挖掘领域，涉及一种基于UFIM-Matrix算法改进的不确定频繁项集挖掘算法。
技术介绍
随着时代的发展，数据挖掘受到了各行各业的重视，已变成众多学者研究的热点。数据挖掘指在许多领域信息中，找出隐蔽、新奇、有效、容易分析的高级数据处理操作。随着信息技术的发展，在金融、物流以及天体研究等众多领域，时刻都会产生和记录海量的数据。如何从这些数据中获取有价值的潜在信息，如何智能地将海量的数据转换成有用的知识，并用知识对未来进行指引，这些需求引发了对新的技术和自动工具的研究，数据挖掘始然出现。不确定数据的出现，使数据挖掘领域变得更加棘手，不确定数据是指每一条事务中项目的存在不再是百分百确定的，而是依据某种相似性度量或是概率形式存在。不确定数据主要是由于数据本身的特点或者数据在产生、收集、存储和传输过程中存在大量随机性导致的，比如说通过对购物篮分析从而预测商品需求量时，购物篮中的商品用户并不是肯定要购买的。目前，不确定数据广泛应用于传感器网络、RFID应用、Web应用、商业决策等诸多领域。商品营销在生活中非常的常见，一个大型的超市，每天都有海量的购物数据产生，那么如何从这些海量的营销数据中挖掘出对商场有用的信息呢？在营销数据挖掘方面虽然有很多的技术，如：U－Apriori算法、UF-Growth算法、CUF-growth算法等等，但是它们无论是在数据的准确度，挖掘的时间还是算法运行占用的内存，都存在一定的弊端，无法适...

【技术保护点】
1.一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法，其特征在于，包括以下步骤：/n步骤一：首先扫描营销不确定数据库，根据前置剪枝策略对非频繁项集进行删减，得到基于期望支持度的频繁1-项集L

【技术特征摘要】
1.一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法，其特征在于，包括以下步骤：
步骤一：首先扫描营销不确定数据库，根据前置剪枝策略对非频繁项集进行删减，得到基于期望支持度的频繁1-项集L1；
步骤二：对原始营销数据集D即不确定数据库进行扫描，生成最大概率矩阵R；
步骤三：将L1自乘并利用最大概率矩阵R生成2-项集；
步骤四：依次取出步骤三的各个2-项集，采用子集检测的方法，扩展为3-项集，依次类推扩展出k-项集，根据位图表求出相关的期望支持度，将期望支持度小于min_sup的项集删除，得到基于期望支持度的营销数据频繁项集。

2.根据权利要求1所述的一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法，其特征在于，所述步骤一具体为：首次扫描不确定数据库，利用前置剪枝策略(1)(2)对非频繁项集进行删减，得到基于期望支持度的频繁1-项集L1：
策略1如果cnt(X)＜minsup,则X是非频繁的；
sup表示支持度阈值，cnt(X)表示包含项集X的事物数；
策略2定义u＝esup(X)，如果满足如下两个条件之一,那么X是非频繁的；
u表示X的期望支持度，esup(X)表示X的期望支持度，σ分别表示支持度偏离度；
(1)σ≥2e-1并且2-σu＜minprob(1)
(2)0＜σ＜2e-1并且
prob...

【专利技术属性】
技术研发人员：袁泉，李志龙，罗瑶，董昊，
申请(专利权)人：重庆邮电大学，重庆信科设计有限公司，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人