一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法制造技术

技术编号:28673273 阅读:11 留言:0更新日期:2021-06-02 02:49
本发明专利技术请求保护一种基于UFIM‑Matrix算法改进的不确定频繁项集营销数据挖掘算法。该方法包括:在引入前置剪枝策略,该策略只涉及到一些常数的四则运算,是一种十分高效的剪枝手段,提前删除不频繁的项,避免前期数据量过大而导致过多的空间消耗;同时在计算k‑项集期望支持度时,引入位图表,根据位图表计算出相应的项集支持度,与最小阈值minsup比较,删减不频繁项集,得到频繁项集。该方法只需要对营销数据库进行两次扫描,节省了算法的时间,同时引入前置剪枝修剪策略和位图表,提高了内存和时间。

【技术实现步骤摘要】
一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法
本专利技术属于数据挖掘领域,涉及一种基于UFIM-Matrix算法改进的不确定频繁项集挖掘算法。
技术介绍
随着时代的发展,数据挖掘受到了各行各业的重视,已变成众多学者研究的热点。数据挖掘指在许多领域信息中,找出隐蔽、新奇、有效、容易分析的高级数据处理操作。随着信息技术的发展,在金融、物流以及天体研究等众多领域,时刻都会产生和记录海量的数据。如何从这些数据中获取有价值的潜在信息,如何智能地将海量的数据转换成有用的知识,并用知识对未来进行指引,这些需求引发了对新的技术和自动工具的研究,数据挖掘始然出现。不确定数据的出现,使数据挖掘领域变得更加棘手,不确定数据是指每一条事务中项目的存在不再是百分百确定的,而是依据某种相似性度量或是概率形式存在。不确定数据主要是由于数据本身的特点或者数据在产生、收集、存储和传输过程中存在大量随机性导致的,比如说通过对购物篮分析从而预测商品需求量时,购物篮中的商品用户并不是肯定要购买的。目前,不确定数据广泛应用于传感器网络、RFID应用、Web应用、商业决策等诸多领域。商品营销在生活中非常的常见,一个大型的超市,每天都有海量的购物数据产生,那么如何从这些海量的营销数据中挖掘出对商场有用的信息呢?在营销数据挖掘方面虽然有很多的技术,如:U-Apriori算法、UF-Growth算法、CUF-growth算法等等,但是它们无论是在数据的准确度,挖掘的时间还是算法运行占用的内存,都存在一定的弊端,无法适应越来越多的营销数据。尤其是营销数据的不确定性给频繁模式挖掘带来了极大挑战,一方面是相对于营销数据规模呈指数增长,另一方面是新出现的概率维度,这导致传统的针对确定性营销数据的频繁模式挖掘算法的准确性和时效性大大降低,不能满足具体的应用需求。因此,迫切需要提出新的理论模型和算法解决不确定营销数据的频繁模式挖掘问题。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法。本专利技术的技术方案如下:一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法,其包括以下步骤:步骤一:首先扫描营销不确定数据库,根据前置剪枝策略对非频繁项集进行删减,得到基于期望支持度的频繁1-项集L1;步骤二:对原始营销数据集D(即不确定数据库)进行扫描,生成最大概率矩阵R;步骤三:将L1自乘并利用最大概率矩阵R生成2-项集;步骤四:依次取出步骤三的各个2-项集,采用子集检测的方法扩展为3-项集,依次类推扩展出k-项集,并利用位图表求出相关项集的期望支持度,将期望支持度小于min_sup的项集删除,得到基于期望支持度的营销数据频繁项集。进一步的,所述步骤一具体为:首次扫描不确定营销数据库,利用前置剪枝策略(1)(2)对非频繁项集进行删减,得到基于期望支持度的频繁1-项集L1:策略1如果cnt(X)<minsup,则X是非频繁的;sup表示支持度,cnt(X)表示包含项集X的事物数。策略2定义u=esup(X),如果满足如下两个条件之一,那么X是非频繁的;u表示X的期望支持度、esup(X)表示X的期望支持度、σ分别表示支持度偏离度。(1)σ≥2e-1并且2-σu<minprob(5)(2)0<σ<2e-1并且prob表示概率支持度进一步的,所述步骤二具体为:根据公式(7)第二次对原始营销数据集D进行扫描,生成最大概率矩阵R;定义3设不确定数据集D中有n个事务和m个基于期望支持度的频繁1-项集,经过f:D→R转换为最大概率矩阵R;其中,R=f(D)=(rju)n*m(j=1,2,...,n;u=1,2,...,m)rju表示矩阵中j列m行数据、f(D)分别表示映射函数,n*m表示n行m列矩阵;PCap*表示最大概率,T表示事务数据。进一步的,所述步骤三具体为:根据公式(8)将L1自乘并利用最大概率矩阵R生成2-项集;定义4二项集{ix,iy}的定义为:式中:“Λ”表示求最小值运算。进一步的,所述步骤四具体为:依次取出各个2-项集,并采用子集检测的方法,扩展为3-项集,依次类推扩展出k-项集,根据位图表利用期望支持度的求值公式求出每个项集的期望支持度,将期望支持度小于min_sup的项集删除,得到基于期望支持度的频繁项集。本专利技术的优点及有益效果如下:1)本专利技术通过引入前置剪枝策略,与常规的索引剪枝策略相比,该策略只涉及到一些常数的四则运算,是一种十分高效的剪枝手段,提前删除不频繁的项,避免前期数据量过大而导致过多的空间消耗,节省算法运行的空间。由于该策略需要用到期望偏离度,而前期的剪枝策略都没有出现计算期望偏离度的方法,所以本专利技术用到的这个策略与常规方法相比具有一定的高效性。2)本专利技术在计算k-项集支持度时,引入位图表和项集期望的求值公式,通过计算出相应的项集支持度,得到频繁项集,与常规的先计算估算期望支持度,然后进行第三次扫描营销数据库,进而得到频繁项集相比,该方法最大的优势在于只需要对数据库进行两次扫描,节省了算法的时间。附图说明图1是本专利技术提供优选实施例基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本专利技术的一部分实施例。本专利技术解决上述技术问题的技术方案是:在本实施例中,一种基于UFIM-Matrix算法改进的不确定频繁项集挖掘算法是按如下步骤进行的。步骤一:扫描营销数据库获取频繁1-项集;首次扫描不确定营销数据库,利用前置剪枝策略(9)(10)对非频繁项集进行删减,得到基于期望支持度的频繁1-项集L1;策略1如果cnt(X)<minsup,则X是非频繁的;sup表示支持度,cnt(X)表示包含项集X的事物数。策略2定义u=esup(X),如果满足如下两个条件之一,那么X是非频繁的;u表示X的期望支持度、esup(X)表示X的期望支持度、σ分别表示支持度偏离度。(1)σ≥2e-1并且2-σu<minprob(9)(2)0<σ<2e-1并且prob表示概率支持度步骤二:第二次扫描原始数据集D,生成最大概率矩阵R;对不确定营销数据库进行第二次扫描,根据公式(11)生成最大概率矩阵R;定义5设不确定数据集D中有n个事务和m个基于期望支持度的频繁1-项集,经过f:D→R转换为最大概率矩阵R;其中,R=f(D)=(rju)n*m(j=1,2,...,n;u=1,2,...,m)rju表示矩阵中j列m行数据、f(D)分别表示映射函数,n*m表示本文档来自技高网
...

【技术保护点】
1.一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法,其特征在于,包括以下步骤:/n步骤一:首先扫描营销不确定数据库,根据前置剪枝策略对非频繁项集进行删减,得到基于期望支持度的频繁1-项集L

【技术特征摘要】
1.一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法,其特征在于,包括以下步骤:
步骤一:首先扫描营销不确定数据库,根据前置剪枝策略对非频繁项集进行删减,得到基于期望支持度的频繁1-项集L1;
步骤二:对原始营销数据集D即不确定数据库进行扫描,生成最大概率矩阵R;
步骤三:将L1自乘并利用最大概率矩阵R生成2-项集;
步骤四:依次取出步骤三的各个2-项集,采用子集检测的方法,扩展为3-项集,依次类推扩展出k-项集,根据位图表求出相关的期望支持度,将期望支持度小于min_sup的项集删除,得到基于期望支持度的营销数据频繁项集。


2.根据权利要求1所述的一种基于UFIM-Matrix算法改进的不确定频繁项集营销数据挖掘算法,其特征在于,所述步骤一具体为:首次扫描不确定数据库,利用前置剪枝策略(1)(2)对非频繁项集进行删减,得到基于期望支持度的频繁1-项集L1:
策略1如果cnt(X)<minsup,则X是非频繁的;
sup表示支持度阈值,cnt(X)表示包含项集X的事物数;
策略2定义u=esup(X),如果满足如下两个条件之一,那么X是非频繁的;
u表示X的期望支持度,esup(X)表示X的期望支持度,σ分别表示支持度偏离度;
(1)σ≥2e-1并且2-σu<minprob(1)
(2)0<σ<2e-1并且
prob...

【专利技术属性】
技术研发人员:袁泉李志龙罗瑶董昊
申请(专利权)人:重庆邮电大学重庆信科设计有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1