【技术实现步骤摘要】
本专利技术实施例涉及数据挖掘
,特别涉及一种项集挖掘方法及装置。
技术介绍
数据库中通常包括有至少一个事务(英文:Transaction),每个事务中包括至少一个数据项(英文:item),比如,一条关于人物记录的事务中,包括姓名、出生年月、性别、血型等数据项。为了发现不同数据项之间的关联规则,需要进行目标数据项集的挖掘。项集(英文:Itemsets)是由至少一个数据项构成的集合,用于表征数据库中内在的一种关联规则。HUIM(High-Utility Itemsets Mining,高效用项集挖掘)作为一种常见的数据挖掘方式,用于从数据库中挖掘出由不同数据项组成的效用值较高的项集。在现有的基于HUIM的算法中,通过计算数据库中各个项集对应的效用值,当该效用值大于或等于预设效用值时,确定该项集为高效用项集并进行挖掘,从而实现从数据库中挖掘出高效用的项集。在实现本专利技术实施例的过程中,专利技术人发现上述技术至少存在以下问题:在实际情况中,数据库中存储的数据往往是不确定性数据,即数据库中的事务存在一个发生概率,且每个事务对应的发生概率存在较大差异。而现有的基于H ...
【技术保护点】
一种项集挖掘方法,其特征在于,所述方法包括:获取自定义的最小期望支持度μ和最低效用比例ε;计算不确定性数据库D中项集的实际期望支持度expSup和实际效用值u,所述项集中包含至少一个数据项;当所述expSup≥|D|*μ,且所述u≥总效用值TU*ε时,确定所述项集为高概率且高效用项集;所述TU表示所述不确定性数据库D中所有数据项的效用之和;所述|D|表示所述不确定性数据库D中包含的事务总数。
【技术特征摘要】
1.一种项集挖掘方法,其特征在于,所述方法包括:获取自定义的最小期望支持度μ和最低效用比例ε;计算不确定性数据库D中项集的实际期望支持度expSup和实际效用值u,所述项集中包含至少一个数据项;当所述expSup≥|D|*μ,且所述u≥总效用值TU*ε时,确定所述项集为高概率且高效用项集;所述TU表示所述不确定性数据库D中所有数据项的效用之和;所述|D|表示所述不确定性数据库D中包含的事务总数。2.根据权利要求1所述的方法,其特征在于,所述计算不确定性数据库D中项集的实际期望支持度expSup和实际效用值u,包括:对于一个项集,计算包含所述项集的事务各自对应的发生概率之和,得到所述项集对应的所述expSup;将包含所述项集的事务中所述项集所对应的效用值相加,得到所述项集对应的所述u。3.根据权利要求1所述的方法,其特征在于,所述计算不确定性数据库D中项集的实际期望支持度expSup和实际效用值u,包括:扫描所述不确定性数据库D,将所述不确定性数据库D中事务权重效用TWU≥所述TU*ε且所述expSup≥所述|D|*μ的k-项集确定为候选项集,所述TWU表示包含所述项集的事务对应的效用值之和,所述k-项集中包含k个数据项,k≥1;再次扫描所述不确定性数据库D,计算所述候选项集中的各个项集对应的所述u。4.根据权利要求3所述的方法,其特征在于,所述扫描所述不确定性数据库D,将所述不确定性数据库D中事务权重效用TWU≥所述TU*ε且所述expSup≥所述|D|*μ的k-项集确定为候选项集,包括:扫描所述不确定性数据库D,获取所述TWU≥所述TU*ε且所述expSup≥
\t所述|D|*μ的k-项集,并将所述k项集添加到第k候选项集;当所述第k候选项集不为空时,根据所述第k候选项集中的所述k-项集自连接生成(k+1)-项集,所述(k+1)-项集是所述k-项集的超集,所述(k+1)-项集是包含k+1个数据项的项集;扫描所述不确定性数据库D,获取所述(k+1)-项集中所述TWU≥所述TU*ε且所述expSup≥所述|D|*μ的项集,并将所述项集添加到第k+1候选项集。5.根据权利要求3或4所述的方法,其特征在于,所述当所述expSup≥|D|*μ,且所述u≥总效用值TU*ε时,确定所述项集为高概率且高效用项集,包括:将所述候选项集中,所述expSup≥所述|D|*μ且所述u≥所述TU*ε的项集确定为所述高概率且高效用项集。6.根据权利要求1所述的方法,其特征在于,所述计算不确定性数据库D中项集的实际期望支持度expSup和实际效用值u,包括:构建概率效用PU表,所述PU表包含k-项集所在事务的编号TID、所述k-项集所在事务对应的发生概率、所述k-项集在事务中的项集效用Iutility以及所述k-项集在事务中的项集剩余效用Rutility,所述项集剩余效用Rutility表示事务中除所述k-项集以外的其它数据项的效用和,所述k-项集包含k个数据项,k≥1;计算所述PU表中所述k-项集对应的所述expSup和所述u。7.根据权利要求6所述的方法,其特征在于,所述构建概率效用PU表,包括:扫描所述不确定性数据库D,构建第1-PU表,所述第1-PU表包括1-项集对应的所述TID、所述发生概率、所述Iutility和所述Rutility;或,在第k-PU表中,当(项集效用和Iutility.SUM+项集剩余效用和Rutility.SUM)≥所述TU*ε,且所述k-项集所在事务的所述发生概率之和≥所述|D|*μ时,根据所述第k-PU表递归生成第(k+1)-PU表,所述第(k+1)-PU表中的(k+1)-项集为所述k项集的超集;所述Iutility.SUM表示所述k-项集在不同事务中所述
\tIutility之和;所述Rutility.SUM表示所述k-项集在不同事务中所述Rutility之和。8.根据权利要求7所述的方法,其特征在于,所述当所述expSup≥|D|*μ,且所述u≥总效用值TU*ε时,确定所述项集为高概率且高效用项集,包括:当所述第k-PU表中,所述k-项集的所述Iutility.SUM≥TU*ε,且所述k-项集所在事务的所述发生概率之和≥所述|D|*μ时,确定所述k-项集为所述高概率且高效用项集。9.根据权利要求7所述的方法,其特征在于,所述方法,还包括:当所述第k-PU表中,所述k-项集的(所述Iutility.SUM+所述Rutility.SUM)≤所述TU*ε,确定所述k-项集及其超集均不是所述高概率且高效用项集,并对所述k-项集进行过滤;或,当所述第k-PU表中,所述k-项集所在事务的所述发生概率之和≤所述|D|*μ,确定所述k...
【专利技术属性】
技术研发人员:林浚玮,赖晓平,李勇,王巨宏,甘文生,
申请(专利权)人:哈尔滨工业大学深圳研究生院,深圳市腾讯计算机系统有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。