This application discloses an efficient sequential pattern mining method and device, which obtains a set of candidate sequential patterns satisfying the set conditions according to the transactions contained in the sequential database; determines the utility value of the candidate sequential patterns in the sequential database for each of the candidate sequential patterns; and determines the utility value of the candidate sequential patterns in the sequential database; Candidate sequence patterns not less than their corresponding utility thresholds are determined as mining results, in which the utility thresholds corresponding to candidate sequence patterns are the utility thresholds of the items with the lowest utility thresholds in the candidate sequence patterns, and the utility thresholds of each item in the sequence database are set by users in advance. This application can set different utility thresholds for different projects according to users'needs. Based on this, sequential patterns with utility values not less than their corresponding utility thresholds can be mined from the sequential database. On the basis of mining efficient utility patterns, personalized mining can be realized to meet the needs of different application scenarios.
【技术实现步骤摘要】
一种高效用序列模式挖掘方法及装置
本申请涉及数据挖掘
,更具体地说,涉及一种高效用序列模式挖掘方法及装置。
技术介绍
在数据挖掘
中,早期比较流行的是基于支持度的模式挖掘技术,其能够在数据库中找出频繁出现的模式。著名的“啤酒和尿布”例子就是基于支持度的模式挖掘技术的应用之一。通过分析超市的销售数据,找到出现次数较多的商品组合--啤酒和尿布,将二者摆放在一起,进而提高其销售量。但是,基于支持度的模式挖掘不能体现模式的重要性,因此基于效用的模式挖掘被提出来用于改进这个缺点。以超市的商品销售记录为例子,商品销售记录由多个顾客的购买清单组成,顾客的购买清单由购买商品组成。基于支持度的模式挖掘是为了找出在这些购买清单中出现次数较多的商品组合,这些商品具有较高的共现概率,适合放在一起,提高销售量。而基于效用的模式挖掘是找出销售额或者利润较高的商品组合,通过分析,改变销售策略,提高销售利润。将这个例子抽象成模式挖掘的模型,购买商品对应项目(item),购买清单对应事务(transaction),所有购买清单就是输入的数据库(transactionaldatabase)。如果事务由同一顾客在不同时间的所有购买清单组成(如,事务<[ac],[b],[ad]>表示顾客先购买商品a和商品c,再购买商品b,最后购买商品a和商品d),则包括这些事务的数据库为序列数据库。序列数据库中的每一事务,所包含的项目集合存在排序顺序。高效用序列模式挖掘算法所挖掘的是效用值高于设定效用阀值的商品组合,也就是序列模式(pattern)。序列模式是不同项目集的 ...
【技术保护点】
1.一种高效用序列模式挖掘方法,其特征在于,包括:根据序列数据库中包含的各事务,获取满足设定条件的候选序列模式集合,所述事务和所述候选序列模式均是由项目集合序列组成,项目集合序列包含至少一项目集合;针对每一所述候选序列模式,确定所述候选序列模式在所述序列数据库中的效用值;将所述效用值不低于自身所对应的效用阀值的候选序列模式,确定为挖掘结果,其中,候选序列模式对应的效用阀值为该候选序列模式所包含各项目中,效用阀值最低的项目的效用阀值,序列数据库中每一项目的效用阀值由用户预先设定。
【技术特征摘要】
1.一种高效用序列模式挖掘方法,其特征在于,包括:根据序列数据库中包含的各事务,获取满足设定条件的候选序列模式集合,所述事务和所述候选序列模式均是由项目集合序列组成,项目集合序列包含至少一项目集合;针对每一所述候选序列模式,确定所述候选序列模式在所述序列数据库中的效用值;将所述效用值不低于自身所对应的效用阀值的候选序列模式,确定为挖掘结果,其中,候选序列模式对应的效用阀值为该候选序列模式所包含各项目中,效用阀值最低的项目的效用阀值,序列数据库中每一项目的效用阀值由用户预先设定。2.根据权利要求1所述的方法,其特征在于,所述根据序列数据库中包含的各事务,获取满足设定条件的候选序列模式集合,包括:扫描所述序列数据库,由序列数据库中事务包含的每一个项目作为一个初始候选序列模式,确定每一初始候选序列模式在所述序列数据库中的效用值上界和效用阀值下界;由效用值上界大于等于效用阀值下界的初始候选序列模式,组成第1层候选序列模式集合CHUSPs1;采用深度优先搜索策略,根据所述CHUSPs1中的候选序列模式,逐层产生第k层候选序列模式集合CHUSPsk,直至CHUSPsk+1为空,其中,CHUSPsk中的候选序列模式由CHUSPsk-1中的候选序列模式的超集组成,且CHUSPsk中的候选序列模式在所述序列数据库中的效用值上界大于等于效用阀值下界;由CHUSPs1至CHUSPsk组成最终的候选序列模式集合。3.根据权利要求2所述的方法,其特征在于,在所述扫描所述序列数据库的同时,该方法还包括:根据所述序列数据库中各事务,确定与各事务对应的效用链表,事务对应的效用链表记录有事务包含的项目集合中各项目的项目信息,以及各项目在事务中首次出现时的位置;其中,项目信息包括:所述项目在该事务中的效用值,事务中位于所述项目之后的各项目在该事务中的效用值的和值,事务中与所述项目相同的下一个项目的位置。4.根据权利要求3所述的方法,其特征在于,所述采用深度优先搜索策略,根据所述CHUSPs1中的候选序列模式,逐层产生第k层候选序列模式集合CHUSPsk,包括:针对CHUSPsk-1中每一候选序列模式,确定所述候选序列模式的投影数据库,所述投影数据库由包含所述候选序列模式的事务对应的效用链表组成,k为2至n的整数;根据所述候选序列模式的投影数据库所包含的效用链表,确定所述候选序列模式对应的候选项目集合,所述候选项目集合包括至少一候选项目;将所述候选序列模式以及与之对应的每一候选项目进行组合,得到至少一组合后候选序列模式;采用深度优先搜索策略,确定所述组合后候选序列模式的投影数据库,所述投影数据库由包含所述组合后候选序列模式的事务对应的效用链表组成;根据所述组合后候选序列模式的投影数据库所包含的效用链表,确定所述组合后候选序列模式在对应的投影数据库中的效用值上界和效用阀值下界;由效用值上界大于等于效用阀值下界的组合后候选序列模式,组成第k层候选序列模式集合CHUSPsk。5.根据权利要求4所述的方法,其特征在于,所述根据所述候选序列模式的投影数据库所包含的效用链表,确定所述候选序列模式对应的候选项目集合,包括:将所述候选序列模式的投影数据库所包含的效用链表中,记录的各项目组成所述候选序列模式对应的候选项目集合。6.根据权利要求4所述的方法,其特征在于,所述将所述候选序列模式以及与之对应的每一候选项目进行组合,得到至少一组合后候选序列模式,包括:依次将所述候选序列模式对应的每一个候选项目与所述候选序列模式进行第一组合,得到第一组合后候选序列模式;依次将所述候选序列模式对应的每一个候选项目与所述候选序列模式进行第二组合,得到第二组合后候选序列模式;其中,第一组合为将候选项目添加至所述候选序列模式的最后一个项目集合中;第二组合为将候选项目作为一个项目集合添加至所述候选序列模式的末尾。7.根据权利要求6所述的方法,其特征在于,还包括:针对所述候选序列模式与对应的每一个候选项目进行第一组合和第二组合所得到的两个组合后候选序列模式,确定该两个组合后候选序列模式的投影数据库的并集,得到并集投影数据库;根据所述并集投影数据库所包含的效用链表,确定所述候选序列模式在所述并集投影数据库中的扩展效用值上界和效用阀值下界,所述扩展效用值上界小于所述效用值上界;若确定的所述候选序列模式的扩展效用值上界小于所述候选模式的效用阀值下界,将该两个组合后候选序列模式在组合时所使用的候选项目从所述候选序列模式的投影数据库中删除。8.根据权利要求6所述的方法,其特征在于,还包括:针对所述候选序列模式与对应的每一个候选项目进行第一组合和第二组合所得到的第一组合后候选序列模式和第二组合后候选序列模式,确定所述第一组合后候选序列模式对应的第一投影数据库,以及所述第二组合后候选序列模式对应的第二投影数据库;根据所述第一投影数据库所包含的效用链表,确定所述候选序列模式在所述第一投影数据库中的扩展效用值上界;以及,根据所述第二投影数据库所包含的效用链表,确定所述候选序列模式在所...
【专利技术属性】
技术研发人员:林浚玮,张杰雄,陈伟,肖磊,刘婷婷,
申请(专利权)人:哈尔滨工业大学深圳研究生院,腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。