一种高效用序列模式挖掘方法及装置制造方法及图纸

技术编号:19320371 阅读:23 留言:0更新日期:2018-11-03 10:54
本申请公开了一种高效用序列模式挖掘方法及装置,根据序列数据库中包含的各事务,获取满足设定条件的候选序列模式集合;针对每一所述候选序列模式,确定所述候选序列模式在所述序列数据库中的效用值;将所述效用值不低于自身所对应的效用阀值的候选序列模式,确定为挖掘结果,其中,候选序列模式对应的效用阀值为该候选序列模式所包含各项目中,效用阀值最低的项目的效用阀值,序列数据库中每一项目的效用阀值由用户预先设定。本申请可以由用户根据需要对不同项目设置不同的效用阀值,基于此从序列数据库中挖掘效用值不低于自身对应的效用阀值的序列模式,在挖掘高效用模式的基础上,能够实现个性化挖掘,满足不同应用场景的需求。

An efficient method and device for mining sequential patterns

This application discloses an efficient sequential pattern mining method and device, which obtains a set of candidate sequential patterns satisfying the set conditions according to the transactions contained in the sequential database; determines the utility value of the candidate sequential patterns in the sequential database for each of the candidate sequential patterns; and determines the utility value of the candidate sequential patterns in the sequential database; Candidate sequence patterns not less than their corresponding utility thresholds are determined as mining results, in which the utility thresholds corresponding to candidate sequence patterns are the utility thresholds of the items with the lowest utility thresholds in the candidate sequence patterns, and the utility thresholds of each item in the sequence database are set by users in advance. This application can set different utility thresholds for different projects according to users'needs. Based on this, sequential patterns with utility values not less than their corresponding utility thresholds can be mined from the sequential database. On the basis of mining efficient utility patterns, personalized mining can be realized to meet the needs of different application scenarios.

【技术实现步骤摘要】
一种高效用序列模式挖掘方法及装置
本申请涉及数据挖掘
,更具体地说,涉及一种高效用序列模式挖掘方法及装置。
技术介绍
在数据挖掘
中,早期比较流行的是基于支持度的模式挖掘技术,其能够在数据库中找出频繁出现的模式。著名的“啤酒和尿布”例子就是基于支持度的模式挖掘技术的应用之一。通过分析超市的销售数据,找到出现次数较多的商品组合--啤酒和尿布,将二者摆放在一起,进而提高其销售量。但是,基于支持度的模式挖掘不能体现模式的重要性,因此基于效用的模式挖掘被提出来用于改进这个缺点。以超市的商品销售记录为例子,商品销售记录由多个顾客的购买清单组成,顾客的购买清单由购买商品组成。基于支持度的模式挖掘是为了找出在这些购买清单中出现次数较多的商品组合,这些商品具有较高的共现概率,适合放在一起,提高销售量。而基于效用的模式挖掘是找出销售额或者利润较高的商品组合,通过分析,改变销售策略,提高销售利润。将这个例子抽象成模式挖掘的模型,购买商品对应项目(item),购买清单对应事务(transaction),所有购买清单就是输入的数据库(transactionaldatabase)。如果事务由同一顾客在不同时间的所有购买清单组成(如,事务<[ac],[b],[ad]>表示顾客先购买商品a和商品c,再购买商品b,最后购买商品a和商品d),则包括这些事务的数据库为序列数据库。序列数据库中的每一事务,所包含的项目集合存在排序顺序。高效用序列模式挖掘算法所挖掘的是效用值高于设定效用阀值的商品组合,也就是序列模式(pattern)。序列模式是不同项目集的有序排序。现有的高效用序列模式挖掘技术使用单一阀值衡量序列模式的价值,即针对不同的项目设置统一的效用阀值。而在实际应用中,不同的项目可能具有不同的性质,如出现概率、单位利润等,不同项目对不同用户的吸引力也不同。使用单一阀值衡量序列模式的价值无法满足不同应用场景的需求。
技术实现思路
有鉴于此,本申请提供了一种高效用序列模式挖掘方法及装置,用于解决现有高效用序列模式挖掘技术使用单一阀值衡量序列模式的价值无法满足不同应用场景的需求的问题。为了实现上述目的,现提出的方案如下:一种高效用序列模式挖掘方法,包括:根据序列数据库中包含的各事务,获取满足设定条件的候选序列模式集合,所述事务和所述候选序列模式均是由项目集合序列组成,项目集合序列包含至少一项目集合;针对每一所述候选序列模式,确定所述候选序列模式在所述序列数据库中的效用值;将所述效用值不低于自身所对应的效用阀值的候选序列模式,确定为挖掘结果,其中,候选序列模式对应的效用阀值为该候选序列模式所包含各项目中,效用阀值最低的项目的效用阀值,序列数据库中每一项目的效用阀值由用户预先设定。一种高效用序列模式挖掘装置,包括:候选序列模式集合获取单元,用于根据序列数据库中包含的各事务,获取满足设定条件的候选序列模式集合,所述事务和所述候选序列模式均是由项目集合序列组成,项目集合序列包含至少一项目集合;候选序列模式效用值确定单元,用于针对每一所述候选序列模式,确定所述候选序列模式在所述序列数据库中的效用值;挖掘结果确定单元,用于将所述效用值不低于自身所对应的效用阀值的候选序列模式,确定为挖掘结果,其中,候选序列模式对应的效用阀值为该候选序列模式所包含各项目中,效用阀值最低的项目的效用阀值,序列数据库中每一项目的效用阀值由用户预先设定。本申请实施例提供的高效用序列模式挖掘方法,根据序列数据库中包含的各事务,获取满足设定条件的候选序列模式集合,所述事务和所述候选序列模式均是由项目集合序列组成,项目集合序列包含至少一项目集合;针对每一所述候选序列模式,确定所述候选序列模式在所述序列数据库中的效用值;将所述效用值不低于自身所对应的效用阀值的候选序列模式,确定为挖掘结果,其中,候选序列模式对应的效用阀值为该候选序列模式所包含各项目中,效用阀值最低的项目的效用阀值,序列数据库中每一项目的效用阀值由用户预先设定。由此可见,本申请可以由用户根据需要对不同项目设置不同的效用阀值,基于此从序列数据库中挖掘效用值不低于自身对应的效用阀值的序列模式,在挖掘高效用模式的基础上,能够实现个性化挖掘,满足不同应用场景的需求。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例公开的一种高效用序列模式挖掘方法流程图;图2为本申请实施例公开的一种获取满足设定条件的候选序列模式集合的方法流程图;图3为本申请实施例公开的一种深度优先搜索策略生成第k层候选序列模式集合的方法流程图;图4为本申请示例的一种字典序列树形结构示意图;图5为本申请实施例公开的一种高效用序列模式挖掘装置结构示意图;图6为本申请实施例公开的一种服务器硬件结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。为了解决现有技术的缺陷,本申请提出了一种多重阀值的高效用序列模式挖掘技术。该技术允许用户为不同的项目设置不同的效用阀值,从序列数据库中挖掘效用不低于自身效用阀值的序列模式。针对不同项目设置不同的效用阀值,不仅能够发现效用值较高的序列模式,还能够实现个性化挖掘,满足不同应用场景的需求。本申请方案可以应用于商业决策,比如根据用户不同需求挖掘高利润的商品组合序列。进一步,还可以应用于热点新闻事件分析,如根据用户的兴趣点,挖掘用户感兴趣或关注度较高的新闻序列。在介绍本申请方案之前,对高效用序列模式挖掘中涉及的部分概念进行解释。输入的序列数据库由多个事务组成,事务由一个或多个项目集合组成。项目集合即一个或多个项目组成的集合。事务中各项目集合依序排序,且顺序不能改变。以小写字母a,b,c,…代表不同的项目(可以理解为顾客购买的不同商品),[abc]代表一个包含项目a,b,c的项目集合(可以理解为顾客本次购买了三件商品a,b,c)。<[abc],[bd],[c]>代表一个事务(可以理解为顾客先购买了商品a,b,c,接着购买了商品b和d,最后购买了商品c)。用户可以根据需要自定义每个项目的效用阀值。例如,用户对项目b和c比较感兴趣,则可以为项目b和c设定较小的效用阀值。序列模式的效用阀值由包含项目中效用阀值最小的项目确定。假设用户分别为商品a,b,c和d设定效用阀值为200,50,70和300,则序列模式<[ac],[d]>的效用阀值为min{200,70,300}=70。如果序列模式<[ac],[d]>的效用值不小于70,则可以确定<[ac],[d]>为高效用序列模式,作为挖掘结果输出。序列模式的效用值定义如下:其中,t表示序列模本文档来自技高网
...

【技术保护点】
1.一种高效用序列模式挖掘方法,其特征在于,包括:根据序列数据库中包含的各事务,获取满足设定条件的候选序列模式集合,所述事务和所述候选序列模式均是由项目集合序列组成,项目集合序列包含至少一项目集合;针对每一所述候选序列模式,确定所述候选序列模式在所述序列数据库中的效用值;将所述效用值不低于自身所对应的效用阀值的候选序列模式,确定为挖掘结果,其中,候选序列模式对应的效用阀值为该候选序列模式所包含各项目中,效用阀值最低的项目的效用阀值,序列数据库中每一项目的效用阀值由用户预先设定。

【技术特征摘要】
1.一种高效用序列模式挖掘方法,其特征在于,包括:根据序列数据库中包含的各事务,获取满足设定条件的候选序列模式集合,所述事务和所述候选序列模式均是由项目集合序列组成,项目集合序列包含至少一项目集合;针对每一所述候选序列模式,确定所述候选序列模式在所述序列数据库中的效用值;将所述效用值不低于自身所对应的效用阀值的候选序列模式,确定为挖掘结果,其中,候选序列模式对应的效用阀值为该候选序列模式所包含各项目中,效用阀值最低的项目的效用阀值,序列数据库中每一项目的效用阀值由用户预先设定。2.根据权利要求1所述的方法,其特征在于,所述根据序列数据库中包含的各事务,获取满足设定条件的候选序列模式集合,包括:扫描所述序列数据库,由序列数据库中事务包含的每一个项目作为一个初始候选序列模式,确定每一初始候选序列模式在所述序列数据库中的效用值上界和效用阀值下界;由效用值上界大于等于效用阀值下界的初始候选序列模式,组成第1层候选序列模式集合CHUSPs1;采用深度优先搜索策略,根据所述CHUSPs1中的候选序列模式,逐层产生第k层候选序列模式集合CHUSPsk,直至CHUSPsk+1为空,其中,CHUSPsk中的候选序列模式由CHUSPsk-1中的候选序列模式的超集组成,且CHUSPsk中的候选序列模式在所述序列数据库中的效用值上界大于等于效用阀值下界;由CHUSPs1至CHUSPsk组成最终的候选序列模式集合。3.根据权利要求2所述的方法,其特征在于,在所述扫描所述序列数据库的同时,该方法还包括:根据所述序列数据库中各事务,确定与各事务对应的效用链表,事务对应的效用链表记录有事务包含的项目集合中各项目的项目信息,以及各项目在事务中首次出现时的位置;其中,项目信息包括:所述项目在该事务中的效用值,事务中位于所述项目之后的各项目在该事务中的效用值的和值,事务中与所述项目相同的下一个项目的位置。4.根据权利要求3所述的方法,其特征在于,所述采用深度优先搜索策略,根据所述CHUSPs1中的候选序列模式,逐层产生第k层候选序列模式集合CHUSPsk,包括:针对CHUSPsk-1中每一候选序列模式,确定所述候选序列模式的投影数据库,所述投影数据库由包含所述候选序列模式的事务对应的效用链表组成,k为2至n的整数;根据所述候选序列模式的投影数据库所包含的效用链表,确定所述候选序列模式对应的候选项目集合,所述候选项目集合包括至少一候选项目;将所述候选序列模式以及与之对应的每一候选项目进行组合,得到至少一组合后候选序列模式;采用深度优先搜索策略,确定所述组合后候选序列模式的投影数据库,所述投影数据库由包含所述组合后候选序列模式的事务对应的效用链表组成;根据所述组合后候选序列模式的投影数据库所包含的效用链表,确定所述组合后候选序列模式在对应的投影数据库中的效用值上界和效用阀值下界;由效用值上界大于等于效用阀值下界的组合后候选序列模式,组成第k层候选序列模式集合CHUSPsk。5.根据权利要求4所述的方法,其特征在于,所述根据所述候选序列模式的投影数据库所包含的效用链表,确定所述候选序列模式对应的候选项目集合,包括:将所述候选序列模式的投影数据库所包含的效用链表中,记录的各项目组成所述候选序列模式对应的候选项目集合。6.根据权利要求4所述的方法,其特征在于,所述将所述候选序列模式以及与之对应的每一候选项目进行组合,得到至少一组合后候选序列模式,包括:依次将所述候选序列模式对应的每一个候选项目与所述候选序列模式进行第一组合,得到第一组合后候选序列模式;依次将所述候选序列模式对应的每一个候选项目与所述候选序列模式进行第二组合,得到第二组合后候选序列模式;其中,第一组合为将候选项目添加至所述候选序列模式的最后一个项目集合中;第二组合为将候选项目作为一个项目集合添加至所述候选序列模式的末尾。7.根据权利要求6所述的方法,其特征在于,还包括:针对所述候选序列模式与对应的每一个候选项目进行第一组合和第二组合所得到的两个组合后候选序列模式,确定该两个组合后候选序列模式的投影数据库的并集,得到并集投影数据库;根据所述并集投影数据库所包含的效用链表,确定所述候选序列模式在所述并集投影数据库中的扩展效用值上界和效用阀值下界,所述扩展效用值上界小于所述效用值上界;若确定的所述候选序列模式的扩展效用值上界小于所述候选模式的效用阀值下界,将该两个组合后候选序列模式在组合时所使用的候选项目从所述候选序列模式的投影数据库中删除。8.根据权利要求6所述的方法,其特征在于,还包括:针对所述候选序列模式与对应的每一个候选项目进行第一组合和第二组合所得到的第一组合后候选序列模式和第二组合后候选序列模式,确定所述第一组合后候选序列模式对应的第一投影数据库,以及所述第二组合后候选序列模式对应的第二投影数据库;根据所述第一投影数据库所包含的效用链表,确定所述候选序列模式在所述第一投影数据库中的扩展效用值上界;以及,根据所述第二投影数据库所包含的效用链表,确定所述候选序列模式在所...

【专利技术属性】
技术研发人员:林浚玮张杰雄陈伟肖磊刘婷婷
申请(专利权)人:哈尔滨工业大学深圳研究生院腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1