一种挖掘正负序列规则的方法技术

技术编号:20004072 阅读:30 留言:0更新日期:2019-01-05 17:15
本发明专利技术公开了一种挖掘正负序列规则的方法,属于序列规则挖掘领域,要解决的技术问题为如何挖掘负序列规则,以全面反映顾客的购买行为和购买商品之间的关系;其包括如下步骤:对序列数据库进行挖掘,得到正负序列模式,上述正负序列模式包括正序列模式和负序列模式;通过上述正负序列模式生成正负序列规则,所述正负序列规则包括正序列规则和负序列规则,所述负序列规则的前键和后键中均能够包含负元素;基于序列规则的支持度、相关性以及置信度对上述正负序列规则中的每个序列规则依次进行筛选,得到满足用户定义需求的正负序列规则。该方法反应顾客购买行为中商品购买的先后顺序,还反映每次购物行为中的商品之间的负相关和正相关的关系。

A Method of Mining Positive and Negative Sequence Rules

The invention discloses a method for mining positive and negative sequence rules, which belongs to the field of sequence rules mining. The technical problem to be solved is how to mine negative sequence rules to fully reflect the relationship between customers'buying behavior and purchasing commodities. The method comprises the following steps: mining sequence databases to obtain positive and negative sequence patterns, the positive and negative sequence patterns include positive sequence patterns. The positive and negative sequence rules are generated by the positive and negative sequence patterns mentioned above. The positive and negative sequence rules include positive sequence rules and negative sequence rules. The positive and negative sequence rules can contain negative elements in both the front and back keys of the negative sequence rules. Based on the support, correlation and confidence of the sequence rules, each sequence rule in the positive and negative sequence rules is filtered sequentially to obtain the positive and negative sequence rules. Positive and negative sequence rules satisfying user-defined requirements. This method reflects the order of purchase of goods in customer's purchase behavior, and also reflects the negative and positive correlation between goods in each purchase behavior.

【技术实现步骤摘要】
一种挖掘正负序列规则的方法
本专利技术涉及序列规则挖掘领域,具体地说是一种挖掘正负序列规则的方法。
技术介绍
序列模式的主要目的是研究商品购买的先后关系,找出其中的规律,即不仅需要知道商品是否被购买,而且需要确定该商品与其它商品购买的先后顺序,例如,购买行为C可能在一些购买行为A和B之后频繁出现,但也有许多情况下A和B不跟随C。在这种情况下,根据序列模式ABC,而预测C将发生在AB之后可能是一个巨大的错误。因此,为了进行预测,需要指示在序列模式AB之后出现多少次C以及多少次不出现C。很显然序列模式无法很好的解决对商品的预测问题。为了实现对商品进行预测的功能,序列规则被提出,它是指如果发生某些事件,则某些其他事件可能会在给定的置信度或概率的范围之内随之发生。但在应用序列规则分析客户购买行为,解决个性化商品推荐问题时,目前仅考虑了已发生的事件,也称为正序列规则(PositiveSequentialRule,PSR)挖掘,为研究事件之间的负相关的关系,研究人员提出了负序列规则挖掘,负序列规则(NegativeSequentialRule,NSR)挖掘不仅仅考虑了事物之间的正相关性,还将事物之间的负相关性考虑在内,它能更全面的理解和挖掘数据中的潜在含义。例如,b代表咖啡,c代表茶,表示一个客户购买序列规则,该规则说明在某一段时间内,该客户在购买了商品b的情况下,很大概率下不会再购买商品c。如何挖掘负序列规则,以全面反映顾客的购买行为和购买商品之间的关系,是需要解决的技术问题。
技术实现思路
本专利技术的技术任务是针对以上不足,提供一种挖掘正负序列规则的方法,来解决如何挖掘负序列规则,以全面反映顾客的购买行为和购买商品之间的关系的问题。本专利技术的技术任务是按以下方式实现的:一种挖掘正负序列规则的方法,包括如下步骤:S100、对序列数据库进行挖掘,得到正负序列模式,上述正负序列模式包括正序列模式和负序列模式;S200、通过上述正负序列模式生成正负序列规则,所述正负序列规则包括正序列规则和负序列规则,所述负序列规则的前键和后键中均能够包含负元素;S300、基于序列规则的支持度、相关性以及置信度对上述正负序列规则中的每个序列规则依次进行筛选,得到满足用户定义需求的正负序列规则。通过对序列数据库进行挖掘得到正序列模式和负序列模式,并根据正序列模式和负序列模式生成正序列规则和负序列规则,生成的负序列规则的前键和后键中元素可包含负元素,例如这样不但能够反应出顾客购买行为中商品购买的先后顺序,还能反映出每次购物行为中的商品之间的负相关和正相关的关系;然后依据序列规则的支持度、相关性以及置信依次对每个序列规则进行筛选,删除不符合用户定义条件的序列规则,从而得到满足用户定义条件的序列规则,筛选后的序列规则包含负序列规则,可更加全面的反应客户购买行为和购买的商品之间的关系,使得售货方能够根据当前的商品销售情况来预测以后的商品销售,并便于推测出下一次购物时顾客购买或不购买商品的规律,从而合理安排商品摆放,提高商品销售量。在执行步骤S1之前,进行数据处理,数据处理包括将客户的交易数据以时间为序进行转变生成序列数据库。进一步的,步骤S100中通过e-NSP算法对序列数据库进行挖掘,包括如下步骤:S110、通过传统的正序列模式挖掘算法挖掘所有的正序列模式,并计算正序列模式的支持度;S120、基于上述正序列模式生成负序列模式;S130、通过将负序列模式转换为正序列模式计算负序列模式的支持度。进一步的,通过哈希表存储上述正负序列模式以及正负序列模式的支持度,哈希表的key值用于存储上述正负序列模式,哈希表的value值用于存储上述正负序列的支持度。当计算序列规则的支持度时,只需要对哈希表的键值对进行匹配即可,可避免重复扫描序列数据库,很大程度上提高算法的效率。进一步的,步骤S200中,对正负序列模式进行判断选择,如果该正负序列模式的大小大于1,通过上述正负序列模式生成正负序列规则。进一步的,在执行步骤S300之前,判断正负序列规则中每个序列规则的前键和后键是否频繁,并将正负序列规则中前键和后键不频繁的序列规则删除。进一步的,步骤S300中基于序列规则的支持度、相关性以及置信度对序列规则进行筛选的步骤包括:S310、计算当前序列规则的支持度,如果当前序列规则的支持度小于用户给定的最小支持度,删除当前序列规则,否则,保留当前序列规则并执行步骤S320;S320、计算当前序列规则的置信度;S330、计算当前序列规则的相关性,如果当前序列规则的相关性等于1或小于1,删除当前序列规则,否则,保留当前序列规则并执行步骤S340;S340、计算当前序列规则的归一化后的置信度,如果当前序列规则的归一化后的置信度小于用户定义的最小置信度,删除当前序列规则,否则,保留当前序列规则。进一步的,步骤S310中序列规则的支持度的计算公式为:sup(X→Y)=(X∞Y)/|D|其中,X∞Y表示包含元素X和元素Y的序列的集合的数量,|D|表示序列数据库中序列的总数。进一步的,步骤S320中序列规则的置信度的计算公式为:conf(X→Y)=sup(X∞Y)/sup(X);进一步的,步骤S340中序列规则的归一化后的置信度的计算公式为:nor-conf(X→Y)=conf(X∞Y)/max(confidence)。进一步的,步骤S330中序列规则的相关性的计算公式为:corr(X→Y)=sup(X∞Y)/sup(X)/sup(Y)。本专利技术的一种挖掘正负序列规则的方法具有以下优点:本专利技术生成正序列规则和负序列规则,其中负序列规则的前键和后键中均可包含负元素,不但能够反应出顾客购买行为中商品购买的先后顺序,还能反映出每次购物行为中的商品之间的负相关和正相关的关系,这样顾客在购买商品时,利用本专利技术可以向其推荐一些跟顾客先前购买的商品正相关的商品,排除掉负相关的商品,从而增加顾客的交易机会,将网站浏览者转变为购买者,提高交叉销售能力,提高客户的忠诚度,从而提高网站的经济效益。附图说明下面结合附图对本专利技术进一步说明。附图1为实施例一种正负序列规则挖掘算法的流程框图。具体实施方式参照说明书附图和具体实施例对本专利技术的一种挖掘正负序列规则的方法作以下详细地说明。实施例:本专利技术的一种挖掘正负序列规则的方法,可得到正序列规则和负序列规则,且该负序列规则的前键和后键中均可包含负元素,能够反应出顾客购买行为中商品购买的先后顺序,还能反映出每次购物行为中的商品之间的负相关和正相关的关系,该方法包括如下步骤:S100、进行数据处理,将客户的交易数据以时间为序转变为序列数据库,例如将表1实务数据库中的交易数据转换为表2中的序列数据库;表1事务数据库表2序列数据库客户ID客户购买序列1<(a,c)d>2<bce>3<(abc)e>4<be>S200、对序列数据库进行挖掘,得到正负序列模式,上述正负序列模式包括正序列模式和负序列模式;S300、对正负序列模式进行判断选择,如果该正负序列模式的大小大于1,通过上述正负序列模式生成正负序列规则,所述正负序列规则包括正序列规则和负序列规则,所述负序列规则的本文档来自技高网...

【技术保护点】
1.一种挖掘正负序列规则的方法,其特征在于包括如下步骤:S100、对序列数据库进行挖掘,得到正负序列模式,上述正负序列模式包括正序列模式和负序列模式;S200、通过上述正负序列模式生成正负序列规则,所述正负序列规则包括正序列规则和负序列规则,所述负序列规则的前键和后键中均能够包含负元素;S300、基于序列规则的支持度、相关性以及置信度对上述正负序列规则中的每个序列规则依次进行筛选,得到满足用户定义需求的正负序列规则。

【技术特征摘要】
1.一种挖掘正负序列规则的方法,其特征在于包括如下步骤:S100、对序列数据库进行挖掘,得到正负序列模式,上述正负序列模式包括正序列模式和负序列模式;S200、通过上述正负序列模式生成正负序列规则,所述正负序列规则包括正序列规则和负序列规则,所述负序列规则的前键和后键中均能够包含负元素;S300、基于序列规则的支持度、相关性以及置信度对上述正负序列规则中的每个序列规则依次进行筛选,得到满足用户定义需求的正负序列规则。2.根据权利要求1所述的一种挖掘正负序列规则的方法,其特征在于在执行步骤S100之前,进行数据处理,数据处理包括将客户的交易数据以时间为序进行转变生成序列数据库。3.根据权利要求1所述的一种挖掘正负序列规则的方法,其特征在于步骤S100中通过e-NSP算法对序列数据库进行挖掘,包括如下步骤:S110、通过传统的正序列模式挖掘算法挖掘所有的正序列模式,并计算正序列模式的支持度;S120、基于上述正序列模式生成负序列模式;S130、通过将负序列模式转换为正序列模式计算负序列模式的支持度。4.根据权利要求3所述的一种挖掘正负序列规则的方法,其特征在于通过哈希表存储上述正负序列模式以及正负序列模式的支持度,哈希表的key值用于存储上述正负序列模式,哈希表的value值用于存储上述正负序列的支持度。5.根据权利要求3所述的一种挖掘正负序列规则的方法,其特征在于步骤S200中,对正负序列模式进行判断选择,如果该正负序列模式的大小大于1,通过上述正负序列模式生成正负序列规则。6.根据权利要求5所述的一种挖掘正负序列规则的方法,其特征在于在执行步骤S300之前,判断正负序列规...

【专利技术属性】
技术研发人员:董祥军蒋晓琦
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1