一种用于挖掘电商交易数据中高利润商品的方法技术

技术编号:28469697 阅读:18 留言:0更新日期:2021-05-15 21:36
本发明专利技术属于海量数据挖掘与处理技术领域,涉及电商交易数据中高利润商品的挖掘方法。一种用于挖掘电商交易数据中高利润商品的方法,包括:根据每个商品的前缀不同,将每次交易记录中首个商品作为前缀项,将交易记录中具有相同前缀项的的商品集分在同一个分区里;所述商品集为一项式商品集或二项式商品集;分别计算每个分区的twu值,twu记录了该分区的最大利润效用值,将每个分区的twu值,与用户设定的利润阈值minU比较:a.若twu<minU,则跳过该分区,进入下一个分区;b.若twu≥minU,则计算该分区内每个商品集在整个分区中的利润效用值UIPa[i].twu,并将所有UIPa[i].twu降序排序,从大到小依次与利润阈值minU比较,找到大于等于利润阈值minU的商品集。本发明专利技术的方法,性能更优,效率更高。效率更高。效率更高。

【技术实现步骤摘要】
一种用于挖掘电商交易数据中高利润商品的方法


[0001]本专利技术属于海量数据挖掘与处理
,涉及一种电商交易数据中高利润商品的挖掘方法。

技术介绍

[0002]在实际的购物篮数据和电商交易领域的数据分析中,往往使用频繁程度或支持度作为主要衡量标准,只通过计算频繁出现的事务项(被大量购买的商品)决定销售策略以及货架摆布设计。频繁模式挖掘通过历史数据分析,对客户近期的购买行为进行统计和分析,根据概率计算并分析客户的需求产品,推测出客户下一步可能的购买行为,从而制定合理的营销策略。例如,同时频繁地出现在交易数据集中的商品(如面包和牛奶)集合就是频繁项集。一个子序列,如首先购买PC计算机,然后购买数码相机,又购买内存卡,若其频繁出现在购物篮数据中,则称为一个频繁模式。
[0003]然而,频繁模式的挖掘仅考虑项集在多少个事务(购物篮)中出现,而没有考虑其在事务中对应的数量和权重值,即某件商品的购买数量和单位利润或价格;然而这些信息对于商务数据分析等应用却非常重要。
[0004]高效用项集挖掘(HUIM)是数据挖掘领域的一个重要的研究方向,在生物信息学、移动商务、web点击流分析和市场营销等领域得到了广泛应用。HUIM通常可以被认为是传统频繁项集挖掘(FIM)的推广,FIM结果得到数据集中大量出现的项集,仅仅考虑事务存在与否,但忽略了事务数据库的其他信息,其结果可能是低利润的频繁项集。为了解决现实生活中HUIM根据实际数据集中不同的项集的分布及重要程度,在经典的Apriori算法基础上,对事务数据集中的每个项赋予权值。
[0005]高效用模式挖掘能发现大型事务或关系数据库中模式之间的关联性与相关性,通过对历史数据进行计算和分析,定义一个事务拥有其内部效用(商品销售数量)和外部效用(利润、重要程度等),事务的总效用值为内部效用与外部效用之和,代表了该模式的总利润或贡献值,可为分类设计、交叉营销和顾客购买习惯分析等许多商务决策过提供帮助。此外,高效用事务对数据分类、聚类及其他数据挖掘任务也具有重要意义。
[0006]依据搜索空间的遍历顺序,现有的高效用项集(模式)挖掘算法可划分为两类:一是采用广度优先的搜索顺序,例如UMining、Two

Phase、IIDS和UMMI;二是采用深度优先的搜索顺序,例如IHUP、UP

Growth、HUI

Miner、d2HUP、PB、IMHUP和EFIM。广度优先类算法采用与Apriori类似的层级、高效用项集候选项集生成和测试的方法学计算项集在数据库中的效用,深度优先类算法又细分为“两阶段”算法和“一阶段”算法。
[0007]“两阶段”算法的执行包括两个阶段,在第一阶段,生成高效用项集的候选项集,然后在第二阶段通过扫描数据集挖掘出第一阶段候选项集中的实际高效用项集,例如IHUP和UP

Growth。对于庞大的数据集,“两阶段”算法往往会产生大量的候选集,这大大增加了在第一阶段和第二阶段的计算开销。“一阶段”算法,在挖掘过程中不产生高效用项集候选项集,直接计算项集的效用值并生成高效用项集,例如HUI

Miner、d2HUP、PB、IMHUP和EFIM。

一阶段”算法利用效用值

列表的结构或基于树的数据结构,以快速挖掘高效用项集。然而,目前的“一阶段”算法要求数据集能完全保存到内存中,并且在处理庞大的数据时产生较高的执行成本;若数据集太大,将无法完全保存在内存中。
[0008]虽然基于静态数据库和数据流的高效用项集(模式)挖掘技术取得了一定的进展,但算法的时空效率仍然存在提升的空间。例如在静态数据库中,当前最好的高效用项集(模式)挖掘算法通过采用垂直数据结构,计算项集在数据库中的效用,但采用连接操作构建垂直数据结构是非常耗时的。
[0009]通过对现有技术进行研究,在海量数据集上进行高效用项集(模式)挖掘的存在三个关键问题:
[0010]1)生成完整的高效用项集(模式集),
[0011]2)当前计算的数据集能保证完全存储到内存中,
[0012]3)尽可能降低执行开销(包括计算开销和I/O开销)。
[0013]针对问题1),需要根据“晶格理论”生成高效用项集。假定静态数据库中的项由I={i1,i2,

,i
n
}组成,i1,i2,

,i
n
分别代表了n种不同的商品,则搜索空间为I的幂集所组成的项集网格,例如若I={1,2,3,4},其搜索空间为图1所示的项集网格。对搜索空间的遍历包含两种搜索方式:广度优先搜索和深度优先搜索。在广度优先的遍历中,所有k

项集在数据库中频数的计算先于(k+1)

项集。而深度优先的遍历顺序通常采用集合枚举树作为搜索空间(本质上,与项集网络相同),I={1,2,3,4}的集合枚举树如图2所示。
[0014]通过对生成的项集进行分析,在实际应用中,若数据集中含有n种不同的商品,那么其将产生(2
n

1)个候选项集,其搜索空间将呈现指数级爆炸式增长。若需要将当前工作的数据集一次性完整存入内存,其计算成本和空间存储要求都将是非常庞大的。因此,需要在执行过程中采用有效的项集生成策略和剪枝策略,尽可能避免生成无用的项集,从而降低执行开销。
[0015]通过对“两阶段”的高效用项集算法进行研究,此类算法由于在第一阶段生成大量的候选项集,因此在海量数据上的挖掘效率通常很低。在实际应用中其将产生(2
n

1)个候选项集,搜索空间相当巨大。这不仅增加了第一阶段的执行成本,同时增加了第二阶段从候选集中确定高效用项集的评估成本。目前的一些高效用项集挖掘算法,为了减少生成的候选项集的数量,减少对项集实际效用值的估计,从而修剪候选集的大小,但这并没有解决两相算法的根本问题。
[0016]“一阶段”算法直接计算高效用项集,而不用首先产生大量的候选项,因此其性能通常优于“两阶段”算法。然而,现有的“一阶段”算法往往要求数据集可以完全存储到内存中,若数据量非常庞大,无法一次性全部存储到内存,“一阶段”算法将要执行大量的随机搜索操作,或多次扫描数据集,从而产生非常巨大的I/O开销,并大大降低其性能。
[0017]总之,现有的高效用项集挖掘算法在处理海量数据时,存在效率不高,内存开销和运行开销大的问题。

技术实现思路

[0018]本专利技术的目的是提供一种新的高效用项集挖掘算法,能够高效地在海量购物篮数据和电商交易中进行高效用事务的挖掘,挖掘出购物篮数据和电商交易中产生高利润的商
品集,可以帮助零售商做选择性销售和合理安排货架空间,从而提高销量。
[0019]为了实现上述目的,本专利技术采用的技术方案是:一种用于挖掘电商交易数据中高利润商品的方法,包括:
[0020]S1:根据每个商品的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于挖掘电商交易数据中高利润商品的方法,其特征在于,包括:S1:根据每个商品的前缀不同,将每次交易记录中首个商品作为前缀项,将交易记录中具有相同前缀项的的商品集分在同一个分区里;所述商品集为一项式商品集或二项式商品集;S2:分别计算每个分区的twu值,twu记录了该分区的最大利润效用值,将每个分区的twu值,与用户设定的利润阈值minU比较:a.若twu<minU,则跳过该分区,进入下一个分区;b.若twu≥minU,则计算该分区内每个商品集在整个分区中的利润效用值UIPa[i].twu,并将所有UIPa[i].twu降序排序,从大到小依次与利润阈值minU比较,找到大于等于利润阈值minU的商品集。2.根据权利要求1所述的用于挖掘电商交易数据中高利润商品的方法,其特征在于:所述步骤S2中b,若:(1)若UIPa[i].twu<minU,则进入下一分区;若UIPa[i].twu≥minU,则将商品集加入集合Psa中;(2)判断集合Psa中的一项式商品集的个数:若∣Psa∣=0,则进入下一个分区,返回步骤S3;若∣Psa∣=1或2,则判断该一项式商品集或二项式商品集的利润效应值UIPa[i].iutil是否大于或等于minU;若是,则该商品集为挖掘到的高利润商品集;若否,则进入下一个分区,返回步骤S3;若∣Psa∣≥3,利用集合Psa中的所有一项式商品集构造枚举树,采用全后缀值剪枝法剪除全后缀效用值小于利润阈值minU的商品集,剩下的根节点到某节点路径之间的商品集为挖掘到的高利润商品集。3.根据权利要求1所述的用于挖掘电商交易数据中高利润商品的方法,其特征在于,每个商品集在整个分区中的利润效应值UIPa[i].twu为包含该商品集的所有交易记录的利润...

【专利技术属性】
技术研发人员:韩希先何京璇白文超
申请(专利权)人:哈尔滨工业大学威海
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1