当前位置: 首页 > 专利查询>深圳大学专利>正文

一种分析用户交易行为的方法及装置制造方法及图纸

技术编号:14005581 阅读:77 留言:0更新日期:2016-11-16 23:31
本发明专利技术公开了一种分析用户交易行为的方法及装置,将用户购买行为数据压缩为购买树数据,购买树数据更利于用户大数据的存储和处理,将数据进行合理的压缩后提高聚类的效果,大大提高实际应用价值;同时,在交易购买树的聚类方法中,使用谱聚类的方法,巧妙地把一个NP难度的问题转换成拉普拉斯矩阵特征值(向量)的问题,将离散的聚类问题松弛为连续的特征向量,最小的系列特征向量对应着图最优的系列划分方法,剩下的仅是将松弛化的问题再离散化,即将特征向量再划分开,便可以得到相应的类别。通过以上过程得到的聚类结果,不仅规避了传统聚类对用户静态属性的依赖,而且对用户数据进行了合理降维取得良好的用户分组结果。

【技术实现步骤摘要】

本专利技术实施例涉及用户交易的
,尤其涉及一种分析用户交易行为的方法及装置
技术介绍
目前,客户购物分析已经越来越受到零售企业的重视。交易购买树分析是关联规则在零售业的一个重要应用,它通过发现顾客购物商品之间的联系,来分析顾客的购买行为并辅助零售企业制定营销策略。通常说的购买树分析指的是通过购买树中显示出来的交易信息来分析顾客的购买行为,顾客在购买商品的过程中通常会一次购买多个商品,从而使得这些商品之间具有很强的关联性。因此,我们可以认为顾客的购买行为是一种整体的行为,即是否购买一件商品会影响到其他商品的购买,从而影响到每个购买树的利润。所以,购买树分析的目标就是找出重要而且有价值的购买树,从零售记录中分析出顾客经常同时购买的商品的组合,从而有利于商品的促销、摆架、物流等。当前的购买树分析技术主要是基于聚类算法的购买树分析方法。其中,应用最为广泛的就是HAC(hierarchical agglomerative clustering)算法,其主要包括了归类和测距两个过程。凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足,绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。将每个对象归为一类,共得到N类,每类仅包含一个对象。类与类之间的距离就是它们所包含的对象之间的距离。找到最接近的两个类并合并成一类,于是总的类数少了一个。重新计算新的类与所有旧类之间的距离。重复前面的步骤,直到最后合并成一个类为止(此类包含了N个对象)。传统的聚类方法基于客户的地理位置、人口学特征等静态属性信息,聚类结果不一定有相同的购买行为,而且指标数据具有私有性不易获取的特点,导致不能取得良好的聚类效果。随着信息时代的到来,对大量的数据进行分析处理是一个很庞大的工作,这就关系到一个计算效率的问题。目前许多聚类方法处理小规模数据和低维数据时性能比较好,但是当数据规模增大,维度升高时,性能就会急剧下降,比如传统方法处理小规模数据时性能很好,但是随着数据量增多,效率就逐渐下降,而现实生活中的数据大部分又都属于规模比较大、维度比较高的数据集。
技术实现思路
本专利技术实施例的目的在于提出一种分析用户交易行为的方法及装置,旨在解决如何提高聚类效果的问题。为达此目的,本专利技术实施例采用以下技术方案:第一方面,一种分析用户交易行为的方法,所述方法包括:从零售企业数据库中读取交易数据,所述交易数据包括交易号、交易时间、商品名称、销售额、以及商品所属父类名称;根据所述交易号对所述交易数据进行分组聚集,所述交易数据是交易记录的全集,所述交易数据的每行为一个商品的交易记录;对所述交易数据根据客户划分成组,对每组数据合并建立每个用户的购买树;从所述交易记录中抽取无重复无遗漏的商品,根据所述商品带有的层次信息建立商品树;每个用户购买树之间的相似度使用相似矩阵表示,使用谱聚类对拉普拉斯矩阵进行聚类,循环聚类过程,从至少一个聚类结果中选取最好的聚类结果,所述最好的聚类结果为用户分组结果。优选地,所述根据所述交易号对所述交易数据进行分组聚集,包括:每条交易记录的形式为T=[TID,<i1,i2...,in>]的形式;其中,T为一次交易,TID为交易号,in为某个商品,<i1,i2...,in>为此次交易中购买的商品集合。优选地,所述从所述交易记录中抽取无重复无遗漏的商品,根据所述商品带有的层次信息建立商品树,包括:对所述商品名称和所述商品所属父类名称进行编号,从交易记录集合中抽取无重复无遗漏的商品集合;依据所述商品携带的从属类别关系,自顶向下建立一个商品树,树中每个节点含有一个键值对,键为商品名称或类别名称,值为对应编号。优选地,所述对所述交易数据根据客户划分成组,对每组数据合并建立每个用户的购买树,包括:对所述交易数据按不同的客户划分成组,依次对每组商品建立一颗购买树,所述购买树中的每个节点含有编号值。优选地,所述每个用户购买树之间的相似度使用相似矩阵表示,使用谱聚类对拉普拉斯矩阵进行聚类,包括:使用相似度矩阵S(i,j)计算用户购买树i和j之间的相似度,将每一列元素加起来放在对角线上组成N*N相似度矩阵S;将相似度矩阵S转化成为拉普拉斯矩阵L,求出前k个特征值以及对应的特征向量,排列所述特征值和所述特征向量组成一个N*k的矩阵;通过拉普拉斯特征映射的降维方式降维,将得到的特征向量进行K-means聚类。第二方面,一种分析用户交易行为的装置,所述装置包括:读取模块,用于从零售企业数据库中读取交易数据,所述交易数据包括交易号、交易时间、商品名称、销售额、以及商品所属父类名称;分组模块,用于根据所述交易号对所述交易数据进行分组聚集,所述交易数据是交易记录的全集,所述交易数据的每行为一个商品的交易记录;建立模块,用于对所述交易数据根据客户划分成组,对每组数据合并建立每个用户的购买树;从所述交易记录中抽取无重复无遗漏的商品,根据所述商品带有的层次信息建立商品树;聚类模块,用于每个用户购买树之间的相似度使用相似矩阵表示,使用谱聚类对拉普拉斯矩阵进行聚类;选取模块,用于循环聚类过程,从至少一个聚类结果中选取最好的聚类结果,所述最好的聚类结果为用户分组结果。优选地,所述分组模块,用于:每条交易记录的形式为T=[TID,<i1,i2...,in>]的形式;其中,T为一次交易,TID为交易号,in为某个商品,<i1,i2...,in>为此次交易中购买的商品集合。优选地,所述建立模块,用于:对所述商品名称和所述商品所属父类名称进行编号,从交易记录集合中抽取无重复无遗漏的商品集合;依据所述商品携带的从属类别关系,自顶向下建立一个商品树,树中每个节点含有一个键值对,键为商品名称或类别名称,值为对应编号。优选地,所述建立模块,还用于:对所述交易数据按不同的客户划分成组,依次对每组商品建立一颗购买树,所述购买树中的每个节点含有编号值。优选地,所述聚类模块,用于:使用相似度矩阵S(i,j)计算用户购买树i和j之间的相似度,将每一列元素加起来放在对角线上组成N*N相似度矩阵S;将相似度矩阵S转化成为拉普拉斯矩阵L,求出前k个特征值以及对应的特征向量,排列所述特征值和所述特征向量组成一个N*k的矩阵;通过拉普拉斯特征映射的降维方式降维,将得到的特征向量进行K-means聚类。本专利技术实施例提供一种分析用户交易行为的方法及装置,将用户购买行为数据压缩为购买树数据,购买树数据更利于用户大数据的存储和处理,将数据进行合理的压缩后提高聚类的效果,大大提高实际应用价值;同时,在交易购买树的聚类方法中,使用谱聚类的方法,巧妙地把一个NP难度的问题转换成拉普拉斯矩阵特征值(向量)的问题,将离散的聚类问题松弛为连续的特征向量,最小的系列特征向量对应着图最优的系列划分方法,剩下的仅是将松弛化的问题再离散化,即将特征向量再划分开,便可以得到相应的类别。通过以上过程得到的聚类结果,不仅规避了传统聚类对用户静态属性的依赖,而且对用户数据进行了合理降维取得良好的用户分组结果。附图说明图1是本专利技术实施例提供一种分析用户交易行为的方法的流程示意图;图2是本文档来自技高网
...
一种分析用户交易行为的方法及装置

【技术保护点】
一种分析用户交易行为的方法,其特征在于,所述方法包括:从零售企业数据库中读取交易数据,所述交易数据包括交易号、交易时间、商品名称、销售额、以及商品所属父类名称;根据所述交易号对所述交易数据进行分组聚集,所述交易数据是交易记录的全集,所述交易数据的每行为一个商品的交易记录;对所述交易数据根据客户划分成组,对每组数据合并建立每个用户的购买树;从所述交易记录中抽取无重复无遗漏的商品,根据所述商品带有的层次信息建立商品树;每个用户购买树之间的相似度使用相似矩阵表示,使用谱聚类对拉普拉斯矩阵进行聚类,循环聚类过程,从至少一个聚类结果中选取最好的聚类结果,所述最好的聚类结果为用户分组结果。

【技术特征摘要】
1.一种分析用户交易行为的方法,其特征在于,所述方法包括:从零售企业数据库中读取交易数据,所述交易数据包括交易号、交易时间、商品名称、销售额、以及商品所属父类名称;根据所述交易号对所述交易数据进行分组聚集,所述交易数据是交易记录的全集,所述交易数据的每行为一个商品的交易记录;对所述交易数据根据客户划分成组,对每组数据合并建立每个用户的购买树;从所述交易记录中抽取无重复无遗漏的商品,根据所述商品带有的层次信息建立商品树;每个用户购买树之间的相似度使用相似矩阵表示,使用谱聚类对拉普拉斯矩阵进行聚类,循环聚类过程,从至少一个聚类结果中选取最好的聚类结果,所述最好的聚类结果为用户分组结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述交易号对所述交易数据进行分组聚集,包括:每条交易记录的形式为T=[TID,<i1,i2...,in>]的形式;其中,T为一次交易,TID为交易号,in为某个商品,<i1,i2...,in>为此次交易中购买的商品集合。3.根据权利要求1所述的方法,其特征在于,所述从所述交易记录中抽取无重复无遗漏的商品,根据所述商品带有的层次信息建立商品树,包括:对所述商品名称和所述商品所属父类名称进行编号,从交易记录集合中抽取无重复无遗漏的商品集合;依据所述商品携带的从属类别关系,自顶向下建立一个商品树,树中每个节点含有一个键值对,键为商品名称或类别名称,值为对应编号。4.根据权利要求1所述的方法,其特征在于,所述对所述交易数据根据客户划分成组,对每组数据合并建立每个用户的购买树,包括:对所述交易数据按不同的客户划分成组,依次对每组商品建立一颗购买树,所述购买树中的每个节点含有编号值。5.根据权利要求1所述的方法,其特征在于,所述每个用户购买树之间的相似度使用相似矩阵表示,使用谱聚类对拉普拉斯矩阵进行聚类,包括:使用相似度矩阵S(i,j)计算用户购买树i和j之间的相似度,将每一列元素加起来放在对角线上组成N*N相似度矩阵S;将相似度矩阵S转化成为拉普拉斯矩阵L,求出前k个特征值以及对应的特征向量,排列所述特征值和所述特征向量组成一个N*k的矩阵;...

【专利技术属性】
技术研发人员:陈小军彭思黄哲学明勇
申请(专利权)人:深圳大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1