当前位置: 首页 > 专利查询>清华大学专利>正文

用户跨网站购物模式信息的抽取系统和方法技术方案

技术编号:4000752 阅读:284 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种用户跨网站购物模式信息的抽取方法,其特征在于包括:A.输入记录着用户在线浏览和购买行为的数据;B.找出用户频繁购买的商品类别或类别组合,每个这样的类别或类别组合都称为一个项;C.遍历已有的数据,寻找用户在不同网站上购买的频繁的项集;D.将寻找到的项集还原成商品类别或类别组合,并作为结果输出。该方法:提出了寻找用户跨网站购物模式的有效方法;提供了候选项集的合理的剪枝策略,即:如果某一项集的真子集不频繁,那么该项集也不可能频繁,所以可以舍去;该方法可以找到所有频繁的项集和跨网站购物模式,并且根据用户事先设定的最小支持度的不同,会得到用户所需的不同的结果;可以找到复合的跨网站购物模式。还提供了实施该方法的系统。

【技术实现步骤摘要】

本专利技术涉及计算机数据库和数据挖掘领域,特别是涉及用户跨网站购物模式信息 的抽取系统和方法。
技术介绍
在当今信息时代,互联网已经成为大众获取所需的一种重要手段。大量用户每天 通过互联网查询自己所需信息,购买自己所需商品。但是互联网上存在的大量网站,往往只 能收集到用户在自己网站上的浏览和购买行为,对于用户在整个网络上的行为并不能很好 的分析,而有时用户在自己网站购买商品与在其他的网站上购买的商品存在某种关联和模 式。如果可以找到这种跨网站的购买模式,跳出单个网站的局限,将不仅会对各个网站的经 营提供有用的信息,还能作为分析消费者行为的有力手段。用现在已有的技术手段来进行跨网站购物模式的分析,存在两个问题1.现有的方法中已经存在比较成熟的模式分析的方法,但是并没有一种进行跨网 站购物模式分析的方法,所以说这是一个新的领域;2.互联网的性质决定了进行跨网站购物模式分析的时候需要处理海量的数据,我 们需要寻找一种高效率的方法。
技术实现思路
为了解决上述所说的问题,本专利技术的一个目的就是提出了一种抽取用户跨网站购 物模式高效的系统和方法。根据本专利技术的一个方面,提供了一种用户跨网站购物模式信息的抽取方法,其特 征在于包括A.输入记录着用户在线浏览和购买行为的数据;B.找出用户频繁购买的商品类别或类别组合,每个这样的类别或类别组合都称为 一个项;C.遍历已有的数据,寻找用户在不同网站上购买的频繁的项集;D.将寻找到的项集还原成商品类别或类别组合,并作为结果输出。根据本专利技术的另一个方面,提供了用户跨网站购物行为信息抽取系统,其特征在 于包括输入模块,用于输入互联网上用户的浏览和购买行为的数据,数据预处理模块,用于为一个模式发现模块准备好可用的数据形式,所述模式发现模块,用于进行跨网站购物模式发现。附图说明图1显示了根据本专利技术的一个实施例的抽取用户跨网站购物模式的系统体系结 构图。图2显示了根据本专利技术的一个实施例的数据预处理模块的主要流程。图3给出了模式发现模块的流程图。具体实施例方式下面结合附图对本专利技术做出详细说明。根据本专利技术的一个实施例的用户跨网站购物模式信息的抽取方法包括A.输入记录着用户在线浏览和购买行为的数据;B.找出用户频繁购买的商品类别或类别组合,每个这样的类别或类别组合都称为 一个项;C.遍历已有的数据,寻找用户在不同网站上购买的频繁的项集;D.将寻找到的项集还原成商品类别或类别组合,并作为结果输出。根据本专利技术的一个实施例,在上述步骤A中从外部数据库中输入记录用户在线浏 览和购买行为的数据。根据一个具体实施例,上述步骤B进一步包括B 1.将每个用户所购买的所有商品及购买商品所在的网站组合到一起,成为一个 数据库,记为dl ;B2.对购买的每一种商品类别或类别组合进行计数,当一个用户在同一个网站上 购买了某种商品类别或类别组合,该类别或类别组合的计数加1 ;B3.当某种商品类别或类别组合出现的频率(或称为支持度sup)大于某一被称为 “最小支持度”(minisup)的阈值时,则认为该商品类别或类别组合是频繁的;B4.对每一个频繁的商品类别或类别组合,都用一个新的项来代替,称为频繁项;B5.将dl中所有频繁的商品类别或类别组合用项来替换,并删除不频繁的类别或 类别组合,成为新的数据库d2。其中步骤B3中计算商品类别或类别组合的支持度的公式如下Mp(Plcli)==^L-其中P表示某一商品类别或类别组合,dl表示数据库dl,仏表示第i个用户购买 的所有商品,D表示所有用户的个数。当支持度大于某一被称为“最小支持度”(minisup) 的阈值时,则认为该商品类别或类别组合是频繁的。最小支持度阈值是由用户事先设定的。根据一个具体实施例,上述步骤C可进一步包括C1.在数据库d2中取出所有含有1个项的项集,他们别或类别组合转换而来,所以 他们的支持度均大于“最小支持度”(minisup)阈值,即所有这些1项集都是频繁的;C2.用所有频繁的1项集组合出所有可能2项集,并对这些所有的2项集进行计 数;如果一个用户在2个不同的网站上分别购买了 2项集中的2个项,则该2项集的计数加 1。如果最后该2项集出现的频率大于“最小支持度”(minisup)阈值,则认为该2项集是频 繁的;C3.用所有频繁的2项集组合出所有可能的3项集,要求这些3项集的所有2项子 集都是频繁的,否则不予产生;对所有候选的3项集计数,如果一个用户分别在3个不同的 网站上购买了 3项集中的3个项,则该3项集的计数加1 ;如果最后某个3项集出现的频率6大于“最小支持度”(minisup)阈值,则认为该3项集是频繁的;C4.用类似3项集的处理方法,来寻找4项频繁集以及更大的频繁项集,直到找不 出频繁项集为止。上述步骤C1-C4中计算每个k项集(k ^ 2)出现的频率的公式为 其中I表示候选的项集,d2表示数据库d2,I c ,表示用户仏在不同的网站上购 买了 I中的各个项。当支持度大于最小支持度(minisup)的阈值时,则认为该项集是频繁 的。根据一个具体实施例,在上述步骤D中,将寻找到的项集还原成商品类别或类别 组合,并作为结果输出。本专利技术的优点包括1.该方法提出了一种寻找用户跨网站购物模式的有效方法;2.该方法提供了候选项集的合理的剪枝策略如果某一项集的真子集不频繁,那 么该项集也不可能频繁,所以可以舍去。3.该方法可以找到所有频繁的项集和跨网站购物模式,并且根据用户事先设定的 最小支持度的不同,会得到用户所需的不同的结果。4.该方法可以找到复合的跨网站购物模式,既包含不同网站上购买的商品,也包 括在单个网站上购买的多个商品。如图1所示,根据本专利技术的一个实施例的用户跨网站购物行为信息抽取系统包 括输入模块101,用于输入互联网上用户的浏览和购买行为的数据,也就是用户在一定时 间之内的所有浏览行为和在线购买行为,包括用户的ID,用户所浏览的页面的域名以及用 户所购买的商品类别和购买商品所在的页面域名。其次是数据预处理模块102、模式发现模 块103和输出模块104。数据预处理模块102为模式发现模块103准备好可用的数据形式,包括将原始数 据转换成以用户为中心的数据,筛选出频繁的商品类别或类别组合,把这些类别组合当作 一个单独的项,并将数据库转化成以用户为中心的包含项集的形式。模式发现模块103是 本系统的主体模块,主要完成跨网站购物模式发现的任务。下面参考图2和图3,对根据本专利技术抽取用户跨网站购物模式的方法进行详细地 说明。图2给出了本专利技术中数据预处理模块102的一个实施例的主要流程。其中,首先 将数据转换成以用户为中心的数据,也就是一个用户一行数据,包括该用户在一定时间之 内所购买的所有商品,以及购买这些商品所在的网站,形成数据库dl (步骤201)。然后在 dl中对商品类别或类别组合进行筛选,找出那些同一个用户在同一个网站上购买的频繁的 商品类别或类别组合。首先设定“最小支持度”阈值,当步骤202中的某个商品类别或类别 组合的支持度(此处支持度的计算见上文对步骤B的详细说明)大于等于该“最小支持度” 时,则认为该商品类别或类别组合是频繁的(步骤202)。然后我们将其作为一个项处理, 便于后续操作(步骤203)。然后,将这些代表频繁的商品本文档来自技高网...

【技术保护点】
用户跨网站购物模式信息的抽取方法,其特征在于包括:A.输入记录着用户在线浏览和购买行为的数据;B.找出用户频繁购买的商品类别或类别组合,每个这样的类别或类别组合都称为一个项;C.遍历已有的数据,寻找用户在不同网站上购买的频繁的项集;D.将寻找到的项集还原成商品类别或类别组合,并作为结果输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘红岩蔡元珏杨颖慧
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1