一种利用相异度聚类和关联的数据挖掘方法技术

技术编号:9254266 阅读:126 留言:0更新日期:2013-10-16 20:51
本发明专利技术公开了一种利用相异度聚类和关联的数据挖掘方法,包括:从网站用户购买数据的Log日志中提取数据,并对Log日志进行有效数据提取,即对数据进行清洗;分别进行相异度聚类及关联规则计算,并利用数据库实现对数据的存取和处理,将聚类后关联推荐存于数据库中;当有新用户在网站购买数据时,可将其在网站中的Log日志数据依据相异度聚类和关联算法,进行购买推荐,为用户网站购买提供推荐参考。本发明专利技术所述利用相异度聚类和关联的数据挖掘方法,可以克服现有技术中实时性差、准确率低和使用效果差等缺陷,以实现实时性好、准确率高和使用效果好的优点。

【技术实现步骤摘要】
一种利用相异度聚类和关联的数据挖掘方法
本专利技术涉及通信
,具体地,涉及一种利用相异度聚类和关联的数据挖掘方法。
技术介绍
随着电子商务的快速发展以及信息时代人们社会生活环境的变化,网络用户通过电子商务网站来购买商品已成为常态化。作为商务网站的运营,需要留住浏览网站的用户,需要将浏览者变成购买者,需要增加网站销售品种以供客户多项选择。为此作为电子商务网站推荐系统研究得到了越来越多的关注和研究。目前,作为推荐领域的研究主流是对于推荐算法的改进,主要集中在协同过滤算法,基于内容的算法和混合算法。而在这几种算法中,混合算法的应用研究较多,主要集中在关联规则、遗传算法、神经网络算法等融合使用中。混合算法中聚类和关联规则,在联合使用中出现的实时性差、准确率差以及推荐效果不佳等问题,而采用一种基于相异度聚类和关联规则算法。大多聚类算法和关联规则都采用先聚类在进行关联的推荐形式,但对于稀疏数据以及海量数据时,聚类和关联联合算法在推荐的实时性和有效性将有所下降。在实现本专利技术的过程中,专利技术人发现现有技术中至少存在实时性差、准确率低和使用效果差等缺陷。
技术实现思路
本专利技术的目的在于,针本文档来自技高网...
一种利用相异度聚类和关联的数据挖掘方法

【技术保护点】
一种利用相异度聚类和关联的数据挖掘方法,其特征在于,主要包括:a、从网站用户购买数据的Log日志中提取数据,并对Log日志进行有效数据提取,即对数据进行清洗;b、根据进行清洗后的有效数据,分别进行相异度聚类及关联规则计算,并利用数据库实现对数据的存取和处理,将聚类后关联推荐存于数据库中;c、当有新用户在网站购买数据时,可将其在网站中的Log日志数据依据相异度聚类和关联算法,进行购买推荐,为用户网站购买提供推荐参考。

【技术特征摘要】
1.一种利用相异度聚类和关联的数据挖掘方法,其特征在于,主要包括:a、从网站用户购买数据的Log日志中提取数据,并对Log日志进行有效数据提取,即对数据进行清洗;b、根据进行清洗后的有效数据,分别进行相异度聚类及关联规则计算,并利用数据库实现对数据的存取和处理,将聚类后关联推荐存于数据库中;c、当有新用户在网站购买数据时,可将其在网站中的Log日志数据依据相异度聚类和关联算法,进行购买推荐,为用户网站购买提供推荐参考,在步骤a中,所述对数据进行清洗的操作,具体包括:作为电子商务网站的访问用户,在网站停留以及购买商品,或点击浏览商品时都会留下记录,并保存在web日志服务器Log日志中,所述保存在web日志服务器Log日志的操作,具体包括:将web日志中的用户购买记录依据购买商品的种类建立用户购买商品关联矩阵,如下表所示:其中Ui(i=1,2…n)表示访问网站的用户;Pj(j=1,2….m)表示电子商务网站中商品数;为了便于用户购买商品的聚类,首先构建网站用户购买商品的矩阵,其规则如下式(1):可得购物矩阵M:2.根据权利要求1中所述的利用相异度聚类和关联的数据挖掘方法,其特征在于,所述步骤b和步骤c具体包括:b1、基于相异度的初始聚类:相异度是表征对象间相似程度,对一组数据的相异度通常可以用相异度矩阵进行表示;b2、新样本聚类:当样本空间数据元素增大,将产生的新元素与利用相异度产生的聚类结果进行对比计算;b3、基于关联规则的推荐:通过上述产生的聚类结果,利用布尔关联规则频繁项集的算法,对每个聚类结果进行关联规则的挖掘。3.根据权利要求2所述的利用相异度聚类和关联的数据挖掘方法,其特征在于,所述步骤b1具体包括:⑴相异度是表征对象间相似程度,对一组数据的相异度通常可以用相异度矩阵进行表示,对象间的相异度通常用对象i和对象j之间的相异性的量化d(i,j)表示,通常为非负值;两个对象越接近,其值越接近0;两个对象越不同,其值越大且有下式成立:d(i,j)=d(j,i),d(i,i)=0;依据相异度矩阵计算原理将矩阵M进行相异度计算可到相异度矩阵D:定义相异度矩阵是自反的和对称的即d(i,i)=0,d(i,j)=d(j,i),其中d(i,j)(i=2、3、…n;j=1、2、…n)表示二元变量矩阵D两元素间的相异度:f00=x取0并且...

【专利技术属性】
技术研发人员:肖强张立峰
申请(专利权)人:兰州交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1