网站用户等级划分方法技术

技术编号:3755902 阅读:867 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种用于Internet网站的用户分类划分方法,步骤如下:(1)首先对访问记录进行过滤,消除蜘蛛访问和人为攻击访问影响;(2)统计每个用户在一定时间内访问浏览数P、访问次数S和访问持续时间总长度T,形成三维聚类空间P、S、T;(3)对用户进行聚类计算,确定用户分类等级。本发明专利技术在算法上突破经典聚类算法,不需要类“中心”转换,一次性完成聚类,划分方法巧妙、简洁,大大减少了计算量,提高了计算快速,且具有非常强的可解释性和实用性。

【技术实现步骤摘要】

本专利技术涉及一种用于Internet网站的用户分类划分方法。
技术介绍
现在网站对于用户访问情况的了解,只能用简单的网页浏览数 PV (Page View)、访问唯一 IP数等简单指标来进行观测,对于网站 用户分类,还缺少科学的办法。对于大型网站,每天有大量用户访问网站。如何对于访问网站的 用户进行等级划分?用哪些指标、什么划分方法可以科学准确区分用 户?怎样找到不同用户群的特征以及用户群之间的边界?以此为依 据,有针对性地为不同的用户进行有效的服务和管理,是网站管理工 作的重要组成部分,其核心是用户分类管理。
技术实现思路
为了解决上述存在的问题,本专利技术提供一种科学有效的网站用户 等级划分方法,应用该方法能够快速找到不同用户群的"中心"和用 户群之间的边界,以此来对用户等级进行划分。本专利技术的目的是通过下述技术方案实现的-,其特征在于首先对访问记录进行过滤, 统计每个用户在一定时间内访问浏览数P、访问次数S和访问持续时 间总长度T,形成P、 S、 T三维空间,对用户进行聚类,由此对用户等级进行划分。所述的"访问记录过滤"包括(1) 、浏览器过滤通过访问记录中浏览器进行判断,如果不是IE、 Firefox 等常规浏览器,带有特殊搜索引擎爬虫标记的访问记 录,不进行统计;(2) 、访问持续时间与访问密度过滤访问持续时间为用户 一次访问网站的持续时间; 访问密度为在单位时间内浏览网页数量; 为访问持续时间和访问密度设置"阀值",超过设定"阀5值"的访问记录,不参加统计。 所述的"聚类"运算过程如下(1) 、三维排序分别对所有用户的在三个方向P、 S、 T的数值Ui(Pi,Si,ti)进行从大到小排序;(2) 、求三维空间每个用户的均差 对于排序后所得的序列,分别求P、 S、 T三维方向的用户间的平均差;设p为PV的平均差;s为会话次数的平均差; 为网站停留总时长的平均差;一 w4n("-1), =1(3)、确定各个用户分类等级在P、 T、 S三维空间的中心 R为设置需要分成类的个数; j为第几个分类标号;设^/为第j个分类在P方向的中心值;为第j个分类在S方向的中心值;A ;为第j个分类在T方向的中心值;j为分类号,是整数;当计算第l个分类中心时,g口j-l时-6巧-("/(2xiQ)x; 《,/(2xi ))xs 《 =("/(2xi ))xf其他类的中心时,计算为 当Kj〈R时1)x("/和《=《+(/-1)x("/争得到每个分类在P, S, T三个方向的"中心",《(《,《,0; (4)、确定用户分类等级划分用每个用户三维空间坐标Ui(pi,Si,ti)分别与各个类中心坐标 A(《,",d)差的绝对值的和进行比较,j从l到R,既1《j《R。取IUi-Rjl最小值,也就是判断离哪个类中心最近,min{|Ui-Rj|}, 将用户Ui划分到Rj用户群中,用户等级划分结束。 本专利技术的有益效果一、 客观性本专利技术采用网站访问用户网页浏览PV、访问次数Session和停留 时间总时长三维空间对访问用户进行分类,可以客观地描述网站访问 用户的等级。二、 可靠性在网站访问记录中,会有大量的搜索引擎爬虫访问记录和一些非 正常访问记录。本专利技术通过预处理的去噪声干扰, 一方面过滤了大量 的垃圾信息,使数据更加干净,计算结果可靠;另一方面,大大减少 了无谓的计算量。三、 高效率性经典的聚类算法需要不断地进行类"中心"转换,直至不能转换 才停止计算,每次转换都需要从新计算每个聚类成员到类中心的距离,每次中心转换都需重新计算(MxN成员数乘以类数),计算量巨 大。本专利技术采用一种高速聚类方法,通过排序来确定最终的类"中心", 不再需要进行类"中心"转换, 一次性直接可以划分归类,大大减少 了计算量,大幅度提高了计算速度。 附图说明图1本专利技术网站访问用户等级划分方法的流程图。具体实施方式-为了便于说明本专利技术,在以下的说明中-Pi代表每个用户访问PV数量;Si代表每个用户访问会话Session次数;Ti代表每个用户访问停留总时长;n代表统计计算中的数量用户;R代表所要划分用户等级的分类数;i代表第i个用户,1《i《n;j代表第j个分类,;1《j《R;Ui(Pi,Si,W代表第i个用户在P、 S、 T三维空间坐标; &代表第j个分类在P、 S、 T三维空间上的中心坐标。 ,首先要确定,用哪些技术指标来衡量用 户对网站的喜欢程度。所选定的指标,要可以直接反映用户与网站的 关系,要简洁。太多的指标不会增加聚类精度,反而会增加无谓的计 算量,并且指标之间会有重叠关系,影响最后的聚类结果。本专利技术统计用户在一段时间内的访问记录,采用3个指标指标l:计算每个用户的网页浏览数PV (PageView);指标2:访问次数Session;指标3:访问会话停留总时长Time;三个统计指标,形成P、 S、 T三维空间,进行聚类。确定划分用户等级数为R,即要将用户划分成几个类。在计算开始,首先,需要用户确定需要划分成几个类。例如,经过统计,网站有10万个用户,要将其划分成优良、良好、 一般、低级4个分类等级。这里用户数量11=10万;分类数R-4。 本专利技术,步骤如下如图1所示,(1) 参数设定101步骤中包括将用户分成几类,确定R的数值; 过滤访问会话Session持续时间阀值,例如2小时; 过滤访问密度,在单位时间内, 一个用户访问PV数,例如10 个/分钟;(2) 过滤访问记录,过滤模块102读取访问记录数据库103, 对其进行过滤,需要剔除非正常的访问记录。非正常的访问记录包括 A搜索爬虫干扰通过对访问记录中浏览器标记,来判断是否是搜索引擎的爬虫。 如BAIDU的浏览器有baiduspoder,微软MSN的浏览器有 msnbot, Google的浏览器有googlebot,等。每个搜索引擎在访问日记录中,都有自己的浏览器标记。搜索引擎可能有多个浏览器标记,来标记不同搜索目的爬虫,如图片、文 本、音乐爬虫等。搜索引擎的访问记录,不能参加聚类,否则会对结果产生干扰。 在准备聚类数据时,要过滤掉搜索引擎爬虫的访问记录。B人为干扰正常人访问网站,都是通过IE、 Firefox等浏览器来访问,操作 是一个逐步、平缓的过程;如果是病毒或者黑客访问,都是通过程序 而不是浏览器来完成的,是一个连续、快速、较长的过程。其访问记 录,可以通过技术手段来加以识别。通过过滤模块,过滤一次访问持续时间大于参数设定步骤101中 设置的规定时间2小时访问记录;过滤一次访问PV,大于参数设定 步骤101中规定密度10个/分钟的记录;数据过滤后,存储在过滤后访问记录数据库104中;(3) 统计排序模块105读取过滤后访问记录数据库104中的记录,统计每个用户的Pi、 Si、 ti数值A计算Pi值统计用户Ui在规定时间内总的网页浏览PV值,也就是在P方 向上的数值Pi; B计算&值统计用户Uj在规定时间内的访问次数Session,也就是在S方向上的数值Si;C计算ti值。统计用户Ui在规定时间内总的访问时长Thne,也就是在T方 向上的数值ti; D排序对上面得到的Pi、 V ti序列,进行从小到大排序,排序后生成Uj表106;E形成空间点坐标得到所有用户本文档来自技高网...

【技术保护点】
网站用户等级划分方法,其特征在于:首先对访问记录进行过滤,统计每个用户在一定时间内访问浏览数P、访问次数S和访问持续时间总长度T,形成P、S、T三维空间,对用户进行聚类,由此对用户等级进行划分。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘峰
申请(专利权)人:辽宁般若网络科技有限公司
类型:发明
国别省市:89[中国|沈阳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1