一种网站用户访问路径的分析方法及系统技术方案

技术编号:10106586 阅读:315 留言:0更新日期:2014-06-01 21:10
本发明专利技术公开了一种网站用户访问路径的分析方法及系统,解决目前在大数据环境下如何利用网站用户访问路径分析来进行网站优化的问题。本发明专利技术的一种网站用户访问路径的分析方法及系统,提供了访问路径树生成及频繁路径挖掘方法,提及的用户访问路径分析是对这些访问站点的信息加以分析,从中对用户行为加以分析,分析各个环节的来源、转化、退出等等,来发现网站结构及页面内容中存在的缺陷与瓶颈,并从用户实际需要来加以改善,最终提升用户浏览转化率,提高用户体验与满意度。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种网站用户访问路径的分析方法及系统,解决目前在大数据环境下如何利用网站用户访问路径分析来进行网站优化的问题。本专利技术的一种网站用户访问路径的分析方法及系统,提供了访问路径树生成及频繁路径挖掘方法,提及的用户访问路径分析是对这些访问站点的信息加以分析,从中对用户行为加以分析,分析各个环节的来源、转化、退出等等,来发现网站结构及页面内容中存在的缺陷与瓶颈,并从用户实际需要来加以改善,最终提升用户浏览转化率,提高用户体验与满意度。【专利说明】 一种网站用户访问路径的分析方法及系统
本专利技术涉及网站分析领域,特别是一种网站用户访问路径的分析方法及系统。
技术介绍
在互联网产业高速发展的大环境下,各个网站之间竞争日趋激烈,数据以爆炸式的速度产生,能够将这些大数据转变为有价值的知识对于网站来说是至关重要的。对于网站来说,每天都有大量的用户点击网站的各个页面,这些点击行为一般被apache等服务器软件记录下来,保存于文本或数据库等数据源中。现在越来越多企业开始重视网站分析,根据分析结果来改进网站的建设,达到更好的效果。在这方面,积累了一些解决方案。专利“一种网站访问分析的系统”(申请专利号:CN200910082358.2),它是直接针对每个访问用户实时的交互引导,从而将用户访问的倾向实时分析出来,并根据预定的规则将用户分成不同群体,直接推进从用户到购买者的进程。专利“一种网站分析系统及方法和装置”(申请专利号:CN201210279722.6),它是提供一种基于“旁路镜像”的模式完成网站分析的数据采集,可以获得用户访问网站的原始数据包信息,经过有效的数据清理、筛选,获得完整的网站分析的数据报告。以上两个专利,一个是介绍日志采集的方法,一个是分析用户的点击行为,在用户访问路径这一方面尚未涉及,因此上述2种专利提出的方法在网站建设成熟后,无法再凭经验去做一些深层次的优化。在当今互联网飞速发展的今天,对网站访问者的访问行为越来越重视,因为访问者的访问行为中隐含有访问者的兴趣、爱好、习惯等因素,如果能正确的把握这些因素,对互联网发展是非常有帮助的。而对用户访问路径的分析是获取访问者访问行为的一个非常关键的途径。
技术实现思路
本专利技术在此背景下,提及的用户访问路径分析是对这些访问站点的信息加以分析,从中对用户行为加以分析,分析各个环节的来源、转化、退出等等,来发现网站结构及页面内容中存在的缺陷与瓶颈,并从用户实际需要来加以改善,最终提升用户浏览转化率,提高用户体验与满意度。专利技术人经过实践最终总结出一种网站用户访问路径的分析方法及系统。本专利技术提供一种网站用户访问路径的分析方法及系统,解决目前在大数据环境下如何利用网站用户访问路径分析来进行网站优化的问题。本专利技术采用的技术方案为:一种网站用户访问路径的分析方法,其特征在于提供了访问路径树生成及频繁路径挖掘方法,包括:步骤一:从业务系统、文本等相关数据源将数据抽取出来,去除掉其中的噪音异常数据,保留用户点击数据。步骤二:一般日志中每次点击都会包含referer与request, request记录为每次点击对应的请求页面,而referer指点是每次点击是从哪个页面链接过来的。对于清洗后的数据,由于访问来源referer与当前请求request的记录格式并不一致,后期直接匹配难以进行,因而需要转化,可以以referer的格式为基准,将request转化为完整的url格式,这样后期可以直接将referer与request进行匹配。另外,为了可以支持后续不同粒度的分析,可以按照页面的类型将访问页面划分为首页、搜索页面、目录页面、产品页面等等。步骤三:由于用户浏览网站时不一定都在登录状态,这时对用户身份的识别是非常重要的。根据用户访问网站时的email、cookie、ip等信息,对每一个访问的用户进行身份识别,识别的依据权重为email>C00kie>ip,将每一条访问记录对应到某个用户,最终将用户身份识别的数据存储到数据仓库中。步骤四:在最大向前路径算法的基础上,结合数据库在处理、匹配数据方面的特性,通过改写最大向前路径算法,将用户访问网站的点击数据生成路径树,步骤如下:I)先将访问记录按照用户、点击时间进行排序,对于每个用户来,其首次点击作为一颗新树的树根,节点值为request的值;2)依照时间顺序读取后面的referer_i与request_i,将referer_i与已生成的树中节点request进行匹配,匹配上的作为该匹配节点的子节点,子节点值为request」的值;3)若referer_i与树中所有的request都无法匹配,则重新生成一颗新树,该次点击作为该新树的根,值为request」的值;4)重复2) -3)步, 直到该用户所有点击记录都循环一遍;5)依此最终生成该用户访问网站的路径树,将树存储到数据仓库中,可以加以利用,分析各个环节间的转化率。步骤五:对于生成的树,为方便进行重点路径分析,在Apriori算法的基础上,加入节点之间的序列特性,通过改写Ap r i ο r i算法,可以进一步挖掘出用户访问的频繁路径图,步骤如下:I)找到包含2个页面的频繁路径集2)循环:通过k频繁集之间的关联串接,生成k-Ι频繁集。这样可以得到用户访问的频繁路径图,可以分析得到网站的主要路径,结合路径上各个环节的转化率,就可以对网站的结构、内容等进行优化。其中,转化率指某一页面到另一页面的访问次数,与某一页面被访问总次数的比率。步骤六:从频繁路径出发,寻找转化率较低的环节,分析不足的原因:?中间环节的页面存在的必要性低,影响访问者不断深入的访问;?页面布局不突出,造成访问者寻找目标困难;?内容组织不合理,导致访问者无兴趣进一步访问;?页面缺乏符合访问者兴趣的个性化推荐链接,增加了访问者寻找目标的代价。根据具体的原因,可以指导网站建设者有针对性的解决问题,提高网站的品质。本专利技术公开一种网站用户访问路径分析系统,包括:数据源模块、网站日志预处理模块、访问路径树生成模块、频繁路径图挖掘模块、网站优化机会发现模块。所述数据源模块,用于记录用户访问网站时留下的基础数据,作为整个路径分析系统的数据来源,主要是网站用户访问日志,还包括来自于业务系统、文本文件或其它数据结构源。所述网站日志预处理模块,用于对数据源中基础数据进行清洗、格式转换、识别等处理,最终存放到数据仓库中。其中包括三个子模块:数据清洗子模块、格式转换子模块、用户识别子模块。所述数据清洗子模块,对基础数据中的噪音异常进行处理,包括爬虫数据、被动请求链接(图片)、异常IP访问数据等等。所述格式转换子模块,用于对访问来源referer与当前请求request进行格式转化与分类,便于后续路径树的生成与支持不同粒度的分析。所述用户识别子模块,用户浏览网站时无论登录与否,都能识别出其唯一的身份,一般通过其cookie、ip或其所留的手机、邮箱等进行识别。所述访问路径树生成模块,用于将预处理完成的数据转化为访问路径树,存储到数据仓库中。所述频繁路径图挖掘模块,用于从访问路径树中挖掘出用户的频繁访问路径,存储到数据仓库中。所述网站优化机会发现模块,从访问路径树与频繁访问路径图中,分析网站各内容及本文档来自技高网
...

【技术保护点】
一种网站用户访问路径的分析方法,它提供了访问路径树生成及频繁路径挖掘方法,其特征在于,具体步骤包括:步骤一、从业务系统、文本相关数据源将数据抽取出来,去除掉其中的噪音异常数据,保留用户点击数据;步骤二、一般日志中每次点击都会包含referer与request,request记录为每次点击对应的请求页面,而referer指点是每次点击是从哪个页面链接过来的;对于清洗后的数据,以referer的格式为基准,将request转化为完整的url格式,以便后期将referer与request进行匹配;步骤三:根据用户访问网站时的email、cookie、ip信息,对每一个访问的用户进行身份识别,识别的依据权重为email>cookie>ip,将每一条访问记录对应到某个用户,最终将用户身份识别的数据存储到数据仓库中;步骤四:在最大向前路径算法的基础上,结合数据库在处理、匹配数据方面的特性,通过改写最大向前路径算法,将用户访问网站的点击数据生成路径树;步骤五:对于生成的路径树,在Apriori算法的基础上,加入节点之间的序列特性,通过改写Apriori算法,进一步挖掘出用户访问的频繁路径图;步骤六:从频繁路径出发,寻找转化率较低的环节,分析不足的原因;根据具体的原因,指导网站建设者有针对性的解决问题,提高网站的品质。...

【技术特征摘要】

【专利技术属性】
技术研发人员:房鹏展徐晓冬陈静
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1