当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于k阶混合马尔可夫模型的Web页面访问预测方法技术

技术编号:6890158 阅读:205 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于k阶混合马尔可夫模型的Web页面访问预测方法,首先收集和整理Web服务器访问日志数据,识别客户端和用户,排除无意义的访问数据;再识别用户会话,组建Web日志数据库;并根据预测目标从数据库中选取日志数据,以会话为单位组织(k+1)元组,用于训练k阶混合马尔可夫模型;采用最大期望算法学习和校准k阶混合马尔可夫模型的参数集;根据目标用户页面访问操作识别会话,应用上述模型预测用户下一步访问的Web页面。本发明专利技术可向用户推荐需要访问的页面,减少页面访问的延迟,优化用户体验;从Web服务器角度可以改善Web页面的组织结构,指导搜索引擎的结果排序,改进页面缓存机制,从而提高服务质量。

【技术实现步骤摘要】

本专利技术涉及Web页面访问的个性化预测技术,特别针对互联网时代Web服务器信息越来越庞大和复杂,用户访问量越来越大的情况;需要根据用户的访问特点确定用户下一步可能访问的页面,帮助用户更快更好的找到所需要的信息;同时辅助Web服务器预先缓存用户需要的页面,改善页面链接结构,从而提高服务器访问效率。
技术介绍
伴随着互联网的快速发展,万维网(World Wide Web)已成为一个世界范围内的超媒体信息获取平台,人们越来越依赖于Web来获取各种信息,而浏览Web也已成为人们日常生活的一部分。一个完整的Web应用包括Web服务器、客户端浏览器、完成客户端和服务器间通信的HTTP协议、用于描述Web页面的超文本标记语言HTML和统一资源定位符URL。随着Web应用规模的不断扩大,Web服务器上所包含的页面越来越多,Web页面的组织结构也越来越复杂。用户很容易迷失在信息的海洋里。如何能让用户更快更好地找到自己所需要的信息;让Web服务器能够根据用户使用习惯提供个性化服务以提升服务质量,成为目前 Web应用领域需要解决的问题。
技术实现思路
本专利技术所要解决的技术问题是提供一种根据用户历史访问特征来对Web访问进行预测的方法,同时能够根据用户当前的访问情况,预测或推荐用户下一步将要访问的页面(集合)。为实现上述目的,本专利技术采用如下的步骤1)首先收集和整理Web服务器访问日志数据;针对日志中的每一项访问记录,识别客户端浏览器和用户;排除无意义的访问数据,如机器人和爬虫等自动程序对Web服务器的访问记录、非页面访问记录等,根据记录析取访问操作ο = <u,X,t>,其中u表示用户、 χ表示Web页面、t表示页面访问时间;2)然后识别用户会话S,用于组建Web日志数据库,储备用于Web页面访问预测的历史数据;3)根据预测目标从数据库中选取和组织日志数据,按会话整理和组织(k+Ι)元组集合;4)建立k阶混合马尔可夫模型,并采用最大期望算法 (Expectation-Maximization)训练该k阶混合马尔可夫模型,再基于数据集X学习和校准 k阶混合马尔可夫模型的参数集;5)基于目标用户对Web页面的访问操作,识别最近的用户会话,应用训练后的k阶混合马尔可夫模型预测用户下一步访问的Web页面。上述步骤2)中识别用户会话的过程是令会话S = {0l,O2, ... , oj,令会话S中所有操作Oi的执行用户相同;然后根据前一访问操作Oi = <u,Xi, t,>发生的时间ti以及所访问的页面Xi,判定下一操作0i+l = <u,xi+1,ti+1>是否属于同一会话S,该判定基于以下三个条件·页面Xw由页面Xi引用,即的URL包含于页面Xi中; 页面Xi+1由会话S中所访问过的除Xi之外的其他页面、引用,如< i,对应的访问操作Oj e S),且、和ti+1的时间差小于会话阈值(如30分钟);·页面没有被会话S中所访问过的页面引用,但前一操作、和的时间差小于页面阈值(如5分钟)。如果满足上述条件之一,则判定操作oi+1属于会话S ;否则操作oi+1开启一个新的会话。上述步骤4)中k阶混合马尔可夫模型由k个状态转移矩阵{ A1, A2,...Ak}和一个权值向量A= (Q1, Q2,...,QkI组成。令Web服务器中页面总数为n,则转移矩阵Aj 是一个nXn矩阵,其元素λ^χ,γ)表示页面χ被访问后,页面y在同一会话中间隔j个页面后被访问的概率,即条件概率P (xk+11 xk_J+1),其中页面和xk+1分别等同于页面χ和y。k阶混合马尔可夫模型中k个状态转移矩阵中所有n2k个元素,以及权值向量A中的k个权值,构成模型需要训练的参数集。按步骤4),给定数据集X,采用最大期望算法学习和校准这些参数。首先计算各参数的初值,权值向量A中元素的初值为权利要求1.,其特征在于包含以下步骤1)首先收集和整理Web服务器访问日志数据,针对日志中的每一项访问记录,识别客户端浏览器和用户;排除无意义的访问数据;根据每一项记录析取访问操作ο = <u,χ, t>, 其中u表示用户、χ表示Web页面、t表示页面访问时间;2)识别用户会话S,用于组建Web日志数据库,储备用于Web页面访问预测的历史数据;3)根据预测目标从数据库中选取和组织日志数据,按会话整理和组织(k+Ι)元组集合;4)建立k阶混合马尔可夫模型,并采用最大期望算法训练该k阶混合马尔可夫模型,再基于数据集X学习和校准k阶混合马尔可夫模型的参数集;5)基于目标用户对Web页面的访问操作,识别最近的用户会话,应用训练后的k阶混合马尔可夫模型预测用户下一步访问的Web页面。2.根据权利要求1所述的基于k阶混合马尔可夫模型的Web页面访问预测方法,其特征在于步骤1)所述的无意义的访问数据包括排除非页面访问记录、以及由爬虫等自动程序产生的访问记录。3.根据权利要求1或2所述的基于k阶混合马尔可夫模型的Web页面访问预测方法, 其特征在于步骤2)的识别用户会话的过程是令会话S = {0l,O2,... , 0l},所有操作Oi的执行用户相同,然后根据前一访问操作Oi = <1!,^,、>发生的时间ti以及所访问的页面Xi, 判定下一操作0i+1 = <u,xi+1, ti+1>是否属于同一会话S,该判定基于以下三个条件 页面Xw由页面Xi引用,即Xw的URL包含于页面Xi中; 页面xi+1由会话S中所访问过的除Xi之外的其他页面、引用,且、和ti+1的时间差小于设定的会话阈值; 页面xi+1没有被会话S中所访问过的页面引用,但前一操作、和的时间差小于设定的页面阈值。如果满足上述条件之一,则判定操作oi+1属于会话S ;否则操作开启一个新的会话。4.根据权利要求1或2所述的基于k阶混合马尔可夫模型的Web页面访问预测方法, 其特征在于步骤3)中按照预测目标选取和组织日志数据的流程是首先基于预测目标选定用户并获取会话数据;然后以会话为单位抽取(k+Ι)元组1 = <^,&,...,&,&+1>,每一个(k+Ι)元组属于同一个会话,包含会话中用户连续访问的一组页面;相邻两个(k+Ι)元组的访问页面允许部分重叠;最后所有(k+Ι)元组构成一个数据集合Xz^P^X^iXm}。5.根据权利要求4所述的基于k阶混合马尔可夫模型的Web页面访问预测方法,其特征在于步骤4)中采用最大期望算法训练k阶混合马尔可夫模型的流程是k阶混合马尔可夫模型由k个状态转移矩阵(A1, A2, ... AJ和一个权值向量A = {α17 α2,..., α J组成,令Web服务器中页面总数为η,则转移矩阵\是一个ηΧη矩阵,其元素λ」(χ, y)表示页面χ被访问后,页面y在同一会话中间隔j个页面后被访问的概率,即条件概率 P (Xk+11 xk-J+1),其中页面Xk-M和Xk+1分别等同于页面X禾P y ;k阶混合马尔可夫模型中k个状态转移矩阵中所有n2k个元素,以及权值向量A中的k个权值,构成模型需要训练的参数集;首先给定数据集X,计算各参数的初值,权值向量A中元素的初值为6.根据权利要求5所述的基于本文档来自技高网...

【技术保护点】
1.一种基于k阶混合马尔可夫模型的Web页面访问预测方法,其特征在于包含以下步骤:1)首先收集和整理Web服务器访问日志数据,针对日志中的每一项访问记录,识别客户端浏览器和用户;排除无意义的访问数据;根据每一项记录析取访问操作o=(u,x,t),其中u表示用户、x表示Web页面、t表示页面访问时间;2)识别用户会话S,用于组建Web日志数据库,储备用于Web页面访问预测的历史数据;3)根据预测目标从数据库中选取和组织日志数据,按会话整理和组织(k+1)元组集合;4)建立k阶混合马尔可夫模型,并采用最大期望算法训练该k阶混合马尔可夫模型,再基于数据集学习和校准k阶混合马尔可夫模型的参数集;5)基于目标用户对Web页面的访问操作,识别最近的用户会话,应用训练后的k阶混合马尔可夫模型预测用户下一步访问的Web页面。

【技术特征摘要】

【专利技术属性】
技术研发人员:顾庆任颖新汤九斌陈道蓄
申请(专利权)人:南京大学
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1