一种基于连续时间马尔科夫链的网站导航性实现方法技术

技术编号:3961474 阅读:641 留言:0更新日期:2012-04-11 18:40
基于连续时间马尔科夫链的网站导航性实现方法采用连续时间马尔科夫链为用户访问行为建模,以期对网站的导航性和网页的重要性做更接近实际情况的评价。网站导航性在网站设计、改进和质量评价方面受到越来越多的重视。基于连续时间马尔科夫链的网站导航度量不但考虑了网站的链接结构,还考虑了了网页内容好坏对导航性的影响。通过对用户日志的分析获取用户在网页上访问时序及停留时间,在此基础上建立连续时间马尔科夫的嵌入链模型和用户停留时间的指数分布模型,综合两种模型得到连续时间马尔科大链模型,最终得到基于连续时间马尔科夫链模型的网站导航性度量。本发明专利技术具有比已有的度量方法更好的网站导航性评价效果。

【技术实现步骤摘要】

衡量网站设计好坏的一个重要指标是其导航性,本专利技术设计了一个更加合理的基于连续时间马尔科夫链的网站导航性计算方法,属于Web度量领域。
技术介绍
Internet上的网页以超链接的形式组织,访问网站的用户通过网页之间的链接关系从一个网页转到另一个网页。网站的超链接拓扑结构大体上包括这四种线性结构,严格的层次结构,混合结构,非线性结构。线性结构自不用说,严格的层次结构,网页通过链接关系组成严格的层次关系,位于某个层次下的网页只能直接链接到该层次的最近上层或最近下层的网页。混合结构,是在严格层次结构的基础上,添加了一些交叉链接,交叉链接可以从某个层次到达任意层次。非线性结构,完全没有网页层次的概念,根据需要,任意两个网页之间都可以存在链接关系。在文献中,Mohageg比较了严格的层次、混合、非线性这三种结构的网站,发现从非线性结构的网站获取信息最难。McDonald和Stevenson’s研究发现在混合结构的网站上查找信息需要的时间最短,用户在严格的层次和非线性结构的网站上容易失去方向。 网站的链接结构,网站信息的分配、组织,浏览器的辅助导航措施,以及用户对网站的熟悉程度,决定了用户访问网站获取所需信息的难易程度。把用户访问某个网站获取所需信息的难易程度叫做这个网站的导航性。改善网站的导航性主要是改善网站的链接结构和网站信息的分配、组织,它们是网站的固有性质,是影响网站导航性的关键因素。为了改善网站的导航性,需要设计衡量网站导航性的指标。这样在设计网站时,才能对网站的导航性能要达到怎样的标准有一个定量的认识,或者在此基础上考察网站是否需要改进以及怎样改进等等。 用定量指标衡量网站的结构好坏是非常困难的。现有的一些指标,如从主页出发的最短路径,网页数量,超链接数量等简单描述了网站的一些特点。Compactness度量网站链接边的充足程度,Stratum则给出网站链接结构线性化的程度。Yamada等提出了DNav,度量从主页到达目标网页的复杂度和网站给予用户的认知负担,在评价网站导航性时融入用户的感受。周毓明等人认为用户对信息的认知反应在他的行动中,因此网站的导航性可以从用户动态浏览行为的特点来反映。他们把用户的浏览行为描述为一个离散时间的齐次马尔科夫链,其中网页作为状态,并增加了一个标志会话以失败结束的中止状态,求出这些状态的平稳分布。其中,中止状态的平稳分布概率表明访问该网站时会话失败的概率,用1减去此值作为网站的导航性指标,这个指标叫做MNav。RakeshGupta等人通过用户会话点击的网页总数与其内容网页数之比来判断网站链接结构的优劣,他们设计了三个指标Corig,Cfeas,Copt。 DNav,MNav,Corig等指标均考虑了用户访问网站的实际感受或表现。DNav注意到位于同-层的两个网页的链接与位于不同层的网页的链接带给用户的负担不同。MNav在计算网页之间的转移概率时,采用用户行为习惯参数与网站链接结构结合的方式,并且考虑了浏览器的辅助导航措施,以期望更加接近网站使用的实际情况。Corig,Cfeas,Copt虽然是在用户访问日志的基础上计算的,但本质却是只评价网站链接结构的好坏。相比MNav,这些指标主要考察网站的结构复杂度,没有直接度量用户查找信息的难易程度,然而网站结构对用户查找信息的影响很难说清楚,这些指标使用起来很不方便。MNav则直接度量了在一个网站查找信息的难易程度。 研究发现,现有的导航性指标侧重衡量网站的链接结构,很少反应网站信息的组织即网页内容对用户访问网站的影响。评价网站导航性的目的是改善网站链接结构、信息组织等,但现有的指标没有考虑网页的重要性,因此无法给出改进的方向。我们发现,基于离散马尔科夫链计算MNav指标的时候,可以算出网页的重要性,从而可以有针对的对网站链接、网页内容进行调整。在文献中结合了用户行为习惯参数和网站链接结构计算转转移概率,但是,没有考虑网页内容对用户的影响。用户在网页的停留时间可以反映网页内容对用户的影响。 MNav是基于离散马尔科夫链模型计算出来的,网页之间的转移概率结合用户浏览行为习惯和网站链接结构计算,这样就使得平稳分布只依赖于用户行为习惯和链接结构。网页的平稳分布概率体现了网页的重要性,实际上停留时间也可以反映网页重要性,因为停留时间体现了网页内容的好坏。所以若采用连续时间马尔科夫链为用户访问行为建模,那么对网站的导航性和网页的重要性做出的评价会更合理。为了跟MNav区别,把基于连续时间马尔科夫链模型的导航性指标记作CMNav。MNav和CMNav都是基于马尔科夫链模型的导航性指标,因此在计算它们的同时还可以算出网页的重要性,这一点对于改善网站的导航性非常重要,这也是我们改进MNav的原因之一。 本专利技术依赖于有效的会话分析算法,包括划分会话和判断一个会话是否成功,以及求解矩阵特征值的幂法。 Zhou,Y.M.,Leung,H.,Winoto,P.,“MNavA Markov model-based web site navigabilitymeasure,”IEEE Transactions on Software Engineering,vol.33,no.12,pp.869-890,2007. Locatis,C.,Letourneau,G.,Banvard,R.,‘Hypermedia and instruction,’EducationalTechnology Research and Development,vol.37,no.4,pp.65-77,1989. M.Mohageg,“The Influence of Hypertext Linking Structures on the Efficiency of InformationRetrieval,”Human Factors,vol.34,no.3,pp.351-367,1992. S.McDonald and R.Stevenson,“Effects of Text Structure and Prior Knowledge of theLearner on Navigation in Hypertext,”Human Factors,vol.40,no.1,pp.18-27,1998. Botafogo,R.,Rivlin,E.,and Shneiderman,B.,“Structural Analysis of HypertextsIdentifyingHierarchies and Useful Metrics,”ACM Trans.Information Systems,vol.10,no.2,pp.142-180,1992. De Bra,P.,Houben,GJ.,“Hypertext metrics revisitedNavigational metrics for static andadaptive link structures,”Department of Computing Science,Eindhoven University of Technology,Eindhoven,Netherl本文档来自技高网...

【技术保护点】
一种基于连续时间马尔科夫链的网站导航性实现方法,其特征在于该方法具体包括如下步骤:步骤1):建立用户访问行为的连续时间马尔科夫链模型以及它对应的嵌入式离散马尔科夫链;步骤2):使用网页爬虫工具收集一个网站的链接边,构建链接关系图;主要是一个链接关系矩阵,其矩阵元素表示网页间是否存在链接,简单的说,一个链接关系图就是用结点表示网页,用有向边表示网页之间的超链接;步骤3):以会话为单位划分用户访问日志;步骤4):遍历会话集合,统计网页的平均停留时间,生成网页之间的点击关系图,该图用一个点击关系矩阵表示,矩阵元素表示网页间转向的次数;步骤5):根据上述链接关系图,点击关系图以及网页平均停留时间估计网页之间的转移概率和每个网页上的转移速率;步骤6):利用幂法先计算嵌入式离散马尔科夫链的平稳分布,再计算原始模型的平稳分布,步骤7):计算连续时间马尔科夫链的平稳分布。

【技术特征摘要】

【专利技术属性】
技术研发人员:张卫丰刘霞张迎周周国强陆柳敏许碧娣朱丹梅陆柳清
申请(专利权)人:南京邮电大学
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1