用于重建网上内容的方法和数据处理系统技术方案

技术编号:2820960 阅读:263 留言:0更新日期:2012-04-11 18:40
提供一种用于重建包括多个网页的Web内容的方法和数据处理系统。该方法包括生成包括网页历史记录的日志文件的步骤。网页历史记录包括已经由用户从多个网页选择的所有网页。利用网页历史记录为每个选择的网页确定访问频率。确定包括已经由用户用最大访问频率访问的网页的网页子集。该子集限于最大数目的网页。多个网页通常以树形结构安排。该树形结构源于起始网页。包括在网页子集中的网页链接到直接链接到起始网页的小门户、或同样直接链接到起始网页的在当用户访问用户特定的特殊网页时的时间点确定的网页子集。根据本发明专利技术的方法特别有利,因为它允许用户直接访问离起始网页几次点击远的网页。因而为到达他的喜好网页他不必点击通过许多网页。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般涉及用于重建Web (网上)内容的方法和数据处理系统,并 且尤其涉及用于重建Web内容以便增加Web内容的可用性的方法和数据处理 系统。
技术介绍
Web内容通常由多个网页组成。术语Web内容这里通常指万维网的内容, 以及公司的内联网的内容或指门户(portal)的内容。在本上下文中,术语门 户指通过Web浏览器的使用可访问的任何种类的网页。构成Web内容的多个 网页的各网页通常以树形结构安排,该树形结构通常源于起始网页。典型的情景是用户访问他的公司的内联网或处于相应的起始网页的门 户。为了访问他喜好的网页之一,他可能不得不点击通过许多其它的网页, 以便从起始网页到达他喜好的网页之一。例如如果用户负责他的公司的子单 位的管理,则他喜好的网页之一可能是他通过其能够管理该子单位的网页。 该网页可能正好位于树形结构中这样的位置,使得用户不得不点击通过许多 其它的网页以便达到该网页。内联网或门户的静态结构不识別用户的行为, 并且不重新安排各网页以便缩短用户未来不得不走过该树形结构的路径。用 户可能不得不点击通过许多其它的网页直到他到达他喜好的网页的原因可能 是他是使用该网页的唯一用户,而管理员因此已经决定将该网页放置于树形 结构中远离起始网页的位置。系统管理员不能实现多个网页的拓朴的"完美安排"。他不能以使得所有 用户的要求被满足的方式安排各网页。系统管理员不了解也没有时间基于用 户的希望来做,此外用户的行为也可能随着时间改变。因此存在对用于重建Web内容的改进的方法和数据处理系统的需要。
技术实现思路
本专利技术提供一种重建Web内容的方法,其中Web内容由多个网页组成,并且其中该方法包括生成日志文件的步骤。该日志文件包括各网页的历史记录(history),并且各网页的历史记录包括已经由用户从多个网页选4奪的所有 网页。该方法还包括为由用户选择的每个网页确定访问频率的步骤。访问频 率通过使用网页的历史记录确定。然后确定各网页的子集。各网页的子集包 含最大数目的网页。该最大数目的网页是预定的。各网页的子集包含具有最 大访问频率的网页。因而在该日志文件中收集了已经由用户访问的各网页的历史记录。为每 个网页确定访问频率。通过^^用已经为每个网页确定的访问频率,确定用户 最经常访问的各网页。存在分配到各网页子集的最大数目的网页。该网页的 子集包含给定数目的由用户最频繁访问(visit)或访问(access)的网页。因此根据本专利技术的方法通过解析和分析日志文件确定用户喜好的网页, 该用户喜好的网页是包括在各网页子集中的网页。给定的数目是指定但可配 置的数目。根据本专利技术的实施例,多个网页以树形结构安排,其中该树形结构源于 起始网页,其中各网页的子集由用户从小门户(portlet)可访问,其中该小门 户链接到起始网页。因而,该网页的子集现在由用户直接从小门户可访问, 该小门户离起始网页仅一次点击。因此根据本专利技术的方法是特别有利的,由 于它允许用户直接从小门户直接访问他喜好的网页,他能够从起始网页直接 访问该小门户。因此为了到达他喜好的网页之一,他不必点过所有其它网页。根据本专利技术实施例,多个网页以树形结构安排,其中该树形结构源于起 始网页,其中用户特定的特殊网页链接到该起始网页,其中各网页的子集在 当用户访问该用户特定的特殊网页时的时间点确定,其中为包括在网页子集 中的每个网页分配临时标签,其中每个临时标签链接到该用户特定的特殊网 页,并且其中该用户能够经由对应的临时标签访问各网页的子集。各网页的 子集在当用户访问该用户特定的特殊网页时的时间点确定。这确保该各网页 子集总是包含由用户最频繁访问的各网页,该网页的子集通过已经为已经由 用户访问的每个网页确定的访问频率的使用来确定。那么用户能够直接从该 用户特定的特殊网页访问该网页的子集。因此为了到达他喜好的网页之一 , 他不必点过所有其它网页。根据本专利技术实施例,多个网页以树形结构安排,其中该树形结构源于起 始网页。转换被附加到起始网页。各网页的子集在当用户访问该起始网页时的时间点确定。通过使用该转换确定网页的动态子模型,由此该网页的子集 由所述用户从该起始网页可访问。根据本专利技术实施例,多个网页包括在门户中。当经由该门户访问多个网 页时,根据本专利技术的方法是特别有利的。因为由该门户提供的各应用和服务 可能由多类用户可访问,所以根据本专利技术的方法提供了动态安排该门户的结 构的方法,由此每个用户的特定需要被满足。根据本专利技术实施例,该门户包括日志记录(logging)组件、解析组件和 可视化组件,其中日志记录组件用于日志文件的生成,其中解析组件用于语 义地分析该日志文件,并且其中可视化组件用于门户中的页面子集的可视化。根据本专利技术实施例,该日志记录组件是Tivoli的站点分析工具,并且该 日志文件是组合NSCA的访问日志文件。根据本专利技术实施例,网页的访问频率由用户访问网页的次数或由用户花 在该网页上的时间测量。考虑用户花在网页上的时间的访问频率具有这样的 优点,由用户仅为了访问另 一个网页而使用的网页通常不具有高的访问频率。才艮据本专利技术实施例,如果没有从网页访问其它网页,则只为该网页确定 访问频率。因而不为由用户访问只是为了浏览另一个网页的网页确定访问频 率。这具有只有由用户实际使用的网页被分配到网页子集的优点。在另一个方面,本专利技术涉及一种计算机程序产品,包括用于执行根据本 专利技术方法的计算机可执行指令。在另 一个方面,本专利技术涉及一种用于从多个网页中识别用户特定的喜好 网页的数据处理系统。该数据处理系统包括用于生成日志文件的装置。该日 志文件包括各网页的历史记录,并且各网页的历史记录包括已经由用户从多 个网页选择的所有网页。该数据处理系统还包括用于为由用户选择的每个网 页确定访问频率的装置。该访问频率通过使用各网页的历史记录来确定。该 数据处理系统还包括用于确定网页的子集的装置。该网页的子集包括最大数 目的网页。该最大数目是预定的并且网页的子集包含具有最大访问频率的网 页。附图说明随后,通过参照附图将更详细地描述本专利技术的优选实施例,附图中: 图1显示用于重建Web内容的数据处理系统的方块图2显示图示用于重建Web内容的各基本步骤的流程图3显示描述用于重建Web内容的各步骤的流程图4显示图示用于重建Web内容的各步骤的流程图5显示由以树形结构安排的多个网页组成的Web内容的方块图6显示用于空中交通管理的门户的起始网页;图7显示用户能够通过其访问网页的子集的门户的网页;图8描述用户能够从其访问他喜好的网页的门户的网页;图9显示用户能够通过其访问网页的子集的门户的网页;图10描述用户能够从其访问他喜好的网页的门户的网页。具体实施例方式图1显示用于重建Web内容106的数据处理系统的方块图。该数据处理 系统包括计算机系统100,该计算机系统100包括屏幕102、微处理器108、 非易失性存储器设备110、易失性存储器设备112、键盘160、鼠标126、以 及网络卡128。计算机系统100例如能够是利用网络卡128连接到服务器154 的客户端计算机。浏览器104在屏幕102上可视化。Web内容106能够通过网络卡128的 使用从服务器154加载到计算机系统100,并且在浏览器104内可本文档来自技高网...

【技术保护点】
一种重建Web内容(104)的方法,所述Web内容(104)包括多个网页(130、…、150),所述方法包括: 生成日志文件(122),所述日志文件(122)包括各网页的历史记录(124),所述各网页的历史记录(124)包括由用户从所述多个网页(130、…、150)选择的所有网页(130、…、144); 为由所述用户选择的每个网页(130、…、144)确定访问频率(156),所述访问频率(156)利用所述各网页的历史记录(124)确定; 确定网页的子集(162),所述网页的子集(162)包含最大数目(158)的网页,所述最大数目(158)是预定的,所述网页的子集(162)包含具有最大访问频率(156)的网页。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:斯蒂芬利希安德烈亚斯诺尔兹
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1