对计算机网络中的资源内容构建索引的方法和设备技术

技术编号:4246166 阅读:220 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种对计算机网络中的资源内容构建索引的方法和设备,所述计算机网络包括作为搜索引擎的计算机和作为资源内容站点并且存储有用户的资源内容的计算机,所述方法包括以下步骤:判断所述资源内容是否链接有由所述用户定义的索引代码,所述索引代码用于处理所述资源内容以获得描述所述资源内容的信息;如果判断所述资源内容链接有由所述用户定义的索引代码,则运行所述由用户定义的索引代码,以获得描述所述资源内容的信息作为索引结果。

【技术实现步骤摘要】

本专利技术涉及搜索引擎技术,尤其涉;M计算机网络中的资源内^j建 索引的方法和设备。
技术介绍
随着计算机和互联网技术的iCA,搜索引擎已经成为Web客户机(例 如计算机)使用者获取信息的重要方式。传统的搜索引擎例如有Inktomi, Excite, Lycos, Infoseek或FAST等,包括在互联网和搜索器服务器之间 发送和接收信息包的路由器、索引服务器和网络服务器。搜索引擎使用搜 索器(WEB爬虫或称为掩蛛、机器A^序)定期地访问通过URL定位 的网页资源,提取出其中的文本信息和其它相关网页属性,并储存该信息 以4吏得索引服务器可以处理检索到的数据。所述索引服务器解析这些文档 并通过应用索引算法创建文档索引,通常是根据每个文档所包含的关键字 和其它属性来创建有优先级的索引。网络服务器包括搜索程序,用于处理针对搜索引擎的搜索请求。 一般, 基于用户通过向搜索引擎提供的感兴趣的关键字,搜索程序根据用户提供 的关键字通过索引器检索事先建立好的索引数据库来生成提供给用户的 关键字结果页面,来帮助用户发现和访问新的统一资源地址,,(URL)。为建立搜索索引,搜索引擎使用了不同种类的算法来创建索引。对于 现代的搜索引擎,它们使用文档内容和链接信息(例如Google的网页级 别)二者来建立索引。当搜索引擎试图找到对用户查询最相关的文档时, 则对文档索引应用搜索算法然后返回匹配的结果。因此基本上,搜索引擎将使用同样的算法集来为文档排序,而最重要 的是,该算法是由搜索服务的提供者(例如Google或Yahoo)自己设计 和维护的。对于Web内容的所有者而言,他们所能提供的仅仅是网页, 而让搜索引擎根据网页的内容决定文档索引如何建立。WO2001027793提出在各远程服务器设置代理程序,使用该代理程序为每个远程服务器所属的所有计算机产生搜索引擎更新信息,由此可以减小中心索引服务器的工作负荷并提高效率.根据W02001027793,所述代 理程序仍然使用由搜索服务提供者提供的、与搜索引擎侧完全相同的索引 算法。
技术实现思路
考虑到现有技术的搜索引擎都是提供控制的索引,本专利技术的目的是提 出一种不同的搜索引擎搜索引技术,旨在提供涉及用于Web搜索的用户 贡献的索引。具体地,本专利技术利用了由用户自定义的索引算法,以期提 高索引质量和搜索质量。根据本专利技术的一个方面, 一种用于对计算机网络中的资源内^建索 引的方法,所述计算机网络包括作为搜索引擎的计算机和作为资源内容站 点并且存储有用户的资源内容的计算机,所述方法包括以下步骤判断所述资源内容是否^^有由所述用户定义的索引代码,所述索引 代码用于处理所述资源内容以获得描述所述资源内容的信息;和如果判断所述资源内容链接有由所述用户定义的索引代码,则运行所 述由用户定义的索引代码,以获得描述所述资源内容的信息作为索引结 果.如果判断所述资源内容未链接有所述用户定义的索引代码,则使用预 定的索引器(即由搜索服务提供者提供的索引算法)对所述资源内M建 索引,这种情况下则与传统的在所述搜索引擎侧或资源内容站点侧进行的 受控索引相似。当本专利技术的方法在搜索引擎侧进行的情况下,所述方法还包括在判 断所述资源内容是否链接有所述用户定义的索引代码的步骤之前,将所述 资源内容及其链接的相关信息下栽到所述搜索引擎。优选地,所述用户定义的索引代码一般由脚本文件来实现,相应i^ 行所述用户定义的索引代码的步骤是通过调用脚本引擎实现的。判断所述资源内容是否链接有所述用户定义的索引代码的步骤是通 过解析所述资源内容并mst所述资源内容链接的相关信息而实现的。另外,当本专利技术的方法在资源内容站点侧进行的情况下,需要预先在资源内容站点侧判断对所述资源内容的访问是来自所述搜索引擎的搜索器的访问还是一般浏览者的访问;如果是来自所述搜索引擎的搜索器的访 问,则进一步执行所述判断资源内容是否链接有所述用户定义的索引代码 的步骤。所述用户定义的索引代码描述了所述用户对所述资源内容中的索引 项的自定义权重,并且所述索引项也可由所述用户选择。优选地,所述用项并对所述索引项赋予权重值而实现的.为方便用户完成自定义的索引代码,可允许用户基于代码模板来完成 索引代码。所述代码模M应于所述资源内容的内^^板。根据本专利技术的另 一个方面, 一种用于对计算机网络中的资源内容构建 索引的设备,所述计算机网络包括作为搜索引擎的计算机和作为资源内容 站点并且存储有用户的资源内容的计算机,所述设备设置在所述搜索引擎 侧并包括判断装置,被配置成接收所述搜索引擎的索引器下载的所述资源内容 及其链接的相关信息,并判断所述资源内容链接的相关信息是否包含由用 户定义的索引代码,所述索引代码用于处理所述资源内容以获得描述所述 资源内容的信息;和解释器,被配置成运行所述用户定义的索引代码,以获得描述所述资 源内容的信息作为索引结果。所述设备还包括被配置成保存所述解释器的索引结果的索引数据库。所述设备还包括预定的索引器,该预定的索引器被配置成如果所述 判断装置判断所述资源内容未链接有所述用户定义的索引代码,对所述资 源内^J建索引。优选地,所述用户定义的索引代码由脚本文件来实现,相应地所述解 释器^P本引擎。根据本专利技术的再一个方面,用于对计算机网络中的资源内^J建索引 的设^^殳置在所述资源内容站点侧,相应地其判断装置被配置成判断所述 资源内容链接的相关信息是否包含由用户定义的索引代码,而其解释器被 配置成运行所述用户定义的索引代码,以获得描述所述资源内容的信息作 为供所述搜索引擎下载的索引结果。所述判断装置还被配置成判断对所述资源内容的访问是来自所述搜 索引擎的搜索器的访问还是一般浏览者的访问,这样仅仅响应于来自所述 搜索引擎的搜索器的访问,所述判断装置执行所述判断资源内容是否链接 有所述用户定义的索引代码,减小了资源内容站点侧的开销。本专利技术可以应用于因特网和被管理的网络环境。由于用户或内容所有 者比其他任何人更好地理解文档(内容,版面设计,组织等各索引项), 本专利技术的用户贡献的索引,,允许每个用户或内容所有者基于感兴趣的索 引项来提供最佳描述文档的索引代码(即索引算法),因此本专利技术的用户 贡献的索引可更有效地有助于提高索引质量,由此也提高了搜索质量。 尤其在被管理的网络环境中,由于内容所有者提供的索引代码更值得信 赖,因此本专利技术更优选地应用于被管理的网络环境(如内网)。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术 的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或 部件将采用相同或对应的附图标记来表示。图l是示出可实现本专利技术的分布式数据处理系统的框图。图2是应用了本专利技术第一实施例的索引构建设备的系统的框图。 图3示出了根据本专利技术第一实施例的索引构建方法的流程图。 图4示出了根据本专利技术第三实施例的索引构建方法的流程图。具体实施例方式下面参照附图来i兌明本专利技术的实施例。应当注意,为了清楚的目的, 附图和说明中省略了与本专利技术无关的、本领域普通技术人员已知的部件和 处理的表示和描述。系统体系现在参考附图,特别是图l,描述了可实现本专利技术的分布式数据处理 系统的框图。分布式数据处理系统100是可实现本专利技术的计算机网络。分 本文档来自技高网
...

【技术保护点】
一种用于对计算机网络中的资源内容构建索引的方法,所述计算机网络包括作为搜索引擎的计算机和作为资源内容站点并且存储有用户的资源内容的计算机, 所述方法包括以下步骤: 判断所述资源内容是否链接有由所述用户定义的索引代码,所述索引代码 用于处理所述资源内容以获得描述所述资源内容的信息;和 如果判断所述资源内容链接有由所述用户定义的索引代码,则运行所述由用户定义的索引代码,以获得描述所述资源内容的信息作为索引结果。

【技术特征摘要】
1. 一种用于对计算机网络中的资源内容构建索引的方法,所述计算机网络包括作为搜索引擎的计算机和作为资源内容站点并且存储有用户的资源内容的计算机,所述方法包括以下步骤判断所述资源内容是否链接有由所述用户定义的索引代码,所述索引代码用于处理所述资源内容以获得描述所述资源内容的信息;和如果判断所述资源内容链接有由所述用户定义的索引代码,则运行所述由用户定义的索引代码,以获得描述所述资源内容的信息作为索引结果。2. 根据权利要求1所述的方法,其中还包括将所述用户定义的索 引代码运行所获得的索引结果M在所述搜索引擎的索引数据库中。3. 根据权利要求1所述的方法,其中,如果判断所述资源内容未链 接有所述用户定义的索引代码,则使用预定的索引器对所述资源内^J建 索引。4. 根据权利要求1所述的方法,其中,判断所述资源内容是否链接是在所述搜索引擎侧进行的,所述方法还包括在判断所述资源内容是否^^有所述用户定义的索 引代码的步骤之前,将所述资源内容及其链接的相关信息下载到所述搜索 引擎。5. 根据权利要求4所述的方法,其中,所述用户定义的索引代码由 脚本文件来实现,运行所述用户定义的索引代码的步骤是通过调用脚本引擎实现的。6. 根据权利要求4所述的方法,其中,判断所述资源内容是否链接资源内容链接的相关信息而实现的。7.根据权利要求1所述的方法,其中,判断所述资源内容是否链接 有所述用户定义的索引代码以及运行所述用户定义的索引代码的步骤都 是在所述资源内容站点侧进行的。8. 根据权利要求7所述的方法,其中还包括在所述资源内容站点 侧判断对所述资源内容的访问是来自所述搜索引擎的搜索器的访问还是 一般浏览者的访问;如果是来自所述搜索引擎的搜索器的访问,则进一步 执行所述判断资源内容是否链接有所述用户定义的索引代码的步骤。9. 根据权利要求1所述的方法,其中,所述用户定义的索引代码描 述了所述用户对所述资源内容中的索引项的自定义权重。10. 根据权利要求9所述的方法,其中,所述索引项是由所述用户选 择的。11. 根据权利要求l所述的方法,其中,所述用户定义的索引代码是予权重值而实现的。12. 根据权利要求l所述的方法,其中,所述用户定义的索引代码是 基于代码模板完成的,所述代码;^M应于所述资源内容的内M板。13. 根据权利要求l所述的方法,其中,所述用户定义的索引代码由 脚本文件来实现。14. 根据权利要求l所述的方法,其中,所述计算机网络是被管理的 网络环境。15. —种用于对计算机网络中的资源内^J建索引的设备,所...

【专利技术属性】
技术研发人员:张岭沈羽
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1