用于链接文档的方法、设备和系统技术方案

技术编号:2920123 阅读:170 留言:0更新日期:2012-04-11 18:40
一种链接文档的方法、设备和系统,所述方法包括步骤:在企业内部网中提供多个聚类集合,其中每个聚类集合由一个或多个文档组成;为每个聚类集合创建聚类列表页,以表示该聚类集合中的文档;以及根据对所述聚类集合和文档内容的分析来构建聚类列表页之间、文档之间和聚类列表页与文档之间的链接。本发明专利技术有助于自动建立各个独立文档之间的链接,以及可以将链接分析算法应用于对这些文档进行的搜索,以在企业内部网中实现更好的搜索性能。

【技术实现步骤摘要】

本专利技术涉及一种文档链接的方法、设备和系统,特别涉及一种用于在企业内部网中将企业文档链接为虚拟万维网的、基于聚类集合的方法、设备和系统。
技术介绍
进行搜索是从万维网以及企业网络获得有用信息的最普遍的方式。对于网页搜索来说,最知名且有效的方法就是Google的PageRank(网页级别)方法,其在万维网的大量网页中,通过超级链接来计算网页的重要性。网页级别算法的主要原理是,如果许多网页指向同一个网页,则表示这个网页是好网页;另一方面,如果一个重要的网页引用另一个网页,则所述另一个网页也是重要的。在Google搜索引擎中已经使用了PageRank方法,而且已经证明Google搜索引擎是目前最好的搜索引擎。PageRank方法是由Google的创始人LarryPage和Sergey Brin于1998年在斯坦福大学时专利技术的,并且已经获得了美国专利No.6,285,999。PageRank算法的一个替换方法是由Jon Kleinberg提出的HITS算法。HITS提出了两种类型的网页,一是目录型网页(hub page),指包含大量同一主题链接的网页;二是权威型网页(authority page),指其内容对应于相关主题的网页。HITS算法假定好的目录型网页指向许多好的权威型网页,而好的权威型网页是被许多其它网页指向的网页。目录型网页和权威型网页显示了它们之间相互加强的关系,即,比较好的目录型网页指向许多好的权威型网页,而比较好的权威型网页被许多好的目录型网页所指向。应用上述这些算法的关键因素是网页之间的超级链接,但是对于企业内部搜索来说,就存在很大的问题。我们知道,与基于万维网的文档不同,很多文档,如企业内部的文档,通常不被相互链接,因此基于链接分析的搜索引擎技术不能应用。这就是企业内部文档搜索效率低下的原因之一。因此,需要一种高效率地进行文档搜索的方法和系统,尤其是用于企业内部文档搜索的方法和系统。
技术实现思路
本专利技术的目的是提供一种高效率地进行文档搜索的方法和系统,尤其适用于企业内部文档搜索。本专利技术的方法和系统自动将文档之间的链接构建为类似于万维网的虚拟网络,使得用于网页的链接分析方法也可以有效地应用在企业内部的文档搜索中。本专利技术提出了用于将企业文档链接为类似于万维网的虚拟网络的基于聚类集合的方法和系统。类似于网络上的目录型网页和权威型网页,通过使用许多不同的方法将多个文档分为多个聚类集合(cluster),将各个聚类集合构建为类似目录型网页的聚类列表页,每个聚类列表页由对应聚类集合中的文档列表来表示,而每个文档被视为权威型网页。然后,可以基于对聚类列表页和文档的内容的分析,自动建立聚类列表页和文档之间的链接。这样,原来独立的文档就被链接在一起,形成了如同万维网的虚拟网络。根据上述思想,本专利技术提供一种用于链接文档的方法,包括步骤形成多个聚类集合,其中每个聚类集合由一个或多个文档组成;为每个聚类集合创建聚类列表页(cluster page),以表示该聚类集合中的文档;以及根据对所述聚类集合和文档内容的分析来构建链接。本专利技术还提供一种用于链接文档的设备,包括存储装置,用于存储多个聚类集合,其中每个聚类集合由一个或多个文档组成;处理装置,用于为每个聚类集合创建聚类列表页,以表示该聚类集合中的文档;和链接建立装置,用于根据对所述聚类集合和文档内容的分析来构建链接。本专利技术还提供一种用于文档链接的系统,包括第一设备,所述第一设备包括存储装置,用于保存数据库,在所述数据库中存储多个聚类集合,其中每个聚类集合由一个或多个文档组成;处理装置,为每个聚类集合创建聚类列表页,以表示该聚类集合中的文档;和链接建立装置,用于根据对所述聚类集合和文档内容的分析来构建聚类列表页之间、文档之间和聚类列表页与文档之间的链接;以及第二设备,所述第二设备包括搜索引擎,根据所建立的链接,在所述数据库中搜索需要的文档。本专利技术可以实现如下优点有助于自动建立各个独立文档之间的链接;以及可以将链接分析算法应用于对这些文档进行的搜索,以实现更好的搜索性能。附图说明通过结合附图对本专利技术优选实施例的详细描述,本专利技术的上述和其它特征及优点将变得更加清楚,其中图1是本专利技术概念的示意图,其中示出了本专利技术构建链接的整个过程;图2是示出应用本专利技术的实施例的系统方框图的一个示例;图3是本专利技术的实施例中的链接建立装置的构成方框图;图4是本专利技术的实施例中构建聚类列表页之间的链接的方法流程图;图5是本专利技术的实施例中构建从文档到聚类列表页的链接的方法流程图;以及图6是示出本专利技术的实施例中构建文档之间的链接的方法流程图。具体实施例方式首先将给出本专利技术中使用的部分术语的定义。聚类集合(cluster)是指一组文档。在本专利技术中,聚类集合可以是文件系统中的文件夹、或分类学中的类别,其可以通过任何传统划分聚类集合的方法来创建。一个文档可以属于一个或多个聚类集合。聚类列表页(cluster page)是指虚拟网页,它包括聚类集合中的文档的列表。链接聚类列表页和原始文档之间的指针(anchor)。在本专利技术中,链接可以从聚类列表页指向另一个聚类列表页,或从聚类列表页指向文档,或从文档指向聚类列表页,或从文档指向另一个文档。下面将结合附图来具体说明本专利技术的优选实施例。图1是本专利技术概念的示意图,其中示出了本专利技术构建链接的整个过程。如图1所示,首先,将多个未链接的文档划分为若干个聚类集合,对每个聚类集合创建聚类列表页,该聚类列表页上具有文档列表,以表示该聚类集合中的所有文档。接下来,基于对聚类集合和其中的文档的内容分析,自动构建链接(将在后面进行详细地描述)。在本专利技术中,也可以直接提供该若干个聚类集合,其中包括一个或多个文档,而无需对文档进行划分的过程。对文档进行划分的过程可以独立于本专利技术而另外进行。图2是示出应用本专利技术的企业内部网系统的方框图的一个示例。如图2所示,其中简要地示出了服务器100,以及通过企业内部网与服务器100相连接的客户机A 102至客户机N 108(为清楚起见,只示出了两个客户机,但是其可以为该网络所能容纳的任何数量)。服务器100包括控制器116,用于控制服务器100及其中的各个组成部件的操作;处理装置112,用于将多个未链接的文档划分为多个不同的聚类集合,并创建每个聚类集合的聚类列表页,以表示该聚类集合中的文档;链接建立装置114,用于建立从聚类列表页到另一个聚类列表页、或从聚类列表页到文档、或从文档到聚类列表页、或从文档到另一个文档的链接;以及数据库118,用于存储各种文档和数据(包括未链接的文档、经链接的文档、以及所建立的链接等)。上述处理装置112还可以包括单独的聚类集合形成装置(未示出),用于形成多个聚类集合,其中每个聚类集合由一个或多个文档组成。在对各个文档及聚类列表页建立了相应的链接后,用户可以通过在客户机A或客户机N等之上运行的搜索引擎,在服务器100中的控制器116等的控制下,在数据库118中进行搜索,以查找所需要的文档。当然,在本专利技术中,也可以不使用处理装置112,而直接利用链接建立装置114对数据库118中预先提供的聚类列表页及其中的各个文档建立适当的链接。如同计算机或其它计算设备一样,本专利技术的服务器100以及客户机A和客户机N都具有CP本文档来自技高网
...

【技术保护点】
一种用于链接文档的方法,包括步骤:形成多个聚类集合,其中每个聚类集合由一个或多个文档组成;为每个聚类集合创建聚类列表页,以表示该聚类集合中的文档;以及根据对所述聚类集合和文档内容的分析来构建链接。

【技术特征摘要】

【专利技术属性】
技术研发人员:张俐杨力平刘世霞
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1