在多个文档之间建立链接结构的方法和装置制造方法及图纸

技术编号:2919948 阅读:283 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种在多个文档之间建立链接结构的方法,包括:在所述多个文档之间建立多个初始链接,以形成所述多个文档之间的初始链接结构G0;针对至少部分文档中的每个文档d,根据其一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1;将修改后的链接结构G1作为初始链接结构G0,以迭代的方式执行上述步骤b)-c),直至修改后的链接结构G1与初始链接结构G0之间的差别小于一预定的阈值或上述迭代的次数达到预定的次数;输出修改后的链接结构G1。

【技术实现步骤摘要】

本专利技术涉及文档信息管理的技术,尤其涉及在在多个文档之间建立链接结构的方法和装置
技术介绍
在很多情况下,信息之间是相互关联的。信息之间可以通过链接相互关联而形成一定的链接拓扑结构,而该链接拓扑结构可以作为信息分析的重要资源。WWW系统是信息之间相互链接的一种典型的系统。WWW系统包括超链接的集合。除了网页的文本内容本身外,类似WWW系统的链接结构,可以作为重要信息用于帮助用户搜索所需信息。例如,网页p上由p指向q的链接,该链接建议网页p的读者跟随该链接访问q。利用链接分析算法,可以根据链接结构获取有用的信息并改进搜索引擎的性能。利用万维网的链接结构,可以为每个网页在网络信息中的重要性赋予一个排序值(rank)。然而,很多企业的文档之间缺乏链接,或者没有链接。这使得企业内部的信息搜索变得困难。
技术实现思路
鉴于已有技术的不足,本专利技术所要解决的问题之一是提供一种在多个文档之间建立链接结构的方法,尤其是在非HTML文档之间建立链接结构的方法。本专利技术的另一个目的是提供一种文档搜索方法,其中在多个文档之间建立链接结构,然后利用该链接结构进行文档搜索。这样,搜索引擎的等级排序可以得到有效的改善。本专利技术提供了一种在多个文档之间建立链接结构的方法,包括a)在所述多个文档之间建立多个初始链接,以形成所述多个文档之间的初始链接结构G0;b)针对所述多个文档的至少部分文档中的每个文档d,根据其一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;c)根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1;d)将修改后的链接结构G1作为初始链接结构G0,以迭代的方式执行上述步骤b)-c),直至修改后的链接结构G1与初始链接结构G0之间的差别小于一预定的阈值或上述迭代的次数达到预定的次数;e)输出修改后的链接结构G1。本专利技术还提供了一种修改多个文档之间的链接结构的方法,其中所述多个文档之间具有包括多个链接的初始链接结构G0,所述方法包括a)针对所述多个文档的至少部分文档中的每个文档d,根据其一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;b)根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1;c)将修改后的链接结构G1作为初始链接结构G0,以迭代的方式执行上述步骤a)-b),直至修改后的链接结构G1与初始链接结构G0之间的差别小于一预定的阈值或上述迭代的次数达到预定的次数;d)输出修改后的链接结构G1。本专利技术还提供了一种用于在多个文档之间建立链接结构的装置,包括初始链接建立装置,用于在所述多个文档之间建立多个初始链接,以形成所述多个文档之间的初始链接结构G0;搜索引擎,配置为针对所述多个文档的至少部分文档中的每个文档d,根据其一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;链接结构修改装置,配置为根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1;判断装置,用于判断修改后的链接结构G1与初始链接结构G0之间的差别是否小于一预定的阈值或修改所述链接结构的次数达到预定的次数,如果否,则将修改后的链接结构G1作为初始链接结构G0,重新利用搜索引擎和链接结构修改装置来修改链接结构,如果是,则利用一输出装置输出修改后的链接结构G1。本领域的技术人员容易理解,在本专利技术的上述方法或装置中,针对所述多个文档(例如文档1、2、3、4、5、6、7、8、9、10、11和12)的至少部分文档(例如文档1、2、3、4和12)中的每个文档d(文档d为文档1、2、3、4或12),根据其一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档(如当文档d为文档4时,所述多个文档中的其它文档为文档1、2、3、5、6、7、8、9、10、11和12)进行等级排序,以获得等级排序结果,可以包括但不限于下述技术方案中的一个或多种针对所述多个文档的至少部分文档中的每个文档,根据其每个检索词利用一搜索引擎分别对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果。针对所述多个文档的至少部分文档中的每个文档,在每一次等级排序中,根据其多个检索词利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果。对于所述每个文档,根据其多个检索词可以分别根据其多个检索词进行等级排序或同时根据其多个检索词进行等级排序。针对所述多个文档的至少部分文档中的每个文档,在每一次等级排序中,对于有的文档根据其多个检索词利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;而对于有的文档仅根据其一个检索词利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果。本专利技术提供了一种迭代方法,用于将多个已有文档,尤其是将多个非HTML文档链接起来。根据该方法,可以在企业的文档之间建立类似于万维网中的链接结构。使用该链接结构进行搜索,可以提高搜索的效能。根据本专利技术,对于每个非HTML文档A,查找一些与其相关的文档,生成文档A与这些相关的文档之间的链接。这样,就在企业的文档之间建立了类似于万维网中的链接结构。基于该链接结构,可以利用一搜索引擎对具有链接结构的多个文档进行等级排序,以获得等级排序结果。然后根据等级排序结果,修改该链接结构。重复进行上两个步骤就可以改进该链接结构。该改进的链接结构,更有利于文档搜索。根据本专利技术的方法,可以在非HTML文档之间建立虚拟网络,该虚拟网络的结构类似于万维网的结构。根据本专利技术建立的链接结构还可用于搜索引擎,来改进搜索的准确度(recall and precision)。根据本专利技术的企业搜索引擎还可以帮助企业文档的用户找到其所需要的信息。附图说明图1示出了根据本专利技术一实施例的方法的流程图。图2是根据本专利技术的一实施例的装置的框图。具体实施例方式下面结合附图对本专利技术的具体实施方式进行详细说明。图1示出了根据本专利技术一实施例的方法的流程图。该流程图示出了一种在多个文档之间建立链接结构的方法。其中,该多个文档之间可以完全没有链接,也可以有部分链接。该已有的部分链接可以作为下文所述的初始链接的一部分。本领域的技术人员容易理解,该方法还可用于修改多个文档之间已经建立的链接结构。在图1中的步骤S110,首先在所述多个文档之间建立多个初始链接,以形成所述多个文档之间的初始链接结构G0。在所述多个文档之间建立多个初始链接可以通过多种已有的方式来进行。如可以根据一篇文档中的检索词(如关键词、主题词或根据文档的文档片段得到的其它检索词)与其它文档的相关程度关系,来建立初始链接;还可以根据一篇文档对其它文档的引用来建立初始链接,也可以根据文档之间的存储目录关系等等来建立初始链接。在步骤S120,针对具有一个或多个检索词的、所述多个文档的至少部分或全部文档中的每个文档d,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果。也可以本文档来自技高网...

【技术保护点】
一种在多个文档之间建立链接结构的方法,包括:a)在所述多个文档之间建立多个初始链接,以形成所述多个文档之间的初始链接结构G0;b)针对所述多个文档中的至少部分文档中的每个文档d,根据其一个或多个检索词,利用一搜索引擎对具有初 始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;c)根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1;d)将修改后的链接结构G1作为初始链接结构G0,以迭代的方式执行上述步骤 b)-c),直至修改后的链接结构G1与初始链接结构G0之间的差别小于一预定的阈值或上述迭代的次数达到预定的次数;e)输出修改后的链接结构G1。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘世霞杨力平张俐
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1