具有自动预过滤和路径选择的协作式主题服务器制造技术

技术编号:2884147 阅读:227 留言:0更新日期:2012-04-11 18:40
公开了一种基于主题内容的信息组织和获取系统,它有效地组织文件,目的在于快速而高效地搜索和获取。这种信息组织和获取系统经过完善,仅组织和获取那些相关于给定的预定义的一组主题的文件。如果该文件不具有这套给定主题中的主题,它将被排除在所提供的服务之外。与此相似,如果该文件具有某个被所提供服务特别禁止的主题,它也将被排除在外。正是以这种模式,提供者有目的地限制了所提供的搜索和获取服务的范围,可是这样做提供了一种针对用户需求的更有效的服务。这种信息组织和获取系统也支持上下文敏感搜索和获取技术,包括使用预先定义或用户定义的意图,以及使用用户专门词汇。在一种优选实施方案中,所选的这套主题组织成有多个重叠的分层结构,并有一种分布的软件结构用来支持这些基于主题的信息组织、路径选择和获取服务。文件可以与一个或多个主题相关,并通过由信息服务器维护的主题结构与每个主题联系在一起。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及数据处理和交换领域,特别是文件的存储、组织和获取领域。可供访问的信息量在不断增加,并且信息量的增加速率也在加大。这种不断增加的信息增长,导致了用来存储、组织和获取信息的不断膨胀的资源。传统的搜索引擎,例如因特网上用来查找文件的搜索引擎,使用了各种技术响应用户查询以快速找到用户要求的文件。其中的一种技术便是建立一个对应于万维网上文件的索引数据库。通过找出用户请求和索引数据库中信息的某种联系,完成用户请求的处理,而不是真的到万维网上去找来响应用户请求。传统的搜索引擎使用一种“爬行器(crawler)”来定位文件或更新文件。一旦一个新的或是更新的文件被定位,搜索引擎便生成一个对应于该文件的目录,其中包括比如文件中最常见单词和词组的列表。还存在一些可以代替以上步骤的技术,即让文件的创建者在文件中直接增添一些关键词或词组,而这些词或词组用来给文件编制索引。为了方便起见,下文中的关键字一词就指文件索引中包含的某个词,而不管将其放置在索引中的方法。当用户输入一个查询,搜索结果依据用户查询中的词和文件索引中的关键词的匹配。本领域的技术人员可以理解一个文件的目录可能较大,万维网上基本上所有文件的索引数据库实际上极其庞大,而且将以不断增长的速率继续增加。1998年,因特网上每天约增加150万页,并且每天增速预计将继续扩大。除了增加了的存储资源的代价外,随着数据库的扩张数据库查找技术的性能在下降。随着包含某个关键词的文件越来越多,依据关键词查找的文件获取效率越来越低,也越来越不可行。在因特网上一次关键词查找返回成千上万与此关键词相关的文件不足为奇,而其中的很多和用户的查询并无关联。为了减少对于关键词被识别文件的数目,用户必须增加提供额外的关键词或词组来增加搜索参数。可是这样做,如果用户没有选择文件中的相同词语,与用户请求有关的文件又可能被排除在外。搜索引擎可以通过在用户查询自动增加同义词从而增强性能,不过如此增加又将加剧所识别文件与用户查询无关的问题,尽管这些文件也包含了这些关键词。主题式分类为查找与用户请求相关的文件提供了一种选择更精细的方法,因为那些与用户请求具有相同主题的文件要比那些仅仅包含匹配单词集合的文件更具备相同的信息。不过,确定文件的一个或多个主题比确定文件包含的词更复杂。传统上,主题的确定是一项人工密集的任务,需要很多人阅读和分类每个文件。信息科学领域中,基于统计学的算法和神经网,以及基于遗传学的算法,和自动分类相似文件的研究方面不断取得进展。主题分类也为一般的浏览提供了一种高效的方法,用户既可以选择感兴趣的主题又可以选取不感兴趣的主题控制浏览过程。对于可以通过主题分类的文件,那种基于关键词的文件组织、存储和获取技术并不理想或令人满意。仅仅用主题词组代替关键词的搜索引擎,并不能为不断增加的信息量提供所需的搜索和存储上的改进。传统的方式是建立越来越大的引擎和对应与网上每个文件的索引数据库,这种索引是基于单词或词组在文件中出现的频率,这种方法对于组织和获取基于主题的文件可能完全不可行。主题决定技术的一个不加选择的应用,举例来说,也许仅仅是建立一个甚至更大的词汇集,用户必须使用这些词汇来筛选相关文件,其固有的危险是用户可能选择不同与文件索引中的词或词组。因为大多数文件包含多个主题,额外主题信息加进已有索引实质上也将增加存放这些信息的数据库的大小。本专利技术的一个目的是提供一种信息组织和获取系统,以有效组织文件从而基于主题内容快速和高效的查找、获取。本专利技术进一步的目的是提供一种可以增强的信息组织和获取系统。本专利技术另一个目的是提供一种支持上下文敏感搜索和获取技术的信息组织和获取系统。本专利技术还有一个目的,即提供这样一种信息组织和获取系统,它允许用户使用不同于用来组织这些信息的单词。这些目标即其他目标的达到,是通过提供一种信息组织和获取系统,该系统优化为仅获取那些与给定的一组主题相关的文件。本专利技术提供了一种方法和设备,通过协作式主题信息服务器网络,完成文件的自动预筛选和路径选择。信息服务器用来根据所选主题组组织和获取文件。所选的该组主题组织成具有多个重叠的分层结构,和一个分布式软件结构用来支持基于主题的信息组织、路径选择和获取服务。文件被自动预筛选以确定它们是否与所选主题组相关,只有相关的文件才被确认以供以后的获取。文件可能和一个或多个主题相关,它通过由信息服务器支持的主题分层结构与每个主题联系在一起。在一个优选实施方案中,通过提供一种支持使用基于用户正在其中查找的上下文而增加查找准则的预定义或用户定义视图从而增强获取处理的方法和设备。本专利技术中的组织和获取处理也通过使用内部一致的主题词汇而得到增强。文件作者或搜索文件的用户使用的用语和词组,都被翻译成通用的内部词汇,因此在允许单词和词组的多种选择的同时,提供了增强了的组织和搜索能力。以下以举例的方式参考附图详细说明本专利技术,其中附图说明图1示出根据本专利技术的一种信息处理系统的示例性方块图。图2示出在根据本专利技术的一种信息处理系统中,文件和多个主题节点的联系的示例。图3是通过根据本专利技术的一种信息处理系统来组织、搜索和获取文件的流程图示例。根据本专利技术,文件是通过主题分类和组织的。单独的服务器的网络用来识别和获取文件。通过设计,每个服务器负责一个主题或多个主题的独立的选定组。主题由服务网络的提供者选择,例如,基于预计的用户对特定主题范围的请求。当每个新的主题被确认需要加入,把它加在一个已有的服务器上,或者加入另外一个新增加的服务器上。这样,主题的范围就控制住了,并且通过增加网络上的服务器仍然保持其可扩展性。如果某个文件不具有网络主题所包含的主题,它将被排除在提供的服务之外。相似的,如果某个文件包含所提供服务特地禁止的主题,它也被排除在外。在这个模型中,提供者有目的性的限制了所提供搜索和获取的范围,但是这样做也提供了一种针对预期用户请求的更有效的服务。随着请求的增加,提供额外的主题和服务器,因此允许了所提供服务扩展。图1描述了根据本专利技术的信息处理系统一个例子。信息处理系统100包括主题服务器110,120,130,140组成的网络。方便起见,把主题服务器网称作一个联合100。每个主题服务器负责所述的一组主题,这个联合中服务器主题组的集合称作联合主题。确认和某个主题相关的文件与包含该主题的主题服务器中的主题相关。通过提供一个服务器网络,每个服务器负责所选的一组主题,与组织和搜索文件有关的工作量分配给服务器。在一个优选实施方案中,进一步分配工作量,某个服务器还负责指定的客户机和指定的文件源。如图1所示,主题服务器110具有指定的客户机111、112,和指定的文件源116、117。指定的客户机111、112比如说是万维网浏览器,用户用它与系统100相交互。文件源116、117比如说是因特网上的存储设施。为了理解方便,文件一词这里指一段信息,比如一页或多页文本,也可能是其它形式的信息,例如视频和音频片断,图形,图画,计算机程序和其它。和传统的搜索引擎一致的是,主题服务器110,周期性地发送网络爬行器给文件源116、117,收集新的或更新的文件。服务器110扫描爬行器发现的文件,确定每个文件的主题。和传统搜索引擎不同的是,只有文件的一个或多个主题包含在联合主题中,服本文档来自技高网...

【技术保护点】
一种信息处理系统(100)包含: 服务器(110),拥有一组相关的服务器主题(21,211,212), 主题提取器(310),被配置成从源文件(201,301)中提取文件主题(211), 文件选取器(320),与文件提取器运行连接,被配置成依据文件主题(211)是否是服务器(110)的一组相关服务器主题(21,211,212)的成员主题(211)确定源文件(201,301)作为被选中文件, 文件路径选择器(330),与文件选取器(320)运行连接,使被选中文件与成员主题(211)相关联。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:程以宁
申请(专利权)人:皇家菲利浦电子有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1