文件系统中搜索排序的方法及相关搜索引擎技术方案

技术编号:2918856 阅读:231 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种适用于文件系统的搜索排序方法,包括:接收查询;至少部分地根据当前的文件系统能量树中各节点的能量值计算各个文件项对于查询的相关度,并基于相关度输出搜索结果列表;响应于用户对文件系统的操作,对文件系统能量树进行更新,其中,文件系统能量树具有与文件系统相应的树形结构,其各个节点对应于文件系统中的各个文件项。本发明专利技术还提供一种相应的文件系统搜索引擎和计算机程序产品。通过利用本发明专利技术,用户在对文件系统进行搜索时,其感兴趣的文件、文件夹通常排在搜索结果列表中较靠前的位置。而且,随着用户对文件点击的增加,搜索结果列表能够动态地适应用户兴趣或偏好的变化。

【技术实现步骤摘要】

本专利技术总体上涉及对特定信息项的搜索排序,特别地,涉及在文件系统中搜索排序的方法及相关搜索引擎和计算机程序产品。
技术介绍
随着计算机技术的不断发展,人们越来越依靠于通过计算机系统(包括计算机网络)来存储大量的信息。当今所广泛应用的搜索引擎旨在协助用户在大量信息中进行检索,以便方便、快捷地获得有用信息。在信息检索领域,搜索引擎获得了很大的成功,开发并采用了大量有益的技术。其中,各种搜索引擎的技术改进和优化,都直接反应到对搜索结果的排序上。一种重要搜索排序技术就是利用网页之间的超级链接对网页进行排序。例如,Google公司的创始人Sergey Brin和Lawrence Page在1998年提出的PageRank算法,以及同年J.Kleinberg提出的HITS算法等。PageRank的基本原理就是利用网页之间的链接关系来计算网页的重要性,即网页的权威性分值。PageRank算法遵循两个基本前提一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;Google搜索引擎通过PageRank算法计算出网页的PageRank值,从而决定网页在检索结果集中的出现位置,PageRank值越高的网页,在结果中出现的位置越靠前。通过应用PageRank算法,改进了传统的检索排序方法,提高了查询结果的准确度,大大缩短了用户找到其实际期望网页所用的平均时间。但是,对于文件系统而言,基于链接分析的搜索排序算法并不适用。这主要是因为,在文件系统中,文件与文件之间并不存在类似于网络链接这样的关联。而且,虽然文件系统的数据集合不像网络的数据集合那样庞大,但是其中的数据类型要比网络中的数据类型更加丰富。目前,对文件系统进行检索排序主要是利用基于关键词的检索方法。传统的基于关键词的检索方法的基本原理是,搜索引擎首先对文档内容进行分析,提取文档中出现的关键词,并统计关键词在文档中出现的频率、位置以及整个文档集合中包含该关键词的文档的数目等,将这些信息建立索引。当用户输入查询式后,搜索引擎首先分析查询请求,对每个查询词在索引中分别找到包含该关键词的文档,然后对每篇文档计算与查询式的相关程度,最后,将相关文档按照相关程度大小进行排序,返回给用户。这种方法的难度在于,大多数情况下,用户的查询要求无法用非常简单的关键词进行准确的描述,而且,由于自然语言理解技术和的相关程度计算方法的限制,查询结果的准确率比较低。除了传统的基于关键词的检索方法以外,在文件系统的检索排序中,还可以应用检索日志分析法对检索结果进一步改进。检索日志分析法能够根据用户对搜索结果的反馈和操作,包括输入的查询词以及点击的历史,进一步分析用户的搜索兴趣,跟踪用户在搜索中的特征,用来改善检索效果。但是,传统的关键词检索和检索日志分析法,都没有关注到文件系统的树形组织形式对于搜索排序的影响,未能在排序中体现文件之间的潜在联系。由此可见,现有技术没有向用户提供适合文件系统结构特点的并且进一步能够响应于用户的交互而进行动态适应的搜索排序方案。
技术实现思路
因此,为了克服现有技术中存在的不足,本专利技术提供一种搜索排序方法以及相关搜索引擎和计算机程序产品,特别地适合于基于文件系统结构并且利用用户的与搜索引擎系统的交互对文件系统进行搜索的方法。根据本专利技术的一方面,提供一种适用于文件系统的搜索排序方法,包括接收查询;至少部分地根据当前的文件系统能量树中各节点的能量值计算各个文件项对于查询的相关度,并基于相关度输出搜索结果列表;响应于用户对文件系统的操作,对文件系统能量树进行更新,其中,文件系统能量树具有与文件系统相应的树形结构,其各个节点对应于文件系统中的各个文件项。根据本专利技术的另一方面,提供一种文件系统搜索引擎,包括文件搜索模块和文件索引以及搜索结果排序模块,该文件系统搜索引擎用于根据接收的查询进行文件项搜索并输出搜索结果列表,该文件系统搜索引擎还包括文件系统能量树索引,用于记录具有与文件系统相应的树形结构的文件系统能量树以及其各个节点的能量值,各个节点对应于文件系统中的各个文件项;能量树更新模块,用于响应于用户对文件系统的操作,对文件系统能量树索引中记录的文件系统能量树进行更新,其中搜索结果排序模块用于至少部分地根据当前文件系统能量树索引中记录的各节点的能量值计算各个文件项对于查询的相关度,并且使得搜索结果列表中的文件项按照相关度进行排列。根据本专利技术的另一方面,还提供一种包含用于执行根据本专利技术的方法的计算机程序代码的计算机程序产品。利用本专利技术,用户在对文件系统进行搜索时,其感兴趣的文件、文件夹通常排在搜索结果列表中较靠前的位置。而且,随着用户对文件点击的增加,该能量树的能量分布不断更新,使得搜索排序能够响应于用户交互持续跟踪用户的兴趣或偏好,及时调整搜索结果列表来动态地适应用户兴趣或偏好的变化。结合附图阅读本专利技术实施方式的详细描述后,本专利技术的其它特点和优点将变得更加清楚。附图说明图1表示了根据本专利技术一个实施例的搜索排序处理流程;图2示意性地表示了在文件系统搜索引擎初始化时所创建的文件系统能量树的一个示例;图3A、3B、3C示意性地表示图2所示的文件系统能量树在用户点击文件之后的能量值的更新;图4表示了根据本专利技术一个实施例的文件系统能量树响应用户点击的更新流程;图5示意性地表示图3C所示文件系统能量树在用户创建新文件时的能量值更新;图6表示了根据本专利技术一个实施例的文件系统搜索引擎示意框图;以及图7示意性地表示了其中可以实现本专利技术的实施例的计算机系统。具体实施例方式以下参照附图,对本专利技术的实施例进行详细说明。图1表示了根据本专利技术一个实施例的搜索排序处理流程。如图1所示,在步骤S100中,开始该处理流程。在步骤S102中,接收用户输入的查询q。在步骤S104中,根据查询q对相关文件项进行搜索。例如,当采用的文件系统搜索引擎为基于关键词的搜索引擎时,文件系统搜索引擎根据查询q利用文件系统索引中的信息,可以计算每个文件项d对于该查询q的重要程度的分值s(q,d)。通常,该分值s(q,d)在常规的文件系统搜索引擎中,会作为搜索结果排序的依据。结合下文中的描述,本领域的技术人员可以理解,虽然在这里给出了基于关键词进行搜索的示例,但是本专利技术的技术方案并不限制具体采用何种现有技术来实现该搜索步骤。而且,根据查询q对文件项进行搜索的过程可以以任何已知的算法、过程、方式来实现,而该实现本身不属于本专利技术的范围。在步骤S106中,根据当前的文件能量值计算文件的相关度,并基于该相关度输出搜索结果列表。根据本专利技术,在启动任何具体搜索排序处理之前(例如文件系统搜索引擎初始化阶段),文件系统搜索引擎首先依据文件系统的结构(文件系统可以对应于一个树形结构,其中目录作为非叶子节点,而文件则作为叶子节点),创建具有相同结构的文件系统能量树,其每个节点的值代表对应文件或者文件夹的能量值,其中能量值是反映该用户对于该文件或文件夹的兴趣或偏好的参数。在这个初始化过程中,可以使得所有节点的能量值相等。如在步骤S104中所描述的,文件系统搜索引擎会根据接收到的查询q为每个文件d提供一个用于排序的分值s(q,d)。根据当前文件系统能量树中提供的信息以及该用于排序的分值,本文档来自技高网
...

【技术保护点】
一种适用于文件系统的搜索排序方法,包括:接收查询;至少部分地根据当前的文件系统能量树中各节点的能量值计算各个文件项对于所述查询的相关度,并基于所述相关度输出搜索结果列表;以及响应于用户对所述文件系统的操作,对所述文件 系统能量树进行更新,其中,所述文件系统能量树具有与所述文件系统相应的树形结构,其所述各个节点对应于所述文件系统中的各个文件项。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈伟柱张俐苏中
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1