相关查询组织系统和方法技术方案

技术编号:4167325 阅读:154 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种相关查询组织系统和方法。该系统包括用户查询存储单元,用于存储用户查询集;输入单元,用于输入一个用户查询;查询过滤单元,用于从用户查询存储单元存储的用户查询集中选择与输入的用户查询相关的查询并获取选择结果;以及结构构建单元,用于基于选择结果构建结构并获取所述结构以进行显示。

Related query organizing system and method

The invention discloses a related inquiry organizing system and method. The system includes a storage unit for storing the user query, the user query set; an input unit for a user input query; query for query filter unit, storage unit stores from user query options and input relevant to a user query query and access selection results; and construction unit, construction structure and selection for the results to obtain the structure for display based on.

【技术实现步骤摘要】

本专利技术一般地涉及计算机网络,更具体而言,涉及信息检索和呈现方式。
技术介绍
目前随着越来越多的信息被呈现在网络上,已经出现了多种在后台数 据库中存储文档并提供供用户检索这些文档的界面的信息系统。典型的信息系统有两种1)诸如Google和Baidu之类的搜索引擎,通过这种搜索 引擎人们可以访问因特网上的信息(网页);2)内部网系统,通过这种 系统人们可以访问内部文档(通常用在公司内部)。当用户向这种信息系统发送用户查询q时,用户可能对结果有两种不 同的需求。第一种,用户想要找到一条与q相关的信息,例如, 一个网 站、 一个网页或一个文档。第二种,用户想要了解q的概貌(或者说概 要),这需要浏览一组网站、网页或文件。通常,前一需求被称为信息搜 索需求,后一需求被称为信息浏览需求。对于信息搜索需求来说,列表是一种很好的呈现搜索结果的方式。例 如搜索引擎(例如Google或者百度)就是一种典型的示例。在搜索引擎 中,网页与查询q的相关度越大,它在列表中的位置就越高,这样用户很 容易在列表中找到其感兴趣的信息。但是,对于信息浏览需求来说,列表方式就不适合了,因为用户不得 不阅读整个列表、思考并自己总结出概貌。这一过程费时且费力。与列表 相比,其他诸如层次结构(hierarchy)、图表(graph)或属性值表(facet-value form) 的形式在呈现信息方面更加适合。在这里,层次结构、图表或 属性值表被称为结构(structure)。依靠这样的结构,人们可以很容 易地理解概要。 一个示例是在线购物站点亚马逊(Amazon),它使用5层次结构(例如CD、 DVD和小说等分类)来呈现其所有商品。对于信息浏览需求来说, 一个好的结构可以便于人们理解概要,因此,如何构建好的结构便成为一个重要的问题。例如,传统系统可以使用词或词组的并发来构建层次结构。例如,如果两个词A和B经常并发,则认为它们是相关的。进而,如果A比B出现得更频繁,则把A作为B的父节点。图l示出了以软件作为査询词的一个示例(http:〃clusty.com)。在图1中,层次结构图左侧是该层次结构的第一层。该第一层由诸如 软件下载、软件频道、Picasa等的节点组成,这些词都是检索出的页面中的常见词(或词组)。其中,节点软件下载具有子节点,如驱动下载,游戏下载、软件教程等,如图2所示。如上所述,软件下载之所以是软件教程的父节点是因为这两个词经常在 页面中并发并且软件下载出现得比软件教程更频繁。图3是利用相同网站再一次运行软件查询所得到的结果。两次査 询结果有所不同。这种情况是可能的,因为后台网页可能在两次查询之间 被更新。关于上述构建结构的详细描述,可以参见Lawrie, D., Croft, B.的 Generating Hierarchical Summaries for Web Searches , SIGIR 2003, 457-458页。然而,这样所构建的结构通常不具有很好的可读性,因而不那么令人 满意。具体而言,可能有以下几个问题1. 结构中的元素(element)可能是与査询不相关的主题,例如图1中 的China 、 Wiki,以及图3中的版权所有。这里,结构中的元 素例如是指层次结构和图表中的节点,以及属性值表中的属性和值。由于 本说明书使用层次结构作为说明样例,所以在本说明书中,元素与节点可以互换使用。2. 结构中的元素本身可能并不具有如结构所显示的那种关系,例如在 图2中软件下载是软件教程的父节点,但是实际上这两者并没有 关系。3. 大多数主题元素与用户关心的内容并不相符。图4示出了包含词软件的某些用户查询的统计结果,从中可以看出,对于软件査 询,大多数人想要了解的是杀毒软件、天空软件等,而不是软件频道、Picasa等等。图5示出了根据现有技术的相关查询组织系统的示例。如图5所示, 相关査询组织系统IO包括输入单元11、文档存储单元12、相关文档过滤 单元13和结构构建单元14。输入单元11接收用户査询q,并提供给相关 文档过滤单元13。相关文档过滤单元13访问文档存储单元12,并从存储 在文档存储单元12中的文档集DS中选择出与用户查询q相关的一个或多 个文档DS一q,并将DS—q提供给结构构建单元14。结构构建单元14基于 所提供的DS一q来构建结构,并输出所述结构以进行显示。基于文本构建 结构的方式对于本领域技术人员来说是公知的。
技术实现思路
如上所述,传统方法所构建的结构不具备好的可读性,这是因为该结 构是基于文档构建的。文档并不是好的数据源。首先,文档的文本长度很 长,因此很难从文档中提取出主题。其次,即使正确地提取了主题,也很 难判断出它们的相关度,因为它们在文档中的位置可能很远,或者即使很 近但是却彼此毫无关联(例如图2中的软件下载和软件教程), 或者句子很复杂,难以分析出关系。为此,本专利技术提供了一种相关査询组织系统和方法。该系统包括用户 査询存储单元,用于存储用户査询集;输入单元,用于输入一个用户査 询;查询过滤单元,用于从用户査询存储单元存储的用户査询集中选择与 输入的用户查询相关的査询;以及结构构建单元,用于基于相关査询构建 结构并获取所述结构以进行显示。本专利技术的相关査询组织方法包括以下步骤输入一个用户查询;从预 先准备好的用户查询集中选择与输入的用户查询相关的查询;以及基于相 关查询构建结构并显示所述结构。基于用户査询构建结构与基于文档的方法相比有以下优点1.用户査询通常是词组或短句。相比于文档的长句,其内容更充实。因此,更容易提取出主题。例如,在图4中,与查询软件相关的某些 査询是杀毒软件、压縮软件、天空软件、华军软件园、 软件下载。显然,除了查询词软件之外,几乎所有词都是主题。2. 由于用户查询通常是词组或短句,因此一个査询中并发的两个词通 常具有某种关联。例如,在杀毒软件中,杀毒是软件的功 能。3. 用户所输入的査询反映了用户关心的内容。例如,很多人发送查询 杀毒软件,而只有很少人发送Picasa,这说明,大多数人想了解关于杀毒软件的信息,而不太关心Picasa的信息。因此,基于相 关用户查询构建的结构可以满足更多用户的需求。总地来说,通过基于用户查询而不是文档来构建结构,提高了所构建 结构的可读性。附图说明图l示出了以软件作为査询词的一个示例(http:〃clusty.com); 图2进一步示出了图l的示例;图3示出了利用相同网站再一次运行软件查询所得到的结果; 图4示出了包含词软件的某些用户査询的统计结果; 图5示出了根据现有技术的査询组织系统的示例; 图6示出了根据本专利技术第一实施例的相关査询组织系统的实施例; 图7示出了根据本专利技术第二实施例的相关査询组织系统的实施例; 图8示出了根据本专利技术第三实施例的相关査询组织系统的实施例; 图9示出了查询软件所形成的结构(层次结构)的一个示例; 图10示出了根据本专利技术的结构构建单元104的构造; 图ll示出了群组形成的一个示例; 图12示出了合并具有相同含义的元素的一个示例; 图13示出了采用第二和第三种方法判断天空软件和天空软件 园具有相同含义的示例;图14示出了构建补充结构的示例;以及图15示出了根据本专利技术的相关查询组织方法110。 具体实本文档来自技高网
...

【技术保护点】
一种相关查询组织系统,包括: 用户查询存储单元,用于存储用户查询集; 输入单元,用于输入一个用户查询; 查询过滤单元,用于从所述用户查询存储单元存储的所述用户查询集中选择与输入的所述用户查询相关的查询并获取选择结果;以及   结构构建单元,用于基于所述选择结果构建结构并获取所述结构以进行显示。

【技术特征摘要】
1.一种相关查询组织系统,包括用户查询存储单元,用于存储用户查询集;输入单元,用于输入一个用户查询;查询过滤单元,用于从所述用户查询存储单元存储的所述用户查询集中选择与输入的所述用户查询相关的查询并获取选择结果;以及结构构建单元,用于基于所述选择结果构建结构并获取所述结构以进行显示。2. 如权利要求1所述的系统,包括-文档粘贴单元,用于将文档粘贴到所述结构上并获取粘贴有文档的结 构以进行显示。3. 如权利要求2所述的系统,其中所述文档是从文档集中选择出的、 与输入的所述用户查询相关的文档。4. 如权利要求l所述的系统,包括用户査询修正单元,用于基于所述结构修正所述用户查询。5. 如权利要求1或2所述的系统,其中所述结构构建单元包括-基础结构构建单元,用于基于所述选择结果构建基础结构;以及 扩展处理单元,用于对所构建的基础结构进行扩展处理以获取要显示的所述结构。6. 如权利要求5所述的系统,其中所述扩展处理单元包括群组形成单元,所述群组形成单元用于将所述 基础结构中的相关元素归并到一个群组中。7. 如权利要求5所述的系统,其中所述扩展处理单元包括元素合并单元,所述元素合并单元用于将所述 基础结构中具有相同含义的元素合并为一个元素。8. 如权利要求7所述的系统,其中所述元素合并单元使用拼写校正方法来识别具有相同含义的元素。9. 如权利要求7所述的系统,其中所述元素合并单元使用共享文档比来识别具有相同含义的元素。10. 如权利要求7所述的系统,其中所述元素合并单元使用粘贴文档检査方法来识别具有相同含义的元素。11. 如权利要求5所述的系统,其中所述扩展处理单元包括结构补充单元,所述结构补充单元为所述文档 粘贴单元在结构上粘贴...

【专利技术属性】
技术研发人员:赵凯胡长建赵岷邱立坤
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1