一种基于层次结构子话题的搜索结果多样化排序方法技术

技术编号:14504329 阅读:30 留言:0更新日期:2017-01-31 12:17
本发明专利技术公开了一种基于层次结构子话题的搜索结果多样化排序方法,其包括如下步骤:1)定义查询词的层次结构树状子话题的表示方法;2)对层次结构子话题和查询、文档的相关性进行估算;3)建立基于查询词的层次结构子话题的搜索结果多样化模型;其中,步骤3)通过两种排序方法的任一种实现:a):根据层次结构话题新颖性模型对文档进行多样化排序;b):根据层次结构话题比例模型对文档进行多样化排序。本发明专利技术定义了查询的层次结构子话题,以及多层子话题和查询、文档间的相关性推算方法,提出基于该层次结构子话题的搜索结果多样化算法,能够灵活地利用不同粒度的子话题,更准确地匹配真实用户意图,从而提高搜索结果的多样性。

【技术实现步骤摘要】

本专利技术涉及一种基于层次结构子话题的搜索结果多样化排序方法
技术介绍
互联网信息越来越全面的覆盖了人们的日常生活,用户逐渐习惯依赖于搜索引擎来查找自己需要的信息。大量研究表明,在提交给搜索引擎中的查询中,有相当部分的查询是短文本查询。这些短文本查询由于信息量少,在解释用户意图时,通常是有歧义的,或者有多重含义的。常见的有歧义的查询,例如,搜索“苹果”,有的用户可能是在找关于著名的苹果公司的相关信息,有的用户则是关心水果苹果相关的信息;搜索“人大”,某些用户可能是在找关于著名高校中国人民大学的相关信息,某些用户查找的则是全国人民代表大会的相关信息。而多重含义的查询,是指在该查询下常包含了多个领域,例如,搜索“红楼梦”,用户实际是想找与该查询相关的一个具体领域,如“红楼梦电视剧”,“红楼梦著作”,“红楼梦人物”,“红楼梦明星”等。搜索结果多样化技术旨在解决上述问题。目前,搜索结果多样化方法可以划分为两大类:隐性(implicit)方法和显性(explicit)方法。早期的多样化技术大多属于隐性多样化模型,其中最有影响力的工作之一是Carbonell和Goldstein在1998年提出的MMR算法。这类隐性方法认为,如果两个文档(搜索结果)的文本内容越相似,则这两个文档涉及的话题越相似,冗余性越高。如果能减少排序中的冗余文档,即可提高排序的多样性。于是,在多样化重排序时,隐性方法侧重于比较文档间的相似度,将更新颖的文档排在前面,从而实现搜索结果多样化。但是,由于该类方法在多样化时只完成了冗余处理,没有明确查询的用户意图。因此,该方法不知道哪些用户意图更应该被覆盖,不能有目的地完成多样化,其效果有限。显性方法又称为基于子话题的方法,是目前搜索多样化技术的主流。该类方法明确地利用子话题模拟用户意图,并通过子话题对搜索结果进行多样化。显性方法认为,两个文档覆盖的子话题的相似性即为两个文档的相似性,而一个更多样化的文档排序应该在有限的结果中覆盖尽可能多的子话题。在现有的显性方法中,一个查询的用户意图通常表示为一个子话题列表形式,其中每个子话题对应一个用户意图。对于一个查询,获取相关子话题列表的方法有很多,包括:用查询的分类信息作为子话题,巧用搜索引擎获取相关子话题,分析结果文档的短语或词组生成子话题,或者联合多个外部资源生成组合子话题等。例如,用Google的查询推荐和相关查询来代表查询的用户意图;从比较相关的检索文档中抽取单词和短语生成查询意图。从四类不同类型的数据中挖掘子话题。在搜索结果多样化方向的国际竞赛或评测任务中(如TRECWebTrack的Diversitytask,和NTCIR的Intent\\IMinetask),查询的子话题由标注人员的主观标注确定,视为真实的用户意图。多样化算法中使用的子话题应该尽可能地贴近真实用户意图,方能得到让真实用户满意的多样化结果。然而,由于多样化算法中的子话题是根据查询自动地生成的,很难完美地和真实的用户意图相匹配。而目前多样化方法中主要采用列表形式的子话题,很难找到合适粒度的子话题能够完美匹配真实的用户意图。而真实的用户意图本身则是隐含逻辑的层次结构。因此,如何解决上述问题成为本领域技术人员亟需解决的技术问题。
技术实现思路
针对
技术介绍
中存在的问题,本专利技术的目的在于提供一种基于层次结构子话题的搜索结果多样化排序方法,该方法定义了查询的层次结构子话题,以及多层子话题和查询、文档间的相关性推算方法,基于该层次结构子话题的搜索结果多样化算法,能够灵活地利用不同粒度的子话题,更准确地匹配真实用户意图,从而提高搜索结果的多样性。本专利技术的目的是通过以下技术方案来实现的:一种基于层次结构子话题的搜索结果多样化排序方法,所述方法包括如下步骤:1)定义查询词的层次结构树状子话题的表示方法;2)对层次结构子话题和查询、文档的相关性进行估算;3)建立基于查询词的层次结构子话题的搜索结果多样化模型;其中,所述步骤3)通过两种排序方法的任一种实现:a)排序方法一:根据层次结构话题新颖性模型对文档进行多样化排序;b)排序方法二:根据层次结构话题比例模型对文档进行多样化排序。进一步,所述步骤1)中层次结构子话题的表示方法具体为:(1)对于每个新闻搜索词q,在搜索引擎中抽取其查询推荐词作为该搜索词的第一层子话题,表示为{t1,t2,t3,...本文档来自技高网
...

【技术保护点】
一种基于层次结构子话题的搜索结果多样化排序方法,其特征在于,所述方法包括如下步骤:1)定义查询词的层次结构树状子话题的表示方法;2)对层次结构子话题和查询、文档的相关性进行估算;3)建立基于查询词的层次结构子话题的搜索结果多样化模型;其中,所述步骤3)通过两种排序方法的任一种实现:a)排序方法一:根据层次结构话题新颖性模型对文档进行多样化排序;b)排序方法二:根据层次结构话题比例模型对文档进行多样化排序。

【技术特征摘要】
1.一种基于层次结构子话题的搜索结果多样化排序方法,其特征在于,所述方法包括
如下步骤:
1)定义查询词的层次结构树状子话题的表示方法;
2)对层次结构子话题和查询、文档的相关性进行估算;
3)建立基于查询词的层次结构子话题的搜索结果多样化模型;
其中,所述步骤3)通过两种排序方法的任一种实现:
a)排序方法一:根据层次结构话题新颖...

【专利技术属性】
技术研发人员:窦志成文继荣胡莎
申请(专利权)人:中国人民大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1