【技术实现步骤摘要】
本专利技术涉及一种基于层次结构子话题的搜索结果多样化排序方法。
技术介绍
互联网信息越来越全面的覆盖了人们的日常生活,用户逐渐习惯依赖于搜索引擎来查找自己需要的信息。大量研究表明,在提交给搜索引擎中的查询中,有相当部分的查询是短文本查询。这些短文本查询由于信息量少,在解释用户意图时,通常是有歧义的,或者有多重含义的。常见的有歧义的查询,例如,搜索“苹果”,有的用户可能是在找关于著名的苹果公司的相关信息,有的用户则是关心水果苹果相关的信息;搜索“人大”,某些用户可能是在找关于著名高校中国人民大学的相关信息,某些用户查找的则是全国人民代表大会的相关信息。而多重含义的查询,是指在该查询下常包含了多个领域,例如,搜索“红楼梦”,用户实际是想找与该查询相关的一个具体领域,如“红楼梦电视剧”,“红楼梦著作”,“红楼梦人物”,“红楼梦明星”等。搜索结果多样化技术旨在解决上述问题。目前,搜索结果多样化方法可以划分为两大类:隐性(implicit)方法和显性(explicit)方法。早期的多样化技术大多属于隐性多样化模型,其中最有影响力的工作之一是Carbonell和Goldstein在1998年提出的MMR算法。这类隐性方法认为,如果两个文档(搜索结果)的文本内容越相似,则这两个文档涉及的话题越相似,冗余性越高。如果能减少排序中的冗余文档,即可提高排序的多样性。于是,在多样化重排序时,隐性方法侧重于比较文档间的相似度,将更新颖的文档排在 ...
【技术保护点】
一种基于层次结构子话题的搜索结果多样化排序方法,其特征在于,所述方法包括如下步骤:1)定义查询词的层次结构树状子话题的表示方法;2)对层次结构子话题和查询、文档的相关性进行估算;3)建立基于查询词的层次结构子话题的搜索结果多样化模型;其中,所述步骤3)通过两种排序方法的任一种实现:a)排序方法一:根据层次结构话题新颖性模型对文档进行多样化排序;b)排序方法二:根据层次结构话题比例模型对文档进行多样化排序。
【技术特征摘要】
1.一种基于层次结构子话题的搜索结果多样化排序方法,其特征在于,所述方法包括
如下步骤:
1)定义查询词的层次结构树状子话题的表示方法;
2)对层次结构子话题和查询、文档的相关性进行估算;
3)建立基于查询词的层次结构子话题的搜索结果多样化模型;
其中,所述步骤3)通过两种排序方法的任一种实现:
a)排序方法一:根据层次结构话题新颖...
【专利技术属性】
技术研发人员:窦志成,文继荣,胡莎,
申请(专利权)人:中国人民大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。