【技术实现步骤摘要】
相关申请的参照本专利技术涉及具有序列号_____、题为“System and Method for IncorporatingAnchor Text into Ranking Search Results”(将锚文本并入搜索结果分级中的系统和方法)、与本申请同时提交的专利申请。本专利技术还涉及具有序列号10/804,326、题为“Field Weighting in Text Document Searching”(文本文档搜索中的字段加权)、于2004年3月18日提交的专利申请。这些相关申请被转让给本专利申请的受让人,并通过引用包含在此。
技术介绍
在文本文档的搜索中,用户通常将查询输入到搜索引擎中。搜索引擎对照编入索引的文档的数据库来评估该查询,并返回最满足该查询的文档的已分级列表。表示文档如何满足查询的度量的得分由搜索引擎算法化地生成。常用评分算法依靠将查询分割为搜索词,并使用关于各个词在要搜索的文本文档正文中的出现的统计信息。各文档根据其对应的分数,按照等级顺序列出,从而用户能够在搜索结果列表的顶部看到最匹配的搜索结果。某些搜索引擎可用于改进结果质量的另一种 ...
【技术保护点】
一种用于对搜索结果分级的计算机实现的方法,其特征在于,包括:为网络上的文档存储文档和链接信息;从所记录的文档和链接信息生成所述网络的表示,其中,所述网络的表示包括代表所述文档的节点;为所述网络表示中的每个节点计算点击 距离,其中,所述点击距离是从被指定为最高权威节点的第一节点到与所计算的点击距离相关联的第二节点测算的;以及在对文档分级时,使用所计算的与每个文档相关联的点击距离,作为查询不相关的相关性度量,以产生已分级的搜索结果。
【技术特征摘要】
US 2004-9-30 10/955,9831.一种用于对搜索结果分级的计算机实现的方法,其特征在于,包括为网络上的文档存储文档和链接信息;从所记录的文档和链接信息生成所述网络的表示,其中,所述网络的表示包括代表所述文档的节点;为所述网络表示中的每个节点计算点击距离,其中,所述点击距离是从被指定为最高权威节点的第一节点到与所计算的点击距离相关联的第二节点测算的;以及在对文档分级时,使用所计算的与每个文档相关联的点击距离,作为查询不相关的相关性度量,以产生已分级的搜索结果。2.如权利要求1所述的计算机实现的方法,其特征在于,生成所述网络的表示还包括生成网络图并将所述网络图存储到存储器中。3.如权利要求1所述的计算机实现的方法,其特征在于,计算所述点击距离还包括将与除了对应于岁数最高权威节点的文档之外的每个文档相关联的点击距离初始化到最大值。4.如权利要求1所述的计算机实现的方法,其特征在于,还包括将所述网络表示的当前节点存储到一节点队列中,直至计算了与所述当前节点相关联的各目标节点的点击距离。5.如权利要求4所述的计算机实现的方法,其特征在于,当所述各目标节点之一的点击距离大于当前节点的点击距离加一变量时,所述各目标节点之一的点击距离被设置为当前节点的点击距离加所述变量。6.如权利要求1所述的计算机实现的方法,其特征在于,所计算的与每个文档相关联的点击距离被合并到包括对应于每个文档的其它统计量的索引中。7.如权利要求6所述的计算机实现的方法,其特征在于,用所计算的点击距离和所述其它统计量填充所述评分函数,以产生用于对文档分级的得分。8.如权利要求1所述的计算机实现的方法,其特征在于,使用所计算的与每个文档相关联的点击距离作为查询不相关的相关性度量还包括在评分函数中使用对应于所述点击距离的分量,来为每个所述文档确定相关性得分。9.如权利要求8所述的计算机实现的方法,其特征在于,所述相关性得分是用平滑所述点击距离在所述相关性得分上的效果的统一资源定位器深度属性来补偿的。10.如权利要求1所述的计算机实现的方法,其特征在于,生成所述网络的表示还包括生成其中所述网络表示内的一个以上的节点被指定为高权威节点的网络表示。11.如权利要求1所述的计算机实现的方法,其特征在于,还包括允许在计算了所述点击距离之后手动改变所述点击距离。12.如权利要求1所述的计算机实现的方法,其特征在于,还包括根据一评分函数(score)对文档分级,所述评分函数至少根据以下各项来确定所计算的点击距离(CD)、查询不相关分量的权重(wcd)、点击距离的权重(bcd)、URL深度的权重(bud)、URL深度(UD)、以及点击距离饱和常数(kcd)。13.如权利要求1所述的计算机实现的方法,其特征在于,还包括根据一评分函数(score)对文档分级,所述评分函数至少根据以下各项来确定所计算的点击距离(CD)、加权词频率(wtf)、加权文档长度(wdl)、平均加权文档长度(avwdl)、网络上的文档数量(N)、包含查询词的文档的数量(n)、查询不相关分量的权重(wcd)、点击距离的权重(bcd)、URL深度的权重(bud)、URL深度(UD)、点击距离饱和常数(kcd)、和其它常数(k1、b)。14.如权利要求13所述的计算机实现的方法,其特征在于,所述评分函数(score)由下式给出score=Σwtf(k1+1)k1((1-b)+bwdlavwdl)+wtf×log(Nn)+wcdkcdkcd+bcdCD+budUDbcd+bud]]>15.一种用于对搜索结果分级的系统,包括包括在计算设备上的搜索引擎,所述搜索引擎被配置成执行计算机可执行指令,所述计算机可执行指令包括发现网络上的文档;为网络上的每个文档存储文档和链接信息;从所记录的文档和链接信息生成所述网络的表示,其中所述网络的表示包括代表所述文档的节点;计算从最高权威...
【专利技术属性】
技术研发人员:D梅耶宗,H扎拉古扎,
申请(专利权)人:微软公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。