当前位置: 首页 > 专利查询>微软公司专利>正文

用于估计关于搜索的电子文档的方法和系统技术方案

技术编号:2856020 阅读:160 留言:0更新日期:2012-04-11 18:40
估计关于搜索的电子文档。外部源为用户提供数据用于估计由搜索引擎获得的电子文档。基于外部提供的数据确定电子文档的第一信任级别。第一信任级别指示电子文档是不希望的似然性。基于电子文档的属性确定电子文档的第二信任级别。第二信任级别指示关于搜索的电子文档是不满意的似然性。产生的电子文档的等级作为确定的第一信任等级和确定的第二信任等级的函数用于将电子文档分类为关于接收的搜索请求是不满意的。

【技术实现步骤摘要】

本专利技术的实施例涉及使用通信网络搜索相关数据实体的领域。尤其是,本专利技术的实施例涉及使用外部数据来阻止由电子文档建立者的故意操作以至于把搜索引擎误导为给该电子文档不该有的高级别。
技术介绍
因特网具有分布在众多计算机上的大量的信息,因此为用户提供各种主题的大量信息。这一点对许多其它通信网络例如企业内部互联网和外部互联网来说也是实事。尽管在网络上有大量信息可用,找到想要的信息通常并不容易或不快。搜索引擎被发展用来从事在网络上寻找想要信息的问题。典型地,具有所需类型信息的想法的用户输入一个或多个搜索术语到搜索引擎。该搜索引擎返回一列搜索引擎确定包括与用户指定的搜索术语相关的电子文档的网络位置(例如,统一资源定位器(URLs))。许多搜索引擎还提供相关级别。典型的相关级别是与其它电子文档相比给定网络位置的电子文档与用户指定的搜索术语相关的相对的似然性估计。例如,常规的搜索引擎可以基于特定搜索术语在电子文档中出现的次数,在电子文档中的位置(例如,术语出现在标题通常被认为比出现在电子文档的结尾更重要)来提供相关级别。此外,链接分析在排列网页和其它超链接文档中也变成强有力的技术。固定-文本本文档来自技高网...

【技术保护点】
一种估计关于搜索的电子文档的方法,该方法包括:确定电子文档的第一信任级别,所述的电子文档可以响应于来自用户的搜索请求由搜索引擎来获得,所述的第一信任级别基于由搜索引擎外部的源提供的信息,指示电子文档是不希望的似然性;确定电子 文档的第二信任级别,所述的第二信任级别基于一个或多个电子文档的属性,指示电子文档是相对于搜索请求不令人满意的似然性;产生用于电子文档的作为确定的第一信任级别和确定的第二信任级别的函数的等级;以及基于产生的电子文档的等级,标明 电子文档对于搜索请求是不令人满意的。

【技术特征摘要】
US 2004-5-21 10/850,6231.一种估计关于搜索的电子文档的方法,该方法包括确定电子文档的第一信任级别,所述的电子文档可以响应于来自用户的搜索请求由搜索引擎来获得,所述的第一信任级别基于由搜索引擎外部的源提供的信息,指示电子文档是不希望的似然性;确定电子文档的第二信任级别,所述的第二信任级别基于一个或多个电子文档的属性,指示电子文档是相对于搜索请求不令人满意的似然性;产生用于电子文档的作为确定的第一信任级别和确定的第二信任级别的函数的等级;以及基于产生的电子文档的等级,标明电子文档对于搜索请求是不令人满意的。2.权利要求1的方法,其中所述的外部源包括电子邮件兜售信息检测系统。3.权利要求1的方法,其中所述的电子文档包括一个或多个下述内容网页和多媒体文件。4.权利要求1的方法,其中确定第一信任级别包括从外部源接收一个或多个主机名字,其中由接收的主机名字提供的信息具有预定的不希望的似然性;鉴别由一个接收的主机名字提供的电子文档;以及响应于鉴别该电子文档为一个接收的主机名字提供的,指定用于电子文档的第一信任级别,该第一信任级别基于预定的似然性。5.权利要求4的方法,进一步包括为链接自电子文档的一个或多个其他的电子文档指定第一信任级别。6.权利要求1的方法,其中确定第一信任级别包括从外部源接收一个或多个网络地址,其中外部源鉴别一个或多个位于接收到的其中一个网络地址中的电子文档为不希望的预定的似然性;鉴别电子文档位于一个接收的网络地址中;以及指定电子文档的第一信任级别,响应于鉴别电子文档为位于一个接收的网络地址中,所述的第一信任级别基于预定的似然性。7.权利要求1的方法,其中确定第一信任级别包括从外部源接收用户提供的信息,所述的用户提供的信息指定电子文档为不希望的;响应于接收的用户提供的信息,鉴别一个或多个电子文档的属性,所述的属性表征电子文档的不希望的模式;以及基于鉴别的电子文档的属性指定电子文档的第一信任级别。8.权利要求1的方法,其中确定第一信任级别包括从外部源接收一个或多个术语,其中外部源确定其中出现至少一个接收的术语的一个或多个电子文档具有不希望的预定的似然性;在电子文档中检测至少一个接收的术语出现;以及响应于在电子文档中检测的至少一个接收的术语的出现,指定电子文档的第一信任级别,该第一信任级别基于预定的似然性。9.权利要求1的方法,其中确定第二信任级别包括分析电子文档以鉴别电子文档的属性,所述的属性表征了关于搜索的电子文档的不希望的模式;以及基于电子文档的属性确定第二信任级别。10.权利要求1的方法,其中确定第二信任级别包括接收用户提供的关于电子文档的信息,所述的接收的用户提供的信息指定电子文档在搜索结果中为不希望的;响应于接收的用户提供的信息,鉴别一个或多个电子文档的属性,所述的属性表征关于搜索的电子文档的不希望的模式;以及基于鉴别的电子文档的属性来确定第二信任级别。11.权利要求1的方法,进一步包括响应接收到的搜索请求,为用户提供搜索结果;以及执行一个或多个下面的步骤指示在提供的搜索结果中指定为不满意的电子文档,从提供的搜索结果中除去指定为不满意的的电子文档,并且当电子文档的等级超过了在提供的搜索结果中预定的等级时,在提供的搜索结果中保存电子文档的排序。12.权利要求1的方法,其中一个或多个计算机可读媒质具有计算机可执行指令来执行权利要求1中提到的方法。13.一种估计关于搜索的电子文档的方法,该方法包括接收用户提供的关于电子文档的信息,所述的电子文档可以响应于来自用户的搜索请求而由搜索引擎获得,所述用户提供的信息表征了电子文档为不希望的;产生作为接收的用户提供的信息的函数的电子文档的等级;以及根据产生的电子文档的等级,指定电子文档相对于搜索请求为不满意的。14.权利要求13的方法,其中所述的电子文档包括一个或多个下面的内容网页和多媒体文件。15.权利要求13的方法,其中接收的用户提供的信息指定电子文档与不希望的电子邮件有关。16.权利要求13的方法,其中接收的用户提供的信息指定电子文档为在搜索结果中是不希望的。17.权利要求13的方法,其中产生电子文档的等级包括分析电子文档来鉴别一个或多个电子文档的属性;以及给统计概率分类器提供鉴别的属性来产生电子文档的等级,所述的统计概率分类器被训练来识别所鉴别的属性是否是不希望的。18.权利要求13的方法,其中统计概率分类器包括一个或多个可以从下组中选择的分类器,包括 Bayesian分类器,有限依靠Bayesian分类器,Bayesian网络分类器,决策树,支持矢量机器,内容匹配分类器,最大上熵分类器,及其组合。19.权利要求13的方法,其中产生电子文档的等级包括确定接收的用户提供的信息的确实性,以及产生电子文档的等级为确定的确实性的函数。20.权利要求19的方法,其中确定接收的用户提供的信息的确实性包括接收其他用户提供的关于电子文档的信息,以及确定其他用户提供的信息是否与接收的用户提供的信息一致。21.权利要求13的方法,其中一个或多个计算机可读媒质具有执行权利要求13提到的方法的计算机可执行指令。22.一种用于估计关于搜索的电子文档的系统,所述的系统包括处理器,用于接收来自用户的搜索请求并且基于接收的搜索请求鉴别电子文档;存储区,存储由处理器外部的源提供的数据,用于估计电子文档是否是不希望的;所述处理器被配置成确定电子文档的第一信任级别,基于外部源提供的数据,所述的第一信任级别指示了电子文档是不希望的似然度;所述处理器还被配置成建立电子文档的第二信任级别,基于一个或多个电子文档的属性,所述的第二信任级别指示电子文档是相对于搜索不满意的似然度;所述处理器还被配置成产生作为确定的第一信任级别和建立的第二信任级别的函数的电子文档的等级,基于产生的电子文档的等级,来将电子文档分类为相对于接收的搜索请求为不满意。23.权利要求22的系统,其中所述的外...

【专利技术属性】
技术研发人员:B拉马拉斯森纳姆EB沃森JR克拉姆
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1