当前位置: 首页 > 专利查询>微软公司专利>正文

内容评估制造技术

技术编号:2853593 阅读:147 留言:0更新日期:2012-04-11 18:40
本发明专利技术描述了内容评估,包括使用与内容相关联的属性来生成数据集、使用统计分布评估该数据集来标识一类统计离群值、以及分析网页以确定该网页是否是该类统计离群值的部分。一种系统包括被配置成存储数据的存储器,以及处理器,它被配置成使用与内容相关联的属性来生成数据集、使用统计分布评估该数据集来标识一类统计离群值、并分析网页以确定该网页是否是该类统计离群值的部分。另一种方法包括爬寻一组网页、评估该组网页来计算统计分布、将统计分布中的离群值页面标记为Web垃圾、以及创建网页和离群值页面的索引来回答查询。

【技术实现步骤摘要】

本专利技术涉及软件。更具体地,揭示了内容评估
技术介绍
未经请求的内容,通常称为“垃圾”,由于通过包括万维网(Web)的各种电子媒体向用户发送和由用户接收大量不需要的数据而造成问题。可以使用电子邮件或其他电子内容传送机制,包括消息通信、因特网、Web或其他电子通信媒体来传送垃圾。在搜索引擎、爬寻程序(crawler)、机器人程序(bot)及其他内容过滤机制的上下文中,对Web上不需要的内容(Web垃圾)的检测成为日益严重的问题。例如,当执行搜索时,适合给定搜索的所有网页可在结果页面中列出。包含在搜索结果页面中的网页可以是为特别地增加特定网站的可见性而生成的网页。Web垃圾会将不需要的内容“推”向用户,希望能诱使用户访问特定的网站。Web垃圾还会生成大量对用户不可用或令人厌烦的数据,并且能减慢搜索引擎的执行或阻碍其准确性。有各种类型机制可以用于提升特定网页在搜索清单或等级中的可见性。在很多情况下,垃圾可通过Web和因特网为商业目的而出现。例如,为了增强特定网页的期许程度或“可搜索性”,搜索引擎优化器(SEO)自动或手动地生成垃圾网页(Web垃圾)。SEO试图提高网站在搜索清单中的分级,并因此生成大量的垃圾网页。目标网站或网页可能能够增加它在特定搜索中的等级或优先级,从而在结果页面上得到更显著的位置和定位,导致来自用户的通信量增加。因此,SEO能够基于改进客户机网站对更大通信量和更多用户的曝光度来产生收入。某些SEO可以使用关键词填充来创建网页,这样的网页可包括多个关键词却不包含实际内容。另一个问题是链接垃圾,这会创建链接到特定网页(商业客户机)的大量网页,从而误导并导致搜索引擎提高特定网站或网页在搜索结果内的等级。在其他情况下,可以通过生成大量相互之间有些许区别的网页来创建Web垃圾,目的在于使这些页面中的一个能够被搜索引擎赋予较高的等级。因此,需要一种用于检测未经请求的在线内容而没有现有技术的限制的解决方案。附图说明本专利技术的各种实施例在下面的详细描述和附图中揭示图1示出了垃圾网页;图2示出了用于评估内容的示例性流程图;图3示出了用于评估内容的另一示例性流程图;图4示出了通过评估主机名形成的示例性统计分布;图5示出了通过对每个地址评估多个主机名形成的示例性统计分布;图6示出了通过评估主机-机器比形成的示例性统计分布;图7A示出了通过使用链入度(in-degree)评估链接结构形成的示例性统计分布;图7B示出了通过使用链出度(out-degree)评估链接结构形成的示例性统计分布;图8示出了通过评估Web服务器上页面之间的字数变化形成的示例性统计分布;图9示出了通过评估页面演化形成的示例性统计分布;图10示出了通过评估近似重复的页面的聚类形成的示例性统计分布;及图11为框图,示出适用于评估内容的示例性计算机系统。具体实施例方式本专利技术可以用众多方法来实现,包括被实现为过程、装置、系统、合成物、诸如计算机可读存储介质或其中通过光或电通信链路发送程序指令的计算机网络等计算机可读介质。在本说明书中,这些实现或本专利技术可以采取的任何其他形式,都可以被称为技术。一般而言,可以在本专利技术的范围内更改所揭示的过程的步骤的顺序。下面提供对本专利技术的一个或多个实施例的详细描述,以及示出本专利技术原理的附图。本专利技术是关于这样的实施例描述的,但本专利技术并不限于任何实施例。本专利技术的范围仅由权利要求限定,且本专利技术包括众多替换、修改及等价物。在下面的描述中阐明众多具体细节,以提供对本专利技术的完整理解。这些细节是作为例子提供的,且本专利技术可以根据权利要求书来实现而不包括这些具体细节的部分或全部。为了简单起见,未详细描述与本专利技术有关的
中已知的技术材料,从而不会不必要地使本专利技术含糊。Web垃圾的检测是减少和消除不需要的内容的重要目标。取决于用户的偏好,某些内容可能是不需要的,且可以执行检测来确定是否存在Web垃圾。使用通过使用与一组所爬寻的网页相关联的各种参数或属性形成的统计分布,可以对搜索结果中的所有页面开发一个图。在此,图可以指图表、图形、或使用各种参数的数据图。作为例子,可以开发这样的图,其中可以对搜索引擎爬寻的每个页面画出一个点,而使用这些页面的一个或多个属性来画出该图。在某些例子中,可以在创建搜索引擎索引期间执行Web垃圾检测技术,而不是在执行查询时执行,以免延迟向用户发送搜索结果。在其他例子中,可以通过不同的方式执行Web垃圾检测。一旦标识出离群值,就可以使用各种技术进一步评估与该离群值相关联的网页。然而,一旦检测到Web垃圾,就可以执行删除、过滤、降低搜索引擎的等级或其他动作。可以使用软件或硬件应用程序(如,计算机程序、软件、软件系统及其他计算系统)来实现用于评估内容以便检测Web垃圾的技术。图1示出了垃圾网页。垃圾网页(“Web垃圾”)也可以包括其他形式的垃圾,如链接垃圾、关键字填充、诸如统一资源定位符(URL)等合成地址,但通常不包括电子邮件垃圾。作为例子,垃圾网页100包括关键词、搜索项及链接,其每一个都可以由SEO生成来提高网站在来自搜索引擎等的搜索结果列表中的等级。在此例中,生成了关键词、内容、链接与合成URL,以便提供用于向目标网站送去附加通信量的机制。在此,一个信用修复或贷款代理的网站可以是垃圾网页100的目标网站。可以检测如这样的SEO技术,并使用该技术来指示搜索引擎发现的特定内容或内容结果是否包括Web垃圾。图2示出了用于评估内容的示例性流程图。在此,提供一总体过程,用于使用各种技术拉评估内容以便检测Web垃圾。在此例中,搜索引擎通过爬寻一组网页来生成数据集(202)。评估爬寻过的网页来形成统计分布(204)。将与统计分布中的离群值相关联的页面标记为Web垃圾(206)。一旦检测到并标记了Web垃圾,就可以对所有爬寻过的页面创建搜索索引,包括Web垃圾(208)。在某些例子中,检测到的Web垃圾可以被排除在搜索引擎索引之外、得到较低的搜索等级,或以使得用户查询不受影响或不被Web垃圾填充的方式来处理,从而响应于查询生成更加相关的搜索结果(210)。下面结合图4-10更详细地描述了可以使用的统计分布的某些例子。用于评估内容的另一过程在图3中示出。图3示出了用于评估内容的另一示例性流程图。在此例中,提出了一种用于确定是否存在Web垃圾的替换方法。在此,可以从一组爬寻过的网页生成数据集(302)。这些网页可以代表搜索引擎索引中的所有页面。在其他例子中,可以从一组不同的网页生成数据集。一旦生成,就可以使用统计分布来评估该数据集,以标识一类统计离群值(304)。对照所标识的这类统计离群值,可以分析各个网页来确定这些页面是否包括落在该类统计离群值中的参数(306)。可以形成各种类型的统计分布,从这些统计分布中可以确定各类统计离群值。这些统计离群值可以与如上所述的那些是Web垃圾的网页相关联。作为例子,当使用各种属性或参数,如统一资源定位符(URL)形成统计分布时,可得到各种离群值。URL表示网页的地址,可以将其用作用于确定由该URL定址的页面是否是Web垃圾的参数。在某些例子中,合成URL可以用来定址页面。合成URL是自动生成的,而不是由开发者、管理员或其他Web内容提供者手动生成的。这些URL可以看起来不一本文档来自技高网
...

【技术保护点】
一种用于评估内容的方法,包括:使用与所述内容相关联的属性生成数据集;使用统计分布评估所述数据集,来标识一类统计离群值;以及分析网页,以确定该网页是否是所述一类统计离群值的部分。

【技术特征摘要】
US 2004-9-30 10/956,2281.一种用于评估内容的方法,包括使用与所述内容相关联的属性生成数据集;使用统计分布评估所述数据集,来标识一类统计离群值;以及分析网页,以确定该网页是否是所述一类统计离群值的部分。2.如权利要求1所述的方法,其特征在于,所述属性是地址。3.如权利要求1所述的方法,其特征在于,所述属性是地址属性。4.如权利要求1所述的方法,其特征在于,所述属性是统一资源定位符属性。5.如权利要求1所述的方法,其特征在于,所述属性是主机名解析特征。6.如权利要求5所述的方法,其特征在于,所述主机名解析特征表示分配给一个地址的多个名称。7.如权利要求5所述的方法,其特征在于,所述主机名解析特征是主机-机器比。8.如权利要求1所述的方法,其特征在于,所述属性是链接结构。9.如权利要求1所述的方法,其特征在于,所述属性是句法内容。10.如权利要求1所述的方法,其特征在于,所述属性是内容演化。11.如权利要求1所述的方法,其特征在于,所述属性是相似网页的聚类。12.如权利要求1所述的方法,其特征在于,所述数据集是在选择样本总体之前生成的。13.如权利要求1所述的方法,其特征在于,所述分析网页还包括确定是否存在Web垃圾。14.如权利要求13所述的方法,其特征在于,所述确定是否存在Web垃圾还包括评估多个网页;以及确定与每个网页相关联的主机名的长度。15.如权利要求13所述的方法,其特征在于,所述确定是否存在Web垃圾还包括评估所述网页,其中与所述网页相关联的主机名被解析到一个地址;以及确定其他网页是否将其他主机名解析到所述地址。16.如权利要求13所述的方法,其特征在于,所述确定是否存在Web垃圾还包括评估所述网页来确定主机-机器比。17.如权利要求16所述的方法,其特征在于,所述主机-机器比是通过将包含在所述网页中的不同主机名的数量除以与所述不同主机名数量相关联的不同地址的数量来确定的。18.如权...

【专利技术属性】
技术研发人员:DC菲特利MA纳约克MS玛纳瑟
申请(专利权)人:微软公司
类型:发明
国别省市:US[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1