广域网搜索中搜索列表项内容的适当性确定的自动化处理制造技术

技术编号:2859009 阅读:264 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种用于提高用于评价候选数据项的数据库处理系统的效率的方法和系统,所述候选数据项代表了被提交以包括到搜索引擎数据库中的搜索列表项。自动评估候选搜索列表项的质量、风格和相关性,以评价被用户不满地接收到的风险以及潜在的暴露量。较高风险或较大量的搜索列表项被路由通过手动编辑审查,而较低风险、较小量的搜索列表项被路由为立即包括到搜索数据库中,而无需手动编辑评价。因此,人工编辑工作可以投入到对高风险或较大量的搜索列表项的手动审查中,同时提高了在作为整体的处理系统中的效率。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及自动化文档内容分析的领域,更具体地说,涉及用于自动确定将搜索列表项包括到广域网搜索引擎数据库中的适当性的机制。
技术介绍
因特网是具有真正意义上全球触及范围的广域网,将全世界的计算机互连在一起。因特网中一般被称为全球万维网的那一部分是数量惊人的相互关联的数据集合。全球万维网(有时被称为“万维网”)的内容包括已知的HTML(超文本置标语言)格式的文档,这些文档根据已知的HTTP(超文本传输协议)协议通过因特网来传输,诸如此类。万维网内容的广度和深度对于任何希望在其中寻找特定信息的人来说都是惊人及繁重的。因此,万维网中非常重要的一个组件就是搜索引擎。使用在这里,搜索引擎是一种用于定位与一个或多个用户指定的搜索项(search term)相关的内容的交互式系统,所述一个或多个搜索项总地代表一次搜索查询。通过公知的公共网关接口(CGI),万维网可以包括交互式的内容,所谓交互式即对与万维网相连的计算机的人工用户所指定的数据做出响应。搜索引擎从用户接收到具有一个或多个搜索项的搜索查询,并且向该用户提供一列被确定为与所述搜索查询相关的一个或多个文档。搜索引擎极大提高了用户在万维网上定位所需信息的效率。因此,搜索引擎是因特网上最常用的资源之一。一个有效的搜索引擎可以帮助用户在当前表示在万维网内的数以十亿计的文档中对非常具体的信息进行定位。搜索引擎的主要功能以及它存在的意义就在于当给定用户查询的一些搜索项时,在可以获得的数以十亿计的文档中识别出少数最相关的结果,并且在尽可能短的时间内实现上述功能。因此,搜索引擎的一项非常重要的功能就是确定文档对于搜索查询的相关性。一般地,搜索引擎维护一个记录数据库,这些记录将搜索项和万维网上的信息资源关联起来。当前,搜索引擎主要用几种常用的方式来获得有关万维网内容的信息。最常见的一种方式一般被称为在万维网上爬行(crawling),第二种方式是通过由这些信息的提供者或者由第三方(即,既不是信息的提供者,也不是搜索引擎的提供者)来提交这些信息。搜索引擎获得有关万维网内容的信息的另一种常见方式是让人工编辑基于他们的审查来创建信息的索引。为了理解爬行方式,我们必须首先明白,万维网的文档可以包括对万维网的其他文档的引用,这些引用通常被称为链接。只要“点击”了文档的一部分,使得被引用的文档显示出来,我们就激活了这样一个链接。在万维网上爬行一般是指一个自动的过程,即利用该过程,由一个文档引用的若干文档被获取并被分析,而由这些文档引用的文档又被获取并被分析,并且递归式地重复以上获取和分析。因而,尝试着自动遍历整个万维网,从而为万维网的全部内容编目。由于万维网的文档经常被添加和/或修改,而且万维网非常庞大,所以还不曾有一个万维网爬行器成功地为整个万维网编目。因此,希望让自己的内容包括在搜索引擎数据库中的万维网内容提供者直接将他们的内容提交给搜索引擎的提供者。可以通过因特网获得的内容和/或服务的其他提供者与搜索引擎的运营商签订协议,以使他们的内容被定期地爬过并被更新,使得搜索结果包括当前信息。有一些搜索引擎允许因特网内容和/或服务的提供者编写并且提交在搜索查询的结果中与他们的内容和/或服务相关联的简要标题和描述,例如由位于加利福尼亚州Pasadena的OvertureService公司(http//www.overture.com)提供的搜索引擎,在美国专利6,269,361中对该搜索引擎进行了描述,通过引用将这篇专利包含在本说明书中。随着因特网的发展以及因特网上商业活动的增多,一些搜索引擎已专门用于提供与普通信息结果分开显示的商业性搜索结果,额外的好处就是有助于因特网上的商业交易。一种这类的搜索引擎就是如上所述在’361专利中描述并且由Overture Services公司提供的搜索引擎。由于提供多余信息的搜索引擎与最少化地提供多余信息的搜索引擎相比明显处于劣势,所以搜索引擎的提供者都非常想要最大化被提供给搜索查询的结果的相关性。因此,搜索引擎的提供者在将每个列表项包括进他们的数据库之前,通常要审查各个搜索列表项的内容的期望性和适当性,以响应于搜索查询实时递送搜索结果。由于万维网上的信息数量不计其数,所以这种审查是一项很难完成的任务。此外,由于具体搜索列表项的适当性要根据对搜索列表项自身以及该搜索列表项所引用内容的微妙人工观念而定,所以内容审查一般还没有实现自动化。搜索引擎的运营商一般只能在以下两者之间进行选择(i)自动生成搜索结果,其中的列表项具有可疑的相关性,因此对用户的价值低一些;或者(ii)通过人工编辑,手动生成更相关的搜索列表项,但是范围大大缩小。虽然手动编辑的搜索列表项具有高得多的相关性,并且因此可以更有效地吸引客户访问搜索引擎,但是在时间和资源两方面,对搜索列表项的手动编辑是非常昂贵的,并且大大延迟了新提交的搜索列表项对搜索引擎用户的可获得性。搜索列表项被延迟的可获得性降低了搜索列表项响应于搜索查询被产生为结果的当前性。所需要的是这样一种机制,利用该机制,可以有效地完成对一个或多个搜索列表项的审查,同时保持对给定的搜索列表项给人工用户留下的印象的精确分析,所述人工用户是看到了所述搜索列表项和/或由该搜索列表项引用的内容的人工用户。
技术实现思路
根据本专利技术,对候选的搜索列表项进行自动评价,以确定所述搜索列表项与内容策略相一致的可能性。具体地说,被确定为较低风险并且较小量的候选搜索列表项可以自动并且快速地被批准包括到搜索列表项数据库中,以响应于用户的实时查询即刻作为结果来使用。提交候选搜索列表项以包括到搜索引擎数据库中的各方将因所提交的搜索列表项的快速批准和可用性而获益。此外,各方可被自动通知所提交列表项的自动批准或拒绝,从而提供更高的满意度,并且提升对候选搜索列表项评价过程的效率和有效性的信心。快速并且自动地批准将较低风险、较小量的候选搜索列表项包括到搜索列表项数据库中的另一项好处在于可以将宝贵的人力资源投入到对以下候选搜索列表项更加仔细的编辑审查中,所述候选搜索列表项是那些被自动确定为不是较低风险或者不是较小量的搜索列表项。因此,对候选搜索列表项的编辑审查的质量提高了,同时提高了对所有候选搜索列表项进行编辑审查的效率。为了评估候选搜索列表项与预定的内容策略相一致的可能性所进行的自动预处理一般包括质量、风格和相关性分析。质量分析评估内容的本质,具体地说,评估候选搜索列表项的内容令人反感的可能性和程度。某些类型的内容是非常令人反感的,以致于被搜索引擎提供者单方面禁止,并且一旦在候选搜索列表项中检测到这种被拦截的内容,就自动拒绝该列表项,并将如此拒绝以及拒绝的理由通知给提交源。可疑项是指示了应对候选搜索列表项进行更彻底审查的那些项。检测到搜索列表项中的可疑内容将导致该搜索列表项被路由到对搜索列表项的手动审查,以确定该搜索列表项是否和内容策略相一致,并且通知提交者这种手动审查正在进行中。同样,搜索列表项中的性和赌博内容并不会自动将该搜索列表项标记为拒绝,而是将该搜索列表项标记为由人工编辑进行更彻底的手动审查。然而,搜索列表项内毫无意义的垃圾文本将导致该搜索列表项被自动拒绝,并且提交者获得通知。在对候选搜索列表项的风格的自动评价中,通常可能会有三个动作。应当注意的是,这三本文档来自技高网
...

【技术保护点】
一种用于评价将数据项包括到网络可访问数据库中的适当性的方法,所述方法包括:确定所述数据项与预定的内容策略相一致的可能性;将所述可能性与预定的阈值进行比较;以及一旦出现所述可能性低于所述预定阈值的状况,就将所述数据项包 括到所述网络可访问数据库中,而无需对所述数据项进行人工审查。

【技术特征摘要】
US 2002-9-13 10/244,0511.一种用于评价将数据项包括到网络可访问数据库中的适当性的方法,所述方法包括确定所述数据项与预定的内容策略相一致的可能性;将所述可能性与预定的阈值进行比较;以及一旦出现所述可能性低于所述预定阈值的状况,就将所述数据项包括到所述网络可访问数据库中,而无需对所述数据项进行人工审查。2.如权利要求1所述的方法,其中所述数据项是搜索列表项,并且所述网络可访问数据库包括计算机化的网络搜索引擎数据库。3.如权利要求1所述的方法,其中可通过超文本传输协议来访问所述网络可访问数据库。4.如权利要求1所述的方法,其中可通过因特网来访问所述网络可访问数据库。5.如权利要求1所述的方法,其中所述数据项包括文本内容。6.如权利要求1所述的方法,其中所述数据项是计算机化文档。7.如权利要求1所述的方法,其中所述数据项是与超文本置标语言相一致的计算机化文档。8.如权利要求1所述的方法,还包括一旦出现所述可能性至少等于所述预定阈值的状况,就要求对所述数据项进行人工审查,以确定所述数据项是否与所述预定的内容策略相一致。9.如权利要求8所述的方法,其中所述预定的内容策略阻止一个或多个拦截项;并且其中,一旦确定所述数据项包括代表所述拦截项中的至少一项的数据,则所述可能性至少等于所述预定阈值。10.如权利要求9所述的方法,其中,一旦确定所述数据项包括代表所述拦截项中的至少一项的数据,则所述数据项被进一步确定为不适于包括到所述网络可访问数据库中。11.如权利要求8所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且其中,一旦确定所述数据项包括代表所述可疑项中的至少一项的数据,则所述可能性至少等于所述预定阈值,从而需要对所述数据项进行人工审查。12.如权利要求8所述的方法,其中,确定操作包括确定所述数据项是否包括代表一个或多个预定的色情项的数据;并且其中,一旦确定所述数据项包括代表所述预定色情项中的至少一项的数据,则所述可能性至少等于所述预定阈值。13.如权利要求8所述的方法,其中的确定操作包括确定所述数据项是否包括代表一个或多个预定的赌博项的数据;并且其中,一旦确定所述数据项包括代表所述预定赌博项中的至少一项的数据,则所述可能性至少等于所述预定阈值。14.如权利要求1所述的方法,还包括确定所述数据项包括无意义的文本;以及拒绝将所述数据项包括到所述网络可访问数据库中。15.如权利要求1所述的方法,还包括修改所述数据项,以和所述预定的内容策略相一致;其中,所述确定操作包括确定经过修改的所述数据项与所述预定的内容策略相一致的可能性。16.如权利要求1所述的方法,还包括预测所述数据项的访问频率;将所预测的访问频率与访问频率的预定阈值进行比较;一旦出现所预测的频率至少等于所述预定阈值的状况,那么无论所述数据项与所述预定的内容策略相一致的可能性如何,都需要对所述数据项进行人工审查,以确定所述数据项是否与所述预定的内容策略相一致。17.一种用于评价将数据项包括到网络可访问数据库中的适当性的方法,所述方法包括确定所述数据项与预定的内容策略相一致的可能性;将所述可能性与预定的阈值进行比较;以及一旦出现所述可能性至少等于所述预定阈值的状况,就需要对所述数据项进行人工审查,以确定所述数据项是否与所述预定的内容策略相一致。18.如权利要求17所述的方法,其中所述预定的内容策略阻止一个或多个拦截项;并且其中,一旦确定所述数据项包括代表所述拦截项中的至少一项的数据,则所述可能性至少等于所述预定阈值。19.如权利要求18所述的方法,其中,一旦确定所述数据项包括代表所述拦截项中的至少一项的数据,则所述数据项被进一步确定为不适于包括到所述网络可访问数据库中。20.如权利要求17所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且其中,一旦确定所述数据项包括代表所述可疑项中的至少一项的数据,则所述可能性至少等于所述预定阈值,从而需要对所述数据项进行人工审查。21.如权利要求17所述的方法,其中的确定操作包括确定所述数据项是否包括代表一个或多个预定的色情项的数据;并且其中,一旦确定所述数据项包括代表所述预定色情项中的至少一项的数据,则所述可能性至少等于所述预定阈值。22.如权利要求17所述的方法,其中的确定操作包括确定所述数据项是否包括代表一个或多个预定的赌博项的数据;并且其中,一旦确定所述数据项包括代表所述预定赌博项中的至少一项的数据,则所述可能性至少等于所述预定阈值。23.一种用于评价将数据项包括到网络可访问数据库中的适当性的方法,所述方法包括确定所述数据项违反预定的内容策略;修改所述数据项,以和所述预定的内容策略相一致;确定经过修改的所述数据项适于包括到所述网络可访问数据库中。24.一种用于根据预定的内容策略来评价将数据项包括到网络可访问数据库中的适当性的方法,所述预定的内容策略指定了一种或多种状况,在这些状况下需要对所述数据项进行人工审查,以评价将所述数据项包括到所述网络可访问数据库中的适当性,所述方法包括确定所述数据项代表了一个或多个对所述预定的内容策略的违反;路由所述数据项以进行人工审查,以评价将所述数据项包括到所述网络可访问数据库中的适当性。25.如权利要求24所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且其中,确定操作包括对所述数据项包括代表所述可疑项中的至少一项的数据的确定,从而需要对所述数据项进行人工审查。26.如权利要求24所述的方法,其中确定操作包括确定所述数据项是否包括代表一个或多个预定的色情项的数据;并且其中,确定操作包括对所述数据项包括代表所述预定色情项中的至少一项的数据的确定。27.如权利要求24所述的方法,其中确定操作包括确定所述数据项是否包括代表一个或多个预定的赌博项的数据;并且其中,确定操作包括对所述数据项包括代表所述预定赌博项中的至少一项的数据的确定。28.一种用于根据预定的内容策略来评价将数据项包括到网络可访问数据库中的适当性的方法,所述预定的内容策略指定了一种或多种状况,在这些状况下所述数据项被确定为不适于包括到所述网络可访问数据库中,所述方法包括确定所述数据项代表了一个或多个对所述预定的内容策略的违反;拒绝将所述数据项包括到所述网络可访问数据库中。29.如权利要求28所述的方法,其中所述预定的内容策略阻止通过一个或多个拦截项识别出的拦截内容;并且其中,确定操作包括对所述数据项包括代表所述拦截项中的至少一项的数据的确定,并且拒绝将所述数据项包括到所述网络可访问数据库中。30.如权利要求28所述的方法,其中所述预定的内容策略阻止无意义的内容;并且其中,确定操作包括对所述数据项包括无意义内容的确定,并且拒绝将所述数据项包括到所述网络可访问数据库中。31.一种用于评价将搜索列表项包括到搜索引擎数据库中的适当性的方法,所述方法包括确定所述搜索列表项与预定的内容策略相一致的可能性;将所述可能性与预定的阈值进行比较;以及一旦出现所述可能性低于所述预定阈值的状况,就将所述搜索列表项包括到所述搜索引擎数据库中,而无需对所述搜索列表项进行人工审查。32.如权利要求31所述的方法,其中,可通过因特网来访问所述搜索引擎数据库。33.如权利要求31所述的方法,其中,所述搜索列表项是指包括文本内容的文档。34.如权利要求31所述的方法,其中,所述搜索列表项是指计算机化文档。35.如权利要求31所述的方法,其中,所述搜索列表项是指与超文本置标语言相一致的计算机化文档。36.如权利要求31所述的方法,还包括一旦出现所述可能性至少等于所述预定阈值的状况,就要求对所述搜索列表项进行人工审查,以确定所述搜索列表项是否与所述预定的内容策略相一致。37.如权利要求36所述的方法,其中所述预定的内容策略阻止一个或多个拦截项;并且其中,一旦确定所述搜索列表项包括代表所述拦截项中的至少一项的数据,则所述可能性至少等于所述预定阈值。38.如权利要求37所述的方法,其中,一旦确定所述搜索列表项包括代表所述拦截项中的至少一项的数据,则所述搜索列表项被进一步确定为不适于包括到所述搜索引擎数据库中。39.如权利要求36所述的方法,其中所述预定的内容策略阻止一个或多个拦截项;并且其中,一旦确定所述搜索列表项引用了包括代表所述拦截项中的至少一项的数据的文档,则所述可能性至少等于所述预定阈值。40.如权利要求39所述的方法,其中,一旦确定所述搜索列表项引用了包括代表所述拦截项中的至少一项的数据的文档,则所述搜索列表项被进一步确定为不适于包括到所述搜索引擎数据库中。41.如权利要求36所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且其中,一旦确定所述搜索列...

【专利技术属性】
技术研发人员:多米尼科张丹尼斯吴巴里拉福恩艾伦朗斯科特斯内尔张洁皮埃尔王詹尼弗吴彼得古德温黄慧燕凯里萨布利特斯蒂芬坎宁安布鲁斯T霍姆斯
申请(专利权)人:奥弗图尔服务公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1