【技术实现步骤摘要】
本专利技术涉及自动化文档内容分析的领域,更具体地说,涉及用于自动确定将搜索列表项包括到广域网搜索引擎数据库中的适当性的机制。
技术介绍
因特网是具有真正意义上全球触及范围的广域网,将全世界的计算机互连在一起。因特网中一般被称为全球万维网的那一部分是数量惊人的相互关联的数据集合。全球万维网(有时被称为“万维网”)的内容包括已知的HTML(超文本置标语言)格式的文档,这些文档根据已知的HTTP(超文本传输协议)协议通过因特网来传输,诸如此类。万维网内容的广度和深度对于任何希望在其中寻找特定信息的人来说都是惊人及繁重的。因此,万维网中非常重要的一个组件就是搜索引擎。使用在这里,搜索引擎是一种用于定位与一个或多个用户指定的搜索项(search term)相关的内容的交互式系统,所述一个或多个搜索项总地代表一次搜索查询。通过公知的公共网关接口(CGI),万维网可以包括交互式的内容,所谓交互式即对与万维网相连的计算机的人工用户所指定的数据做出响应。搜索引擎从用户接收到具有一个或多个搜索项的搜索查询,并且向该用户提供一列被确定为与所述搜索查询相关的一个或多个文档。搜索引擎极大提高了用户在万维网上定位所需信息的效率。因此,搜索引擎是因特网上最常用的资源之一。一个有效的搜索引擎可以帮助用户在当前表示在万维网内的数以十亿计的文档中对非常具体的信息进行定位。搜索引擎的主要功能以及它存在的意义就在于当给定用户查询的一些搜索项时,在可以获得的数以十亿计的文档中识别出少数最相关的结果,并且在尽可能短的时间内实现上述功能。因此,搜索引擎的一项非常重要的功能就是确定文档对于搜索查询的 ...
【技术保护点】
一种用于评价将数据项包括到网络可访问数据库中的适当性的方法,所述方法包括:确定所述数据项与预定的内容策略相一致的可能性;将所述可能性与预定的阈值进行比较;以及一旦出现所述可能性低于所述预定阈值的状况,就将所述数据项包 括到所述网络可访问数据库中,而无需对所述数据项进行人工审查。
【技术特征摘要】
US 2002-9-13 10/244,0511.一种用于评价将数据项包括到网络可访问数据库中的适当性的方法,所述方法包括确定所述数据项与预定的内容策略相一致的可能性;将所述可能性与预定的阈值进行比较;以及一旦出现所述可能性低于所述预定阈值的状况,就将所述数据项包括到所述网络可访问数据库中,而无需对所述数据项进行人工审查。2.如权利要求1所述的方法,其中所述数据项是搜索列表项,并且所述网络可访问数据库包括计算机化的网络搜索引擎数据库。3.如权利要求1所述的方法,其中可通过超文本传输协议来访问所述网络可访问数据库。4.如权利要求1所述的方法,其中可通过因特网来访问所述网络可访问数据库。5.如权利要求1所述的方法,其中所述数据项包括文本内容。6.如权利要求1所述的方法,其中所述数据项是计算机化文档。7.如权利要求1所述的方法,其中所述数据项是与超文本置标语言相一致的计算机化文档。8.如权利要求1所述的方法,还包括一旦出现所述可能性至少等于所述预定阈值的状况,就要求对所述数据项进行人工审查,以确定所述数据项是否与所述预定的内容策略相一致。9.如权利要求8所述的方法,其中所述预定的内容策略阻止一个或多个拦截项;并且其中,一旦确定所述数据项包括代表所述拦截项中的至少一项的数据,则所述可能性至少等于所述预定阈值。10.如权利要求9所述的方法,其中,一旦确定所述数据项包括代表所述拦截项中的至少一项的数据,则所述数据项被进一步确定为不适于包括到所述网络可访问数据库中。11.如权利要求8所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且其中,一旦确定所述数据项包括代表所述可疑项中的至少一项的数据,则所述可能性至少等于所述预定阈值,从而需要对所述数据项进行人工审查。12.如权利要求8所述的方法,其中,确定操作包括确定所述数据项是否包括代表一个或多个预定的色情项的数据;并且其中,一旦确定所述数据项包括代表所述预定色情项中的至少一项的数据,则所述可能性至少等于所述预定阈值。13.如权利要求8所述的方法,其中的确定操作包括确定所述数据项是否包括代表一个或多个预定的赌博项的数据;并且其中,一旦确定所述数据项包括代表所述预定赌博项中的至少一项的数据,则所述可能性至少等于所述预定阈值。14.如权利要求1所述的方法,还包括确定所述数据项包括无意义的文本;以及拒绝将所述数据项包括到所述网络可访问数据库中。15.如权利要求1所述的方法,还包括修改所述数据项,以和所述预定的内容策略相一致;其中,所述确定操作包括确定经过修改的所述数据项与所述预定的内容策略相一致的可能性。16.如权利要求1所述的方法,还包括预测所述数据项的访问频率;将所预测的访问频率与访问频率的预定阈值进行比较;一旦出现所预测的频率至少等于所述预定阈值的状况,那么无论所述数据项与所述预定的内容策略相一致的可能性如何,都需要对所述数据项进行人工审查,以确定所述数据项是否与所述预定的内容策略相一致。17.一种用于评价将数据项包括到网络可访问数据库中的适当性的方法,所述方法包括确定所述数据项与预定的内容策略相一致的可能性;将所述可能性与预定的阈值进行比较;以及一旦出现所述可能性至少等于所述预定阈值的状况,就需要对所述数据项进行人工审查,以确定所述数据项是否与所述预定的内容策略相一致。18.如权利要求17所述的方法,其中所述预定的内容策略阻止一个或多个拦截项;并且其中,一旦确定所述数据项包括代表所述拦截项中的至少一项的数据,则所述可能性至少等于所述预定阈值。19.如权利要求18所述的方法,其中,一旦确定所述数据项包括代表所述拦截项中的至少一项的数据,则所述数据项被进一步确定为不适于包括到所述网络可访问数据库中。20.如权利要求17所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且其中,一旦确定所述数据项包括代表所述可疑项中的至少一项的数据,则所述可能性至少等于所述预定阈值,从而需要对所述数据项进行人工审查。21.如权利要求17所述的方法,其中的确定操作包括确定所述数据项是否包括代表一个或多个预定的色情项的数据;并且其中,一旦确定所述数据项包括代表所述预定色情项中的至少一项的数据,则所述可能性至少等于所述预定阈值。22.如权利要求17所述的方法,其中的确定操作包括确定所述数据项是否包括代表一个或多个预定的赌博项的数据;并且其中,一旦确定所述数据项包括代表所述预定赌博项中的至少一项的数据,则所述可能性至少等于所述预定阈值。23.一种用于评价将数据项包括到网络可访问数据库中的适当性的方法,所述方法包括确定所述数据项违反预定的内容策略;修改所述数据项,以和所述预定的内容策略相一致;确定经过修改的所述数据项适于包括到所述网络可访问数据库中。24.一种用于根据预定的内容策略来评价将数据项包括到网络可访问数据库中的适当性的方法,所述预定的内容策略指定了一种或多种状况,在这些状况下需要对所述数据项进行人工审查,以评价将所述数据项包括到所述网络可访问数据库中的适当性,所述方法包括确定所述数据项代表了一个或多个对所述预定的内容策略的违反;路由所述数据项以进行人工审查,以评价将所述数据项包括到所述网络可访问数据库中的适当性。25.如权利要求24所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且其中,确定操作包括对所述数据项包括代表所述可疑项中的至少一项的数据的确定,从而需要对所述数据项进行人工审查。26.如权利要求24所述的方法,其中确定操作包括确定所述数据项是否包括代表一个或多个预定的色情项的数据;并且其中,确定操作包括对所述数据项包括代表所述预定色情项中的至少一项的数据的确定。27.如权利要求24所述的方法,其中确定操作包括确定所述数据项是否包括代表一个或多个预定的赌博项的数据;并且其中,确定操作包括对所述数据项包括代表所述预定赌博项中的至少一项的数据的确定。28.一种用于根据预定的内容策略来评价将数据项包括到网络可访问数据库中的适当性的方法,所述预定的内容策略指定了一种或多种状况,在这些状况下所述数据项被确定为不适于包括到所述网络可访问数据库中,所述方法包括确定所述数据项代表了一个或多个对所述预定的内容策略的违反;拒绝将所述数据项包括到所述网络可访问数据库中。29.如权利要求28所述的方法,其中所述预定的内容策略阻止通过一个或多个拦截项识别出的拦截内容;并且其中,确定操作包括对所述数据项包括代表所述拦截项中的至少一项的数据的确定,并且拒绝将所述数据项包括到所述网络可访问数据库中。30.如权利要求28所述的方法,其中所述预定的内容策略阻止无意义的内容;并且其中,确定操作包括对所述数据项包括无意义内容的确定,并且拒绝将所述数据项包括到所述网络可访问数据库中。31.一种用于评价将搜索列表项包括到搜索引擎数据库中的适当性的方法,所述方法包括确定所述搜索列表项与预定的内容策略相一致的可能性;将所述可能性与预定的阈值进行比较;以及一旦出现所述可能性低于所述预定阈值的状况,就将所述搜索列表项包括到所述搜索引擎数据库中,而无需对所述搜索列表项进行人工审查。32.如权利要求31所述的方法,其中,可通过因特网来访问所述搜索引擎数据库。33.如权利要求31所述的方法,其中,所述搜索列表项是指包括文本内容的文档。34.如权利要求31所述的方法,其中,所述搜索列表项是指计算机化文档。35.如权利要求31所述的方法,其中,所述搜索列表项是指与超文本置标语言相一致的计算机化文档。36.如权利要求31所述的方法,还包括一旦出现所述可能性至少等于所述预定阈值的状况,就要求对所述搜索列表项进行人工审查,以确定所述搜索列表项是否与所述预定的内容策略相一致。37.如权利要求36所述的方法,其中所述预定的内容策略阻止一个或多个拦截项;并且其中,一旦确定所述搜索列表项包括代表所述拦截项中的至少一项的数据,则所述可能性至少等于所述预定阈值。38.如权利要求37所述的方法,其中,一旦确定所述搜索列表项包括代表所述拦截项中的至少一项的数据,则所述搜索列表项被进一步确定为不适于包括到所述搜索引擎数据库中。39.如权利要求36所述的方法,其中所述预定的内容策略阻止一个或多个拦截项;并且其中,一旦确定所述搜索列表项引用了包括代表所述拦截项中的至少一项的数据的文档,则所述可能性至少等于所述预定阈值。40.如权利要求39所述的方法,其中,一旦确定所述搜索列表项引用了包括代表所述拦截项中的至少一项的数据的文档,则所述搜索列表项被进一步确定为不适于包括到所述搜索引擎数据库中。41.如权利要求36所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且其中,一旦确定所述搜索列...
【专利技术属性】
技术研发人员:多米尼科张,丹尼斯吴,巴里拉福恩,艾伦朗,斯科特斯内尔,张洁,皮埃尔王,詹尼弗吴,彼得古德温,黄慧燕,凯里萨布利特,斯蒂芬坎宁安,布鲁斯T霍姆斯,
申请(专利权)人:奥弗图尔服务公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。