一种确定网站权重的方法及装置制造方法及图纸

技术编号:7759229 阅读:157 留言:0更新日期:2012-09-14 01:17
本发明专利技术公开了一种确定网站权重的方法及装置,其中,所述方法包括:浏览器端将用户的访问网页相关信息上报给搜索引擎服务器;所述访问网页相关信息包括:被访问网页的唯一性标识信息、以及当用户访问链接对应的目标网页时,所述链接所在的源网页的唯一性标识信息;所述搜索引擎服务器根据从多个浏览器端收集到的所述访问网页相关信息,统计网站的权威性信息,所述网站的权威性信息包括网站包含的网页数量、及网站外链的数量;以便所述搜索引擎服务器根据所述网站的权威性信息确定网站的权重。通过本发明专利技术,能够提高搜索引擎采集数据的准确度及更新的及时性。

【技术实现步骤摘要】

本专利技术涉及搜索引擎
,特别是涉及ー种确定网站权重的方法及装置
技术介绍
随着计算机的普及和互联网的发展,人们对网络的使用越来越频繁,计算机网络逐渐成为人们日常生活中必不可少的工具,而搜索引擎因其本身能够提供的各种丰富的信息服务,给用户提供了方方面面的信息和数据,在人们的日常生活中得到了广泛的应用,给人们日常的生产生活带来了巨大的便利。搜索引擎网站是互联网上专门提供检索服务的ー类网站,用户通过在搜索引擎提供的接口中输入搜索词(query),获取搜索引擎针对该搜索词返回的捜索结果。作为搜索引 擎运行的关键ー环,将互联网上不断出现的新的页面和信息收集起来,是搜索引擎网站提供服务的基础。搜索引擎服务器需要不断更新自己的网址库,下载网址库中的网址对应的网页,再将这些网页的内容信息进行加工和整合,建立信息数据库和索引数据库,以便为用户提供信息检索和查询服务。然而,在如今互联网上的网页数量极其庞大,而且增长速度又非常快的情况下,要想在短时间内对每ー个抓取到的网页都进行下载分析,几乎是ー个不可能完成的任务,这是因为,互联网上网页的数量极其庞大,搜索引擎的爬虫程序在互联网上抓取到的URL对应的页面也只是其中的一部分,然而即使是这部分页面,要想全部下载到搜索引擎服务器中,需要占用大量的资源,因此,通常采取ー种由搜索引擎给网址库中的网址设置优先级,生成并维护下载队列,根据待下载网页的优先级高低来顺序对网页进行下载调度。其中,网页的下载优先级主要是根据网页所在网站的权威性因素来设定的,因此,如何准确获取到网站的权威性评价是比较关键的ー环。现有技术在确定ー个网站的权威性时,主要考虑网站包含的网页数量、网站内各网页的更新频率、网站外链(所谓外链是指,在博客、论坛等其他外部网站发布的关于某网站的链接,通过外链,可以从别的网站导入到自己的网站)的数量、外链源网站的重要程度等。但是,搜索引擎在采集以上这些參数时,会依赖于已爬取的网页数据,或者用户对搜索结果的点击情况,但是这会因为爬取方式的不同,而造成不同程度的偏差。例如,网站包含的网页数量比较依赖于搜索引擎对该网站下的网页的爬取情况,如果ー个网站内包含的网页数量比较大,但是搜索引擎仅爬取到了其中的一小部分,则搜索引擎所获知的这个网站包含的网页数量,实际上是小于该网站实际包含的网页数量的;网页的更新频率比较依赖搜索引擎对该网站的爬取频度,如果某网页的更新频率非常高,但是搜索引擎对该网站的爬取频度较低,则搜索引擎采集到的该网页的更新频率会小于该网页的实际更新频率;网站的外链数量则更多的依赖于对互联网上海量网页的链接分析,如果分析地不够全面,仍然会导致数据的偏差。此外,网站的开发和维护人员也往往会采用ー些手段,来影响以上这些数据的真实性,从而使得网站获取更高的权重评价。总之,由于以上诸多因素的影响,使得现有技术中的搜索引擎存在采集数据不准确、数据更新不及时等缺陷,进而导致最终给出的搜索结果的质量比较低。
技术实现思路
本专利技术提供了一种确定网站权重的方法及装置,能够提高搜索引擎采集数据的准确度及更新的及时性。本专利技术提供了如下方案一种确定网站权重的方法,包括浏览器端将用户的访问网页相关信息上报给搜索引擎服务器;所述访问网页相关信息包括被访问网页的唯一性标识信息、以及当用户访问链接对应的目标网页时,所述链接所在的源网页的唯一性标识信息;所述搜索引擎服务器根据从多个浏览器端收集到的所述访问网页相关信息,统计网站的权威性信息,所述网站的权威性信息包括网站包含的网页数量、及网站外链的数量;以便所述搜索引擎服务器根据所述网站的权威性信息确定网站的权重。其中,还包括统计同一网站下各个网页的访问量,根据同一网站下各个网页的访问量调整该网站的权重。其中,所述根据同一网站下各个网页的访问量调整网站的权重包括根据同一网站下访问量超过第一预置阈值的网页的数量,对该网站进行加权;或者,根据同一网站的总访问量,对该网站进行加权。其中,所述浏览器端上报的访问网页相关信息还包括访问网页的用户信息,所述方法还包括统计同一网站下各个网页的访问用户量,根据同一网站下各个网页的访问用户量调整该网站的权重。其中,所述根据同一网站下各个网页的访问用户量调整该网站的权重包括根据同一网站下访问用户量超过第二预置阈值的网页的数量,对该网站进行加权;或者,根据同一网站的总访问用户量,对该网站进行加权。一种确定网站权重的装置,包括浏览器端处理单元,位于浏览器端,用于将用户的访问网页相关信息上报给搜索引擎服务器;所述访问网页相关信息包括被访问网页的唯一性标识信息、以及当用户访问链接对应的目标网页时,所述链接所在的源网页的唯一性标识信息;搜索引擎处理単元,位于所述搜索引擎服务器端,用于根据从多个浏览器端收集到的所述访问网页相关信息,统计网站的权威性信息,所述网站的权威性信息包括网站包含的网页数量、及网站外链的数量;以便所述搜索引擎服务器根据所述网站的权威性信息确定网站的权重。其中,还包括按访问量调整单元,用于统计同一网站下各个网页的访问量,根据同一网站下各个网页的访问量调整该网站的权重。其中,所述按访问量调整单元包括第一加权子单元,用于根据同一网站下访问量超过第一预置阈值的网页的数量,对该网站进行加权;或者,第二加权子单元,用于根据同一网站的总访问量,对该网站进行加权。其中,所述浏览器端上报的访问网页相关信息还包括访问网页的用户信息,所述装置还包括按访问用户量调整単元,用于统计同一网站下各个网页的访问用户量,根据同一 网站下各个网页的访问用户量调整该网站的权重。其中,所述按访问用户量调整单元包括第三加权子单元,用于根据同一网站下访问用户量超过第二预置阈值的网页的数量,对该网站进行加权;或者,第四加权子单元,用于根据同一网站的总访问用户量,对该网站进行加权。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果通过本专利技术,搜索引擎服务器可以通过浏览器端上报的用户访问网页相关信息,统计出网站包含的网页数量以及网站的网站外链数量,这样,再结合其他的參数(如网页更新频率等)就可以确定出各个网站的权重。这样,当需要对网址库中的网址进行下载时,就可以根据各个网址所在的网站的权重进行下载调度,当然,也可以将网站权重应用于其他场合,例如,根据用户当前访问的网页为用户推荐其他相关网页时,同样可以根据网页所在网站的权重,对各个相关网页进行排序;或者,利用指定网站的权重来进行应用推荐如果候选的推荐应用来自指定的网站,则在原有的分值上加上该网站的权重,以提高权值,再进行综合排序,输出分值最高的几个应用,等等。其中,在统计网站包含的网页数量以及网站的网站外链数量吋,由于是根据浏览器端上报的用户访问网页相关情况进行统计的,因此,相对于搜索引擎按照一定的频率进行抓取的网页再进行统计的方式而言,可以使得准确性更高,同时也可以得到更及时的更新。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I是本专利技术实施例提供的方法的流程图;图2是本专利技术实施例提供的装置的示意图。本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:李铁钧张绍瑞
申请(专利权)人:奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1