The invention discloses a method and apparatus for determining web crawling traffic quotas, wherein the method comprises the steps: obtaining to grasp the target website by accessing the data; according to the access data, determine the target site to grab under flow; \mass distribution to obtain the target site\; according to the \the quality of the target distribution website\, determine the task flow grasp the target site; according to the target site to crawl under flow, and the capture target site task flow, determine the target web site traffic quota. By this method, the search engine crawler to crawl the site in a web page, a better distribution of web crawling on the target site traffic quotas, reduce the crawler and crawl the site of the conflict, the crawling behavior of crawler and search engine update needs to be a reasonable balance.
【技术实现步骤摘要】
确定网站抓取流量配额的方法及设备
本专利技术涉及搜索引擎
,具体涉及确定网站抓取流量配额的方法及设备。
技术介绍
搜索引擎是一种互联网信息平台,通过搜索引擎能够将互联网上的大量网页信息收集起来,经过加工处理后,建立信息数据库和索引数据库,用户可以通过在搜索引擎提供的入口中输入查询词,从而获取搜索引擎针对该查询词返回的搜索结果。随着搜索引擎技术的不断发展和成熟,其提供的服务业越来越完善,在人们从规模庞大的互联网中获取所需信息时,搜索引擎已经成为一种非常常用,也非常便利的工具。搜索引擎为了能够下载互联网上的网页,以供分析网页数据和建立索引,往往需要使用一种抓取网页的工具程序,这种程序通常被称为“爬虫程序”或“蜘蛛程序”。由于互联网上总是不停的产生新网页,同时原有的网页也在不断的更新,因此爬虫程序需要不停的工作,以保证搜索引擎能够得到最新的网页数据。为了提供更好的搜索结果,搜索引擎的爬虫程序总希望能够更快地收录互联网上的新网页以及更新的原有网页。但网页资源位于网络上的各个站点主机上,爬虫程序对网页资源的抓取势必会占用站点主机的服务资源,如站点主机的软硬件处理资源, ...
【技术保护点】
一种确定网站抓取流量配额的方法,包括:获取待抓取目标网站的受访问数据;根据所述受访问数据,确定所述目标网站的抓取承受流量;获取所述目标网站内网页的网页质量分布;根据所述目标网站内网页的所述网页质量分布,确定抓取目标网站的任务流量;根据所述目标网站的抓取承受流量,以及所述抓取目标网站的任务流量,确定在所述目标网站上进行网页抓取的流量配额。
【技术特征摘要】
1.一种确定网站抓取流量配额的方法,包括:获取待抓取目标网站的受访问数据;根据所述受访问数据,确定所述目标网站的抓取承受流量;获取所述目标网站内网页的网页质量分布;根据所述目标网站内网页的所述网页质量分布,确定抓取目标网站的任务流量;根据所述目标网站的抓取承受流量,以及所述抓取目标网站的任务流量,确定在所述目标网站上进行网页抓取的流量配额。2.如权利要求1所述的方法,所述获取待抓取目标网站的受访问数据,包括:根据搜索引擎对所述目标网站的访问统计数据,确定所述目标网站的所述受访问数据。3.如权利要求1或2所述的方法,所述根据所述受访问数据,确定所述目标网站的抓取承受流量,包括:根据所述受访问数据,确定所述目标网站的可承受访问总量;根据所述可承受访问总量与预置的抓取压力系数,确定所述目标网站的抓取承受流量。4.如权利要求3所述的方法,所述根据所述受访问数据,确定所述目标网站的可承受访问总量,包括:根据搜索引擎对所述目标网站的访问统计数据,所述搜索引擎的市场占有率,用户直接访问量,以及网站冗余流量,确定所述目标网站的可承受访问总量。5.如权利要求1所述的方法,所述获取所述目标网站内网页的网页质量分布,包括:根据所述目标网站内网页的pagerank,和/或网页的链接深度,确定网页的评分;对所述目标网站内多个网页的评分进行归一化处理,获得各个网页对应的质量分布。6.如权利要求1所述的方法,所述获取所述目标网站内网页的网页质量分布,包括:获取所述目标网站内所有已收录网页的网页质量分布;所述根据所述目标网站内网页的所述网页质量分布,确定抓取目标网站的任务流量,包括:获取所述目标网站内所有已收录网页的网页质量分布的总和,根据所述目标网站内所有网页的网页质量分布的总和,确定抓取目标网站的任务流量。7.如权利要求6所述的方法,还包括:获取一个或多个任务比例因子;所述根据所述目标网站内所有已收录网页的网页质量分布的总和,确定抓取目标网站的任务流量,包括:根据所述网页质量分布的总和与一个或多个所述任务比例因子的乘积,确定抓取目标网站的任务流量。8.如权利要求7所述的方法,所述获取一个或多个任务比例因子,包括:获取所述目标网站中,待抓取的网页数占所述目标网站中已收录网页总数的比例;和/或,获取所述目标网站中,不重复的网页数量占所述目标网站中网页总数的比例。9.如权利要求8所述的方法,所述获取所述目标网站中,待抓取的网页数占所述目标网站中网页总数的比例,包括:获取所述目标网站中,抓取历史中更新的网页数,和/或,所述目标网站中新产生的网页数,占所述目标网站中网页总数的比例。10.如权利要求8所述的方法,所述获取所述目标网站中,不重复的网页数量占所述目标网站中网页总数的比例,包括:在对目标网站的抓取历史中,获取和比对所抓取的网页的信息指纹;根据比对的结果获取不重复的信息指纹数,占总指纹数的比例,作为所述不重复的网页数量占所述目标网站中网页总数的比例。11.如权利要求6所述的方法,还包括:根据抓取目标网站的任务总时间确定单位时间系数;所述根据所述目标网站内所有已收录网页的网页质量分布的总和,确定抓取目标网站的任务流量,包括:根据所述网页质量分布的总和与一个或多个所述任务比例因子,以及所述单位时间系数的乘积,确定抓取目标网站的任务流量。12.如权利要求11所述的方法,还包括:当所述任务流量大于所述抓取承受流量,且两者的差大于预置的阈值时,通过调整所述任务比例因子,和/或所述单位时间系数,调整所述任务流量,直至所述任务流量小于或等于所述抓取承受流量,或两者的差小于预置的阈值。13.如权利要求1、2、5-11任一项所述的方法,所述根据所述目标网站的抓取承受流量,以及所述抓取目标网站的任务流量,确定在所述目标网站上进行网页抓取的流量配额,包括:当所述任务流量大于所述抓取承受流量,且两者的差小于预置的阈值时...
【专利技术属性】
技术研发人员:魏少俊,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。