确定抓取流量的方法及设备技术

技术编号:9596861 阅读:85 留言:0更新日期:2014-01-23 02:20
本发明专利技术公开了确定抓取流量的方法及设备,其中所述方法包括:根据目标网站属性特征获取任务比例因子;基于所述任务比例因子及目标网站内的网页质量分布总和,确定抓取目标网站的任务流量。通过本方法,能够在搜索引擎爬虫程序抓取网站中的网页时,更好的确定任务所需的抓目标网站的流量,减少了爬虫程序与被抓取站点的冲突,使爬虫程序抓取行为与搜索引擎更新需求得到了合理的平衡。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了确定抓取流量的方法及设备,其中所述方法包括:根据目标网站属性特征获取任务比例因子;基于所述任务比例因子及目标网站内的网页质量分布总和,确定抓取目标网站的任务流量。通过本方法,能够在搜索引擎爬虫程序抓取网站中的网页时,更好的确定任务所需的抓目标网站的流量,减少了爬虫程序与被抓取站点的冲突,使爬虫程序抓取行为与搜索引擎更新需求得到了合理的平衡。【专利说明】确定抓取流量的方法及设备
本专利技术涉及搜索引擎
,具体涉及确定抓取流量的方法及设备。
技术介绍
搜索引擎是一种互联网信息平台,通过搜索引擎能够将互联网上的大量网页信息收集起来,经过加工处理后,建立信息数据库和索引数据库,用户可以通过在搜索引擎提供的入口中输入查询词,从而获取搜索引擎针对该查询词返回的搜索结果。随着搜索引擎技术的不断发展和成熟,其提供的服务业越来越完善,在人们从规模庞大的互联网中获取所需信息时,搜索引擎已经成为一种非常常用,也非常便利的工具。搜索引擎为了能够下载互联网上的网页,以供分析网页数据和建立索引,往往需要使用一种抓取网页的工具程序,这种程序通常被称为“爬虫程序”或“蜘蛛程序”。由于互联网上总是不停的产生新网页,同时原有的网页也在不断的更新,因此爬虫程序需要不停的工作,以保证搜索引擎能够得到最新的网页数据。为了提供更好的搜索结果,搜索引擎的爬虫程序总希望能够更快地收录互联网上的新网页以及更新的原有网页。但网页资源位于网络上的各个站点主机上,爬虫程序对网页资源的抓取势必会占用站点主机的服务资源,如站点主机的软硬件处理资源,带宽等。如果抓取网页的任务超过了站点主机的承受范围,就会影响到网站用户的正常访问,那么爬虫程序的网页抓取行为就成为了对网站不友好行为,严重时会导致影响网站响应超时,甚至网站服务器崩溃。而且,为保护网站的稳定性,网站常常会监控爬虫程序的访问,并对产生不友好行为的爬虫程序采取限制,甚至禁止访问措施。一旦爬虫程序被限制或禁止,搜索引擎的网页抓取效率会变低,甚至无法更新或下载该网站网页资源,最终对搜索服务的提供产生负面影响。同时,现有技术中一般是由人工设定来设定爬虫程序可对网站抓取的流量或频率,这种方式虽然减少搜索引擎的爬虫程序与被抓取网站的冲突,但是对网页数据更新没有得到最大体现,因此使得爬虫程序抓取行为与网站数据更新的需求没有得到合理的平衡。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的确定抓取流量的设备和相应的确定抓取流量的方法。依据本专利技术的一个方面,提供了一种确定抓取流量的方法,包括:根据目标网站属性特征获取任务比例因子;基于所述任务比例因子及目标网站内的网页质量分布总和,确定抓取目标网站的任务流量。可选地,所述根据目标网站属性特征获取任务比例因子,包括:获取所述目标网站中,待抓取的网页数占所述目标网站中已收录网页总数的比例;和/ 或,获取所述目标网站中,不重复的网页数量占所述目标网站中网页总数的比例。可选地,所述获取所述目标网站中,待抓取的网页数占所述目标网站中已收录网页总数的比例,包括:获取所述目标网站中,抓取历史中更新的网页数,和/或,所述目标网站中新产生的网页数,占所述目标网站中已收录网页总数的比例。可选地,所述获取所述目标网站中,不重复的网页数量占所述目标网站中网页总数的比例,包括:在对目标网站的抓取历史中,获取和比对所抓取的网页的信息指纹;根据比对的结果获取不重复的信息指纹数,占总指纹数的比例,作为所述不重复的网页数量占所述目标网站中网页总数的比例。可选地,所述基于所述任务比例因子及目标网站内的网页质量分布总和,确定抓取目标网站的任务流量,包括:基于一个或多个所述任务比例因子与所述目标网站内的网页质量分布总和的乘积,确定抓取目标网站的任务流量。可选地,所述网页质量分布总和通过如下方式确定:根据所述目标网站内网页的pagerank,和/或网页的链接深度,确定网页的评分;对所述目标网站内多个网页的评分进行归一化处理,获得各个网页对应的质量分布;根据获得的各个网页对应的质量分布,确定所述网页质量分布总和。可选地,还包括:根据抓取目标网站的任务总时间确定单位时间系数;所述基于所述任务比例因子及目标网站内的网页质量分布总和,确定抓取目标网站的任务流量,包括:根据所述网页质量分布的总和与一个或多个所述任务比例因子,以及所述单位时间系数的乘积,确定抓取目标网站的任务流量。可选地,还包括:根据所述抓取目标网站的任务流量,对目标网站进行网页抓取。根据本专利技术的另一方面,提供了一种确定抓取流量的设备,包括:任务比例因子获取单元,适于根据目标网站属性特征获取任务比例因子;任务流量获取单元,适于基于所述任务比例因子及目标网站内的网页质量分布总和,确定抓取目标网站的任务流量。可选地,所述任务比例因子获取单元,适于:获取所述目标网站中,待抓取的网页数占所述目标网站中已收录网页总数的比例;和/ 或,获取所述目标网站中,不重复的网页数量占所述目标网站中网页总数的比例。可选地,所述任务比例因子获取单元,适于:获取所述目标网站中,抓取历史中更新的网页数,和/或,所述目标网站中新产生的网页数,占所述目标网站中已收录网页总数的比例。可选地,所述任务比例因子获取单元,适于:在对目标网站的抓取历史中,获取和比对所抓取的网页的信息指纹;根据比对的结果获取不重复的信息指纹数,占总指纹数的比例,作为所述不重复的网页数量占所述目标网站中网页总数的比例。可选地,所述任务流量获取单元,适于:基于一个或多个所述任务比例因子与所述目标网站内的网页质量分布总和的乘积,确定抓取目标网站的任务流量。可选地,所述网页质量分布总和通过如下单元确定:评分确定单元,适于根据所述目标网站内网页的pagerank,和/或网页的链接深度,确定网页的评分;归一化处理单元,适于对所述目标网站内多个网页的评分进行归一化处理,获得各个网页对应的质量分布;求和单元,适于根据获得的各个网页对应的质量分布,确定所述网页质量分布总和。可选地,还包括:单位时间系数获取单元,适于根据抓取目标网站的任务总时间确定单位时间系数;所述任务流量获取单元,适于:根据所述网页质量分布的总和与一个或多个所述任务比例因子,以及所述单位时间系数的乘积,确定抓取目标网站的任务流量。可选地,还包括:网页抓取单元,适于根据所述抓取目标网站的任务流量,对目标网站进行网页抓取。根据本专利技术的确定抓取流量的方法可以根据目标网站属性特征获取任务比例因子;基于任务比例因子及目标网站内的网页质量分布总和,确定抓取目标网站的任务流量。由此解决了爬虫程序无限制的抓取导致过多占用网站资源的问题。实现了在爬虫程序对网站进行抓取时对所需的抓取流量进行了精确的确定,对网站的网页数据进行有效的抓取,减少了搜索引擎的爬虫程序与被抓取站点的冲突。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的【具体实施方式】。【专利附图】【附图说明】通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于本文档来自技高网
...
确定抓取流量的方法及设备

【技术保护点】
一种确定抓取流量的方法,包括:根据目标网站属性特征获取任务比例因子;基于所述任务比例因子及目标网站内的网页质量分布总和,确定抓取目标网站的任务流量。

【技术特征摘要】

【专利技术属性】
技术研发人员:魏少俊
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1