网页检测方法和装置制造方法及图纸

技术编号:15690892 阅读:112 留言:0更新日期:2017-06-24 03:39
本申请公开了一种网页检测方法和装置。其中,该方法包括:对目标网站在预设时间段内的访问日志进行解析,得到在预设时间段内多个被访问网页;从多个被访问网页中确定出目标网页,目标网页为在预设时间段之前未被访问的网页;爬取目标网页的页面内容,从页面内容中解析出目标网页的发布时间;判断发布时间是否处于预设时间段内;以及在判断出发布时间处于预设时间段内时,确定目标网页为在预设时间段内更新的网页。本申请解决了由于检测的网页数量大造成更新网页的检测过程效率低的技术问题。

Method and device for detecting web pages

The present invention discloses a method and a device for detecting web pages. Among them, the method includes: analyzing the target site access log for a preset period of time, in a preset period of time, more access to web pages; from multiple access to determine target web page, the target page to be not accessed before a preset period of time \; the target web page content crawl the analysis from the target web page content release time; judging whether published in a preset period of time; and when it is determined that the release time in a preset period of time, to determine the target page for updates in a preset period of time\. The application solves the technical problem that the detection process of the updating webpage is low due to the large number of the detected pages.

【技术实现步骤摘要】
网页检测方法和装置
本申请涉及互联网领域,具体而言,涉及一种网页检测方法和装置。
技术介绍
在互联网领域,网站上的网页会不断更新,而网站更新量也是评价网站绩效的一项重要指标。这里的网站更新量指的是在一定时间内网站更新的网页的数量。在统计网站更新量的过程中,如何确定哪些网页是网站在一定时间内更新的网页是一个难以解决的问题。目前,通常是通过爬虫程序爬取网站上的网页,然后逐个网页分析是否为更新的网页。然而,如果要统计更新量的网站越大,每次爬取的网页数就越多,而这些网页中大部分不是更新的网页,使得需要检测的网页数量大,导致更新网页的检测过程效率低。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种网页检测方法和装置,以至少解决由于检测的网页数量大造成更新网页的检测过程效率低的技术问题。根据本申请实施例的一个方面,提供了一种网页检测方法,包括:对目标网站在预设时间段内的访问日志进行解析,得到在所述预设时间段内多个被访问网页;从所述多个被访问网页中确定出目标网页,所述目标网页为在所述预设时间段之前未被访问的网页;爬取所述目标网页的页面内容,从所述页面内容中解析出所述目标网页的发布时间;判断所述发布时间是否处于所述预设时间段内;以及在判断出所述发布时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页。进一步地,从所述多个被访问网页中确定出目标网页包括:逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。进一步地,逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页包括:对所述多个被访问网页中每一个被访问网页的统一资源定位符进行哈希编码,得到所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值;在预先设置的布隆过滤器中查询所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;将未查询到的哈希值对应的网页作为所述目标网页。进一步地,在爬取所述目标网页的页面内容之后,所述方法还包括:根据所述页面内容判断所述目标网页是否为列表页;在判断出所述目标网页是列表页时,丢弃所述目标网页。进一步地,从所述页面内容中解析出所述目标网页的发布时间包括:按照所述目标网站配置的解析规则从所述页面内容中解析出所述目标网页的发布时间;或者,按照预先设置的解析规则从所述页面内容中解析出所述目标网页的发布时间。根据本申请实施例的另一方面,还提供了一种网页检测装置,包括:第一解析单元,用于对目标网站在预设时间段内的访问日志进行解析,得到在所述预设时间段内多个被访问网页;第一确定单元,用于从所述多个被访问网页中确定出目标网页,所述目标网页为在所述预设时间段之前未被访问的网页;第二解析单元,用于爬取所述目标网页的页面内容,从所述页面内容中解析出所述目标网页的发布时间;第一判断单元,用于判断所述发布时间是否处于所述预设时间段内;以及第二确定单元,用于在判断出所述发布时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页。进一步地,所述第一确定单元具体用于逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。进一步地,所述第一确定单元包括:编码模块,用于对所述多个被访问网页中每一个被访问网页的统一资源定位符进行哈希编码,得到所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值;查询模块,用于在预先设置的布隆过滤器中查询所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;确定模块,用于将未查询到的哈希值对应的网页作为所述目标网页。进一步地,所述装置还包括:第二判断单元,用于在爬取所述目标网页的页面内容之后,根据所述页面内容判断所述目标网页是否为列表页;丢弃单元,用于在判断出所述目标网页是列表页时,丢弃所述目标网页。进一步地,所述第二解析单元包括:第一解析模块,用于按照所述目标网站配置的解析规则从所述页面内容中解析出所述目标网页的发布时间;或者,第二解析模块,用于按照预先设置的解析规则从所述页面内容中解析出所述目标网页的发布时间。根据本申请实施例,通过对目标网站在预设时间段内的访问日志进行解析,得到在预设时间段内多个被访问网页;从多个被访问网页中确定出目标网页,目标网页为在预设时间段之前未被访问的网页;爬取目标网页的页面内容,从页面内容中解析出目标网页的发布时间;判断发布时间是否处于预设时间段内,在判断出发布时间处于预设时间段内时,确定目标网页为在预设时间段内更新的网页。由于仅检测预设时间段内的被访问网页,相对于现有技术中爬取网站的所有网页而言,其网页的数量大大减少,解决了由于检测的网页数量大造成更新网页的检测过程效率低的技术问题,提高了更新网页的检测效率。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的网页检测方法的流程图;图2是根据本申请实施例的网页检测装置的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本申请实施例,提供了一种网页检测方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示本文档来自技高网
...
网页检测方法和装置

【技术保护点】
一种网页检测方法,其特征在于,包括:对目标网站在预设时间段内的访问日志进行解析,得到在所述预设时间段内多个被访问网页;从所述多个被访问网页中确定出目标网页,所述目标网页为在所述预设时间段之前未被访问的网页;爬取所述目标网页的页面内容,从所述页面内容中解析出所述目标网页的发布时间;判断所述发布时间是否处于所述预设时间段内;以及在判断出所述发布时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页。

【技术特征摘要】
1.一种网页检测方法,其特征在于,包括:对目标网站在预设时间段内的访问日志进行解析,得到在所述预设时间段内多个被访问网页;从所述多个被访问网页中确定出目标网页,所述目标网页为在所述预设时间段之前未被访问的网页;爬取所述目标网页的页面内容,从所述页面内容中解析出所述目标网页的发布时间;判断所述发布时间是否处于所述预设时间段内;以及在判断出所述发布时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页。2.根据权利要求1所述的方法,其特征在于,从所述多个被访问网页中确定出目标网页包括:逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。3.根据权利要求2所述的方法,其特征在于,逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页包括:对所述多个被访问网页中每一个被访问网页的统一资源定位符进行哈希编码,得到所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值;在预先设置的布隆过滤器中查询所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;将未查询到的哈希值对应的网页作为所述目标网页。4.根据权利要求1所述的方法,其特征在于,在爬取所述目标网页的页面内容之后,所述方法还包括:根据所述页面内容判断所述目标网页是否为列表页;在判断出所述目标网页是列表页时,丢弃所述目标网页。5.根据权利要求1所述的方法,其特征在于,从所述页面内容中解析出所述目标网页的发布时间包括:按照所述目标网站配置的解析规则从所述页面内容中解析出所述目标网页的发布时间;或者按照预先设置的解析规则从...

【专利技术属性】
技术研发人员:李新国
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1