网页检测方法和装置制造方法及图纸

技术编号:15690891 阅读:251 留言:0更新日期:2017-06-24 03:39
本申请公开了一种网页检测方法和装置。其中,该方法包括:对目标网站在预设时间段内的访问日志进行解析,得到在预设时间段内多个被访问网页;从多个被访问网页中确定出目标网页,目标网页为在预设时间段之前未被访问的网页;在预先设置的搜索引擎中搜索目标网页的统一资源定位符,得到搜索结果;对搜索结果进行解析,在解析得到目标网页的发布时间时,判断发布时间是否处于预设时间段内;以及在判断出发布时间处于预设时间段内时,确定目标网页为在预设时间段内更新的网页。本申请解决了由于检测的网页数量大造成更新网页的检测过程效率低的技术问题。

Method and device for detecting web pages

The present invention discloses a method and a device for detecting web pages. Among them, the method includes: analyzing the target site access log for a preset period of time, in a preset period of time, more access to web pages; from multiple access to determine target web page, the target page to be not accessed before a preset period of time \; the search target\ uniform resource locator the match is arranged in advance in the search engine, search results; analysis of the search results, get the target web release time when parsing, judge whether published in a preset period of time; and when it is determined that the release time in a preset period of time, to determine the target page for updates at a preset time \. The application solves the technical problem that the detection process of the updating webpage is low due to the large number of the detected pages.

【技术实现步骤摘要】
网页检测方法和装置
本申请涉及互联网领域,具体而言,涉及一种网页检测方法和装置。
技术介绍
在互联网领域,网站上的网页会不断更新,而网站更新量也是评价网站绩效的一项重要指标。这里的网站更新量指的是在一定时间内网站更新的网页的数量。在统计网站更新量的过程中,如何确定哪些网页是网站在一定时间内更新的网页是一个难以解决的问题。目前,通常是通过爬虫程序爬取网站上的网页,然后逐个网页分析是否为更新的网页。然而,如果要统计更新量的网站越大,每次爬取的网页数就越多,而这些网页中大部分不是更新的网页,使得需要检测的网页数量大,导致更新网页的检测过程效率低。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种网页检测方法和装置,以至少解决由于检测的网页数量大造成更新网页的检测过程效率低的技术问题。根据本申请实施例的一个方面,提供了一种网页检测方法,包括:对目标网站在预设时间段内的访问日志进行解析,得到在所述预设时间段内多个被访问网页;从所述多个被访问网页中确定出目标网页,所述目标网页为在所述预设时间段之前未被访问的网页;在预先设置的搜索引擎中搜索所述目标网页的统一资源定位符,得到搜索结果;对所述搜索结果进行解析,在解析得到所述目标网页的发布时间时,判断所述发布时间是否处于所述预设时间段内;以及在判断出所述发布时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页。进一步地,在预先设置的搜索引擎中搜索所述目标网页的统一资源定位符,得到搜索结果包括:在预先设置的多个搜索引擎中搜索所述目标网页的统一资源定位符,得到与多个搜索引擎一一对应的多个搜索结果;对所述搜索结果进行解析包括:分别对所述多个搜索结果进行解析,其中,在解析出一个发布时间时,将所述一个发布时间作为所述目标网页的发布时间;在解析出多个发布时间时,将多个发布时间中时间最早的发布时间作为所述目标网页的发布时间。进一步地,在对所述搜索结果进行解析之后,所述方法还包括:在未解析到所述目标网页的发布时间时,爬取所述搜索引擎收录所述目标网页的收录时间;判断所述收录时间是否处于所述预设时间段内;在判断出所述收录时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页;在判断出所述收录时间处于所述预设时间段之外时,确定所述目标网页不是在所述预设时间段内更新的网页。进一步地,从所述多个被访问网页中确定出目标网页包括:逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。进一步地,逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页包括:对所述多个被访问网页中每一个被访问网页的统一资源定位符进行哈希编码,得到所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值;在预先设置的布隆过滤器中查询所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;将未查询到的哈希值对应的网页作为所述目标网页。根据本申请实施例的另一方面,还提供了一种网页检测装置,包括:解析单元,用于对目标网站在预设时间段内的访问日志进行解析,得到在所述预设时间段内多个被访问网页;第一确定单元,用于从所述多个被访问网页中确定出目标网页,所述目标网页为在所述预设时间段之前未被访问的网页;搜索单元,用于在预先设置的搜索引擎中搜索所述目标网页的统一资源定位符,得到搜索结果;第一判断单元,用于对所述搜索结果进行解析,在解析得到所述目标网页的发布时间时,判断所述发布时间是否处于所述预设时间段内;以及第二确定单元,用于在判断出所述发布时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页。进一步地,所述搜索单元具体用于在预先设置的多个搜索引擎中搜索所述目标网页的统一资源定位符,得到与多个搜索引擎一一对应的多个搜索结果;所述第一判断单元包括:解析模块,用于分别对所述多个搜索结果进行解析,其中,在解析出一个发布时间时,将所述一个发布时间作为所述目标网页的发布时间;在解析出多个发布时间时,将多个发布时间中时间最早的发布时间作为所述目标网页的发布时间。进一步地,所述装置还包括:爬取单元,用于在对所述搜索结果进行解析之后,在未解析到所述目标网页的发布时间时,爬取所述搜索引擎收录所述目标网页的收录时间;第二判断单元,用于判断所述收录时间是否处于所述预设时间段内;第三确定个单元,用于在判断出所述收录时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页;在判断出所述收录时间处于所述预设时间段之外时,确定所述目标网页不是在所述预设时间段内更新的网页。进一步地,所述第一确定单元具体用于逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。进一步地,所述第一确定单元包括:编码模块,用于对所述多个被访问网页中每一个被访问网页的统一资源定位符进行哈希编码,得到所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值;查询模块,用于在预先设置的布隆过滤器中查询所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;确定模块,用于将未查询到的哈希值对应的网页作为所述目标网页。根据本申请实施例,通过对目标网站在预设时间段内的访问日志进行解析,得到在预设时间段内多个被访问网页;从多个被访问网页中确定出目标网页,目标网页为在预设时间段之前未被访问的网页;在预先设置的搜索引擎中搜索目标网页的统一资源定位符,得到搜索结果;对搜索结果进行解析,在解析得到目标网页的发布时间时,判断发布时间是否处于预设时间段内,在判断出发布时间处于预设时间段内时,确定目标网页为在预设时间段内更新的网页。由于仅检测预设时间段内的被访问网页,相对于现有技术中爬取网站的所有网页而言,其网页的数量大大减少,解决了由于检测的网页数量大造成更新网页的检测过程效率低的技术问题,提高了更新网页的检测效率。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的网页检测方法的流程图;图2是根据本申请实施例的网页检测装置的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申本文档来自技高网
...
网页检测方法和装置

【技术保护点】
一种网页检测方法,其特征在于,包括:对目标网站在预设时间段内的访问日志进行解析,得到在所述预设时间段内多个被访问网页;从所述多个被访问网页中确定出目标网页,所述目标网页为在所述预设时间段之前未被访问的网页;在预先设置的搜索引擎中搜索所述目标网页的统一资源定位符,得到搜索结果;对所述搜索结果进行解析,在解析得到所述目标网页的发布时间时,判断所述发布时间是否处于所述预设时间段内;以及在判断出所述发布时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页。

【技术特征摘要】
1.一种网页检测方法,其特征在于,包括:对目标网站在预设时间段内的访问日志进行解析,得到在所述预设时间段内多个被访问网页;从所述多个被访问网页中确定出目标网页,所述目标网页为在所述预设时间段之前未被访问的网页;在预先设置的搜索引擎中搜索所述目标网页的统一资源定位符,得到搜索结果;对所述搜索结果进行解析,在解析得到所述目标网页的发布时间时,判断所述发布时间是否处于所述预设时间段内;以及在判断出所述发布时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页。2.根据权利要求1所述的方法,其特征在于,在预先设置的搜索引擎中搜索所述目标网页的统一资源定位符,得到搜索结果包括:在预先设置的多个搜索引擎中搜索所述目标网页的统一资源定位符,得到与多个搜索引擎一一对应的多个搜索结果;对所述搜索结果进行解析包括:分别对所述多个搜索结果进行解析,其中,在解析出一个发布时间时,将所述一个发布时间作为所述目标网页的发布时间;在解析出多个发布时间时,将多个发布时间中时间最早的发布时间作为所述目标网页的发布时间。3.根据权利要求1或2所述的方法,其特征在于,在对所述搜索结果进行解析之后,所述方法还包括:在未解析到所述目标网页的发布时间时,爬取所述搜索引擎收录所述目标网页的收录时间;判断所述收录时间是否处于所述预设时间段内;在判断出所述收录时间处于所述预设时间段内时,确定所述目标网页为在所述预设时间段内更新的网页;在判断出所述收录时间处于所述预设时间段之外时,确定所述目标网页不是在所述预设时间段内更新的网页。4.根据权利要求1所述的方法,其特征在于,从所述多个被访问网页中确定出目标网页包括:逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。5.根据权利要求4所述的方法,其特征在于,逐条将所述多个被访问网页的统一资源定位符与在所述预设时间段之前记录的网页的统一资源定位符进行匹配,在所述多个被访问网页中被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页包括:对所述多个被访问网页中每一个被访问网页的统一资源定位符进行哈希编码,得到所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值;在预先设置的布隆过滤器中查询所述多个被访问网页中每一个被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源...

【专利技术属性】
技术研发人员:李新国
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1