The present invention discloses a method and a device for detecting web pages. Among them, the method includes: detecting updates for a preset period of time, the target page from the target site; analysis of the target web access data, get access to the target web access parameters, parameters are used to reflect the target page is accessed; judging whether the access parameters satisfying the preset conditions; and the access parameters meets the preset condition in the judgment, determine the target of \effective update\. The utility model solves the technical problem that the effect of web page updating can not be evaluated in the prior art.
【技术实现步骤摘要】
网页检测方法和装置
本申请涉及互联网领域,具体而言,涉及一种网页检测方法和装置。
技术介绍
在互联网领域,随着时间的推移,网站上会不断地发布或添加新的网页,这些都可以称为网页的更新。专利技术人发现,虽然都是网页的更新,但有些网页的更新能够起到很好的效果,有些网页的更新却无法对网站做出任何贡献,因此,如何对网页的更新的进行评价,从而确定网页更新的质量是目前亟待解决的问题。现有技术中还无法对网页更新的效果进行评价,进而无法确定网页的更新对网站带来哪些好处。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种网页检测方法和装置,以至少解决现有技术中无法对网页更新的效果进行评价的技术问题。根据本申请实施例的一个方面,提供了一种网页检测方法,包括:从目标网站中检测出在预设时间段内更新的目标网页;对所述目标网页的访问数据进行解析,得到所述目标网页的访问参数,所述访问参数用于反映所述目标网页被访问的情况;判断所述访问参数是否满足预设条件;以及在判断出所述访问参数满足所述预设条件时,确定所述目标网页为有效更新的网页。进一步地,所述访问参数包括以下至少之一:访问次数、访问用户数量、访问时长,其中,判断所述访问参数是否满足预设条件包括以下至少之一:判断所述访问次数是否超过第一预设阈值;判断所述访问用户数量是否超过第二预设阈值;判断所述访问时长是否超过第三预设阈值。进一步地,从目标网站中检测出在预设时间段内更新的目标网页包括:对所述目标网站在所述预设时间段内的访问日志进行解析,得到被访问网页的统一资源定位符;逐条将所述被访问网页的统一资源定位符与在所述 ...
【技术保护点】
一种网页检测方法,其特征在于,包括:从目标网站中检测出在预设时间段内更新的目标网页;对所述目标网页的访问数据进行解析,得到所述目标网页的访问参数,所述访问参数用于反映所述目标网页被访问的情况;判断所述访问参数是否满足预设条件;以及在判断出所述访问参数满足所述预设条件时,确定所述目标网页为有效更新的网页。
【技术特征摘要】
1.一种网页检测方法,其特征在于,包括:从目标网站中检测出在预设时间段内更新的目标网页;对所述目标网页的访问数据进行解析,得到所述目标网页的访问参数,所述访问参数用于反映所述目标网页被访问的情况;判断所述访问参数是否满足预设条件;以及在判断出所述访问参数满足所述预设条件时,确定所述目标网页为有效更新的网页。2.根据权利要求1所述的方法,其特征在于,所述访问参数包括以下至少之一:访问次数、访问用户数量、访问时长,其中,判断所述访问参数是否满足预设条件包括以下至少之一:判断所述访问次数是否超过第一预设阈值;判断所述访问用户数量是否超过第二预设阈值;判断所述访问时长是否超过第三预设阈值。3.根据权利要求1所述的方法,其特征在于,从目标网站中检测出在预设时间段内更新的目标网页包括:对所述目标网站在所述预设时间段内的访问日志进行解析,得到被访问网页的统一资源定位符;逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。4.根据权利要求3所述的方法,其特征在于,逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页包括:对所述被访问网页的统一资源定位符进行哈希编码,得到所述被访问网页的统一资源定位符的哈希值;在预先设置的布隆过滤器中查询是否存在所述被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;在查询出不存在所述被访问网页的统一资源定位符的哈希值时,确定该统一资源定位符的哈希值对应的网页为所述目标网页。5.根据权利要求4所述的方法,其特征在于,在查询出不存在所述被访问网页的统一资源定位符的哈希值之后,所述方法还包括:将所述被访问网页的...
【专利技术属性】
技术研发人员:李新国,吴茜,张鹏霄,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。