网页检测方法和装置制造方法及图纸

技术编号:15690758 阅读:347 留言:0更新日期:2017-06-24 03:24
本申请公开了一种网页检测方法和装置。其中,该方法包括:从目标网站中检测出在预设时间段内更新的目标网页;对目标网页的访问数据进行解析,得到目标网页的访问参数,访问参数用于反映目标网页被访问的情况;判断访问参数是否满足预设条件;以及在判断出访问参数满足预设条件时,确定目标网页为有效更新的网页。本申请解决了现有技术中无法对网页更新的效果进行评价的技术问题。

Method and device for detecting web pages

The present invention discloses a method and a device for detecting web pages. Among them, the method includes: detecting updates for a preset period of time, the target page from the target site; analysis of the target web access data, get access to the target web access parameters, parameters are used to reflect the target page is accessed; judging whether the access parameters satisfying the preset conditions; and the access parameters meets the preset condition in the judgment, determine the target of \effective update\. The utility model solves the technical problem that the effect of web page updating can not be evaluated in the prior art.

【技术实现步骤摘要】
网页检测方法和装置
本申请涉及互联网领域,具体而言,涉及一种网页检测方法和装置。
技术介绍
在互联网领域,随着时间的推移,网站上会不断地发布或添加新的网页,这些都可以称为网页的更新。专利技术人发现,虽然都是网页的更新,但有些网页的更新能够起到很好的效果,有些网页的更新却无法对网站做出任何贡献,因此,如何对网页的更新的进行评价,从而确定网页更新的质量是目前亟待解决的问题。现有技术中还无法对网页更新的效果进行评价,进而无法确定网页的更新对网站带来哪些好处。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种网页检测方法和装置,以至少解决现有技术中无法对网页更新的效果进行评价的技术问题。根据本申请实施例的一个方面,提供了一种网页检测方法,包括:从目标网站中检测出在预设时间段内更新的目标网页;对所述目标网页的访问数据进行解析,得到所述目标网页的访问参数,所述访问参数用于反映所述目标网页被访问的情况;判断所述访问参数是否满足预设条件;以及在判断出所述访问参数满足所述预设条件时,确定所述目标网页为有效更新的网页。进一步地,所述访问参数包括以下至少之一:访问次数、访问用户数量、访问时长,其中,判断所述访问参数是否满足预设条件包括以下至少之一:判断所述访问次数是否超过第一预设阈值;判断所述访问用户数量是否超过第二预设阈值;判断所述访问时长是否超过第三预设阈值。进一步地,从目标网站中检测出在预设时间段内更新的目标网页包括:对所述目标网站在所述预设时间段内的访问日志进行解析,得到被访问网页的统一资源定位符;逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。进一步地,逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页包括:对所述被访问网页的统一资源定位符进行哈希编码,得到所述被访问网页的统一资源定位符的哈希值;在预先设置的布隆过滤器中查询是否存在所述被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;在查询出不存在所述被访问网页的统一资源定位符的哈希值时,确定该统一资源定位符的哈希值对应的网页为所述目标网页。进一步地,在查询出不存在所述被访问网页的统一资源定位符的哈希值之后,所述方法还包括:将所述被访问网页的统一资源定位符的哈希值存储到所述布隆过滤器中。根据本申请实施例的另一方面,还提供了一种网页检测装置,包括:检测单元,用于从目标网站中检测出在预设时间段内更新的目标网页;解析单元,用于对所述目标网页的访问数据进行解析,得到所述目标网页的访问参数,所述访问参数用于反映所述目标网页被访问的情况;判断单元,用于判断所述访问参数是否满足预设条件;以及确定单元,用于在判断出所述访问参数满足所述预设条件时,确定所述目标网页为有效更新的网页。进一步地,所述访问参数以下至少之一:访问次数、访问用户数量、访问时长,其中,所述判断单元包括以下至少之一:第一判断模块,用于判断所述访问次数是否超过第一预设阈值;第二判断模块,用于判断所述访问用户数量是否超过第二预设阈值;第三判断模块,用于判断所述访问时长是否超过第三预设阈值。进一步地,所述检测单元包括:解析模块,用于对所述目标网站在所述预设时间段内的访问日志进行解析,得到被访问网页的统一资源定位符;匹配模块,用于逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。进一步地,所述匹配模块包括:编码子模块,用于对所述被访问网页的统一资源定位符进行哈希编码,得到所述被访问网页的统一资源定位符的哈希值;查询子模块,用于在预先设置的布隆过滤器中查询是否存在所述被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;确定子模块,用于在查询出不存在所述被访问网页的统一资源定位符的哈希值时,确定该统一资源定位符的哈希值对应的网页为所述目标网页。进一步地,所述装置还包括:存储单元,用于在查询出不存在所述被访问网页的统一资源定位符的哈希值之后,将所述被访问网页的统一资源定位符的哈希值存储到所述布隆过滤器中。根据本申请实施例,通过从目标网站中检测出在预设时间段内更新的目标网页,对目标网页的访问数据进行解析,得到目标网页的访问参数,该访问参数用于反映目标网页被访问的情况,再判断访问参数是否满足预设条件,在判断出访问参数满足预设条件时,确定目标网页为有效更新的网页,利用访问参数来评价更新的网页是否为有效更新的网页,解决了现有技术中无法对网页更新的效果进行评价的技术问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的网页检测方法的流程图;图2是根据本申请实施例的网页检测装置的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本申请实施例,提供了一种网页检测方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本申请实施例的网页检测方法的流程图,如图1所示,该方法包括如下步骤:步骤S102,从目标网站中检测出在预设时间段内更新的目标网页。预设时间段可以是指目标网页更新的当天,例如,2015年12月1日在目标网站上更新了网页,在当天结束之后本文档来自技高网
...
网页检测方法和装置

【技术保护点】
一种网页检测方法,其特征在于,包括:从目标网站中检测出在预设时间段内更新的目标网页;对所述目标网页的访问数据进行解析,得到所述目标网页的访问参数,所述访问参数用于反映所述目标网页被访问的情况;判断所述访问参数是否满足预设条件;以及在判断出所述访问参数满足所述预设条件时,确定所述目标网页为有效更新的网页。

【技术特征摘要】
1.一种网页检测方法,其特征在于,包括:从目标网站中检测出在预设时间段内更新的目标网页;对所述目标网页的访问数据进行解析,得到所述目标网页的访问参数,所述访问参数用于反映所述目标网页被访问的情况;判断所述访问参数是否满足预设条件;以及在判断出所述访问参数满足所述预设条件时,确定所述目标网页为有效更新的网页。2.根据权利要求1所述的方法,其特征在于,所述访问参数包括以下至少之一:访问次数、访问用户数量、访问时长,其中,判断所述访问参数是否满足预设条件包括以下至少之一:判断所述访问次数是否超过第一预设阈值;判断所述访问用户数量是否超过第二预设阈值;判断所述访问时长是否超过第三预设阈值。3.根据权利要求1所述的方法,其特征在于,从目标网站中检测出在预设时间段内更新的目标网页包括:对所述目标网站在所述预设时间段内的访问日志进行解析,得到被访问网页的统一资源定位符;逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。4.根据权利要求3所述的方法,其特征在于,逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页包括:对所述被访问网页的统一资源定位符进行哈希编码,得到所述被访问网页的统一资源定位符的哈希值;在预先设置的布隆过滤器中查询是否存在所述被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;在查询出不存在所述被访问网页的统一资源定位符的哈希值时,确定该统一资源定位符的哈希值对应的网页为所述目标网页。5.根据权利要求4所述的方法,其特征在于,在查询出不存在所述被访问网页的统一资源定位符的哈希值之后,所述方法还包括:将所述被访问网页的...

【专利技术属性】
技术研发人员:李新国吴茜张鹏霄
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1