检测网页更新的方法及装置制造方法及图纸

技术编号:11117380 阅读:108 留言:0更新日期:2015-03-06 16:26
本发明专利技术公开了一种检测网页更新的方法及装置。该检测网页更新的方法包括:获取待检测网站的历史访问记录;根据历史访问记录确定待检测网站内的历史访问网页;获取待检测网站的当前访问记录;根据待检测网站的当前访问记录获取待检测网站内的当前访问网页;判断当前访问网页是否出现在历史访问网页中;如果当前访问网页出现在历史访问网页中,则确定当前访问网页不是新增网页;如果当前访问网页没有出现在历史访问网页中,则确定当前访问网页是新增网页,解决了对网页更新情况进行检测时消耗负载比较大的问题,进而通过利用网站的历史访问记录确定当前网页是否为新增网页,达到了在不造成较大负载消耗的情况下对网页更新情况进行检测的效果。

【技术实现步骤摘要】
检测网页更新的方法及装置
本专利技术涉及互联网领域,具体而言,涉及一种检测网页更新的方法及装置。
技术介绍
网站的内容更新量主要是指网站最新发布或者添加的网页数量,其对于网站优化 来说是一个重要的参考指标。目前,很多网站都具备用户行为数据统计功能,换言之,一个 网站的用户的行为数据对该网站来说是完备的,而且是有大量历史积累的。网站通常会对 用户行为数据进行实时统计。与此同时,鉴于一个网站的内容更新数据的重要性,网站又不 得不进行网站内容更新量的统计。这种做法通常会给网站运行带来以下的不利影响: 1、增加网站的运营成本。 2、增加网页加载负担或网站运行负担,影响网站的用户交互。 不管是使用什么方式进行网站内容更新量的统计,都会增加页面加载的负担或者 网站运行的负担。例如,采用爬虫爬取的办法会占用服务器带宽;采用检测服务器文件夹的 办法会增加服务器硬件运行成本;采用页面脚本文件(例如JavaScript)检测的办法会增 加网页每次的加载时间。 3、降低网站的安全性。 安全性的降低主要是由于对外部的依赖关系增多引起的,其中任何一个依赖因素 出现异常都可能导致网站不能正常显示。 针对相关技术中在对网页更新情况进行检测时消耗负载比较大的问题,目前尚未 提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种检测网页更新的方法及装置,以解决对网页更新 量进行检测时消耗负载比较大的问题。 为了实现上述目的,根据本专利技术的一个方面,提供了 一种检测网页更新的方法。 根据本专利技术的检测网页更新的方法包括:获取待检测网站的历史访问记录,其中, 历史访问记录包括待检测网站内被访问过的网页的访问记录;根据历史访问记录确定待检 测网站内的历史访问网页;获取待检测网站的当前访问记录;根据待检测网站的当前访问 记录获取待检测网站内的当前访问网页;判断当前访问网页是否出现在历史访问网页中; 如果当前访问网页出现在历史访问网页中,则确定当前访问网页不是新增网页;如果当前 访问网页没有出现在历史访问网页中,则确定当前访问网页是新增网页。 进一步地,在判断当前访问网页是否出现在历史访问网页中之前,该方法还包括: 获取当前访问网页的网页名称;获取当前访问网页的网页名称对应的数值;判断当前访问 网页的网页名称对应的数值是否大于预设比较值,其中,如果当前访问网页的网页名称对 应的数值不大于预设比较值,则确定当前访问网页不是新增网页,如果当前访问网页的网 页名称对应的数值大于预设比较值,则判断当前访问网页是否出现在历史访问网页中。 进一步地,在获取待检测网站的当前访问记录之前,该方法还包括:分别获取历史 访问网页的网页名称对应的数值,通过以下方法确定预设比较值:比较历史访问网页的网 页名称对应的数值;获取历史访问网页的网页名称对应的数值中的最大值;确定最大值为 预设比较值。 进一步地,在确定当前访问网页是新增网页之后,该方法还包括:确定当前访问网 页的网页名称对应的数值为预设比较值,或者确定预设时间间隔;经过预设时间间隔之后, 获取当前时间之前的历史访问网页的网页名称对应的数值;获取当前时间之前的历史访问 网页的网页名称对应的数值的最大值;确定当前时间之前的历史访问网页的网页名称对应 的数值的最大值为预设比较值。 进一步地,判断当前访问网页是否出现在历史访问网页中包括:获取目标路径值, 其中,目标路径值为当前访问网页的统一资源定位符中包含的路径值;获取路径值集合,其 中,路径值集合包括历史访问网页的统一资源定位符中包含的路径值;判断目标路径值是 否出现在路径值集合中,其中,如果目标路径值出现在路径值集合中,则确定当前访问网页 不是新增网页,如果目标路径值没有出现在路径值集合中,则确定当前访问网页是新增网 页。 进一步地,在确定当前访问网页是新增网页之后,该方法还包括:统计新增网页的 数量;添加当前访问记录到历史访问记录中。 为了实现上述目的,根据本专利技术的另一方面,提供了一种检测网页更新的装置。 根据本专利技术的检测网页更新的装置包括:第一获取单元,用于获取待检测网站的 历史访问记录,其中,历史访问记录包括待检测网站内被访问过的网页的访问记录;第一确 定单元,用于根据历史访问记录确定待检测网站内的历史访问网页;第二获取单元,用于获 取待检测网站的当前访问记录;第三获取单元,用于根据待检测网站的当前访问记录获取 待检测网站内的当前访问网页;第一判断单元,用于判断当前访问网页是否出现在历史访 问网页中;第二确定单元,用于在当前访问网页出现在历史访问网页中时,确定当前访问网 页不是新增网页;第三确定单元,用于在当前访问网页没有出现在历史访问网页中时,确定 当前访问网页是新增网页。 进一步地,该装置还包括:第四获取单元,用于获取当前访问网页的网页名称;第 五获取单元,用于获取当前访问网页的网页名称对应的数值;第二判断单元,用于判断当前 访问网页的网页名称对应的数值是否大于预设比较值,其中,在当前访问网页的网页名称 对应的数值不大于预设比较值时,确定当前访问网页不是新增网页,在当前访问网页的网 页名称对应的数值大于预设比较值时,判断当前访问网页是否出现在历史访问网页中。 进一步地,该装置还包括:第六获取单元,用于分别获取历史访问网页的网页名称 对应的数值,第四确定单元,用于通过以下模块确定预设比较值:比较模块,用于比较历史 访问网页的网页名称对应的数值;获取模块,用于获取历史访问网页的网页名称对应的数 值中的最大值;确定模块,用于确定最大值为预设比较值。 进一步地,该装置还包括:第五确定单元,用于确定当前访问网页的网页名称对应 的数值为预设比较值,或者第六确定单元,用于确定预设时间间隔;第七获取单元,用于经 过预设时间间隔之后,获取当前时间之前的历史访问网页的网页名称对应的数值;第八获 取单元,用于获取当前时间之前的历史访问网页的网页名称对应的数值的最大值;第七确 定单元,用于确定当前时间之前的历史访问网页的网页名称对应的数值的最大值为预设比 较值。 通过本专利技术,采用包括如下步骤的方法:获取待检测网站的历史访问记录,其中, 历史访问记录包括待检测网站内被访问过的网页的访问记录;根据历史访问记录确定待检 测网站内的历史访问网页;获取待检测网站的当前访问记录;根据待检测网站的当前访问 记录获取待检测网站内的当前访问网页;判断当前访问网页是否出现在历史访问网页中; 如果当前访问网页出现在历史访问网页中,则确定当前访问网页不是新增网页;如果当前 访问网页没有出现在历史访问网页中,则确定当前访问网页是新增网页,解决了对网页更 新情况进行检测时消耗负载比较大的问题,进而通过利用网站的历史访问记录确定当前网 页是否为新增网页,达到了在不造成较大负载消耗的情况下对网页更新情况进行检测的效 果。 【附图说明】 构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实 施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中: 图1是根据本专利技术的检测网页更新的方法的第一实施例的示意图; 图2是根据本专利技术的检测网页更新的方本文档来自技高网...
检测网页更新的方法及装置

【技术保护点】
一种检测网页更新的方法,其特征在于,包括:获取待检测网站的历史访问记录,其中,所述历史访问记录包括所述待检测网站内被访问过的网页的访问记录;根据所述历史访问记录确定所述待检测网站内的历史访问网页;获取所述待检测网站的当前访问记录;根据所述待检测网站的当前访问记录获取所述待检测网站内的当前访问网页;判断所述当前访问网页是否出现在所述历史访问网页中;如果所述当前访问网页出现在所述历史访问网页中,则确定所述当前访问网页不是新增网页;以及如果所述当前访问网页没有出现在所述历史访问网页中,则确定所述当前访问网页是新增网页。

【技术特征摘要】
1. 一种检测网页更新的方法,其特征在于,包括: 获取待检测网站的历史访问记录,其中,所述历史访问记录包括所述待检测网站内被 访问过的网页的访问记录; 根据所述历史访问记录确定所述待检测网站内的历史访问网页; 获取所述待检测网站的当前访问记录; 根据所述待检测网站的当前访问记录获取所述待检测网站内的当前访问网页; 判断所述当前访问网页是否出现在所述历史访问网页中; 如果所述当前访问网页出现在所述历史访问网页中,则确定所述当前访问网页不是新 增网页;以及 如果所述当前访问网页没有出现在所述历史访问网页中,则确定所述当前访问网页是 新增网页。2. 根据权利要求1所述的方法,其特征在于, 在判断所述当前访问网页是否出现在所述历史访问网页中之前,所述方法还包括: 获取所述当前访问网页的网页名称; 获取所述当前访问网页的网页名称对应的数值;以及 判断所述当前访问网页的网页名称对应的数值是否大于预设比较值, 其中,如果所述当前访问网页的网页名称对应的数值不大于所述预设比较值,则确定 所述当前访问网页不是新增网页,如果所述当前访问网页的网页名称对应的数值大于所述 预设比较值,则判断所述当前访问网页是否出现在所述历史访问网页中。3. 根据权利要求2所述的方法,其特征在于, 在获取所述待检测网站的当前访问记录之前,所述方法还包括:分别获取所述历史访 问网页的网页名称对应的数值, 通过以下方法确定所述预设比较值: 比较所述历史访问网页的网页名称对应的数值; 获取所述历史访问网页的网页名称对应的数值中的最大值;以及 确定所述最大值为所述预设比较值。4. 根据权利要求3所述的方法,其特征在于,在确定所述当前访问网页是新增网页之 后,所述方法还包括: 确定所述当前访问网页的网页名称对应的数值为所述预设比较值,或者 确定预设时间间隔; 经过所述预设时间间隔之后,获取当前时间之前的历史访问网页的网页名称对应的数 值; 获取所述当前时间之前的历史访问网页的网页名称对应的数值的最大值;以及 确定所述当前时间之前的历史访问网页的网页名称对应的数值的最大值为所述预设 比较值。5. 根据权利要求1所述的方法,其特征在于,判断所述当前访问网页是否出现在所述 历史访问网页中包括: 获取目标路径值,其中,所述目标路径值为所述当前访问网页的统一资源定位符中包 含的路径值; 获取路径值集合,其中,所述路径值集合包括所述历史访问网页的统一资源定位符中 包含的路径值;以及 判断所述目标路径值是否出现在所述路径值集合中, 其中,如果所述目标路径值出现在所述路径值集合中,则确定所述当前访问网页不是 新增网页,如果所述目标路径值...

【专利技术属性】
技术研发人员:冯鸳鹤
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1