网站更新内容的检测方法及装置制造方法及图纸

技术编号:11117381 阅读:105 留言:0更新日期:2015-03-06 16:26
本发明专利技术公开了一种网站更新内容的检测方法及装置。该网站更新内容的检测方法包括:接收待检测网站的内容更新事件发布信号,其中,内容更新事件发布信号用于指示待检测网站产生新增的网页;根据内容更新事件发布信号触发待检测网站上预先插入的目标脚本文件,其中,目标脚本文件用于记录待检测网站发生的内容更新事件;通过目标脚本文件记录待检测网站发生的内容更新事件;获取目标脚本文件记录的内容更新事件对应的网页更新内容。通过利用目标脚本文件记录待检测网站发生的内容更新事件,解决了获取网页更新内容时消耗负载比较大的问题,达到了在不造成较大负载消耗的基础上获取网页更新内容的效果。

【技术实现步骤摘要】
网站更新内容的检测方法及装置
本专利技术涉及互联网领域,具体而言,涉及一种网站更新内容的检测方法及装置。
技术介绍
网站的内容更新量主要是指网站最新发布或者添加的网页数量,其对于网站优化来说是一个重要的参考指标。目前很多网站,例如绝大多数的政府网站,采用的均是旧版的内容管理系统(CMS系统)。这些旧版的CMS系统不但不能提供网站的内容发布数量,同时难以升级维护,因此不具备网站内容更新量统计功能。即使在CMS系统上添加内容更新量统计功能,所需投入的成本也是相当巨大的。因此,利用CMS系统的网站大都通过第三方利用外围策略来进行网站内容更新量的统计。 目前,第三方通过外围策略提供网站内容更新量统计一般有两种实现形式:爬虫爬取统计方式和通过监控网站服务器进行统计的方式。爬虫爬取统计方式是通过爬取全站网页,然后从中找出新增网页,再将新增网页统计为网站内容更新量。监控网站服务器进行统计的方式是通过监控网站服务器上对应的文件夹,只要有新静态文件生成即认为有新内容页发布。 1、爬虫爬取统计方式 (I)占用大量服务器带宽,增大了网站服务器的运行负担,同时导致用户可用带宽降低,从而造成用户访问网页时加载时间变长,降低了用户的体验度。 (2)适用面窄。为了降低网站运行负担,保证用户体验,同时防止信息被盗用,很多成熟网站禁止大型搜索引擎之外的爬虫爬取,甚至有些网站禁止搜索引擎爬虫爬取。 (3)普适性差。对于不同网站而言,爬虫爬取策略和解析策略通常是不同的。由于不同网站的目录层级结构、文档结构不同,因此针对不同网站,需要开发不同的爬虫程序。这导致爬虫程序通用性差,基本不能推广和复用。 2、监控网站服务器统计方式 (I)占用服务器硬件资源,增大了网站服务器的运行负担,降低了用户的体验度。 (2)能够监控服务器文件夹,也就能够操作其中的服务器文件,因此安全性能差。 (3)准确性差。为了减小系统的存储负担,CMS系统大多不会为每个网页均在服务器本地生成静态文件。 针对相关技术中在获取网页更新内容时消耗负载比较大的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种网站更新内容的检测方法及装置,以解决在获取网页更新内容时消耗负载比较大的问题。 为了实现上述目的,根据本专利技术的一个方面,提供了一种网站更新内容的检测方法。 根据本专利技术的网站更新内容的检测方法包括:接收待检测网站的内容更新事件发布信号,其中,内容更新事件发布信号用于指示待检测网站产生新增的网页;根据内容更新事件发布信号触发待检测网站上预先插入的目标脚本文件,其中,目标脚本文件用于记录待检测网站发生的内容更新事件;通过目标脚本文件记录待检测网站发生的内容更新事件;获取目标脚本文件记录的内容更新事件对应的网页更新内容。 进一步地,获取目标脚本文件记录的内容更新事件对应的网页更新内容包括:按照内容更新事件被获取的时间的先后顺序对获取到的网页更新内容进行排序;将排序后的网页更新内容按照日志形式进行保存,得到网页更新日志。 进一步地,获取目标脚本文件记录的内容更新事件对应的网页更新内容包括:利用目标脚本文件调用应用程序编程接口,其中,应用程序编程接口用于将内容更新事件对应的网页更新内容保存到预设数据库;利用应用程序编程接口将内容更新事件对应的网页更新内容保存到预设数据库。 进一步地,将排序后的网页更新内容按照日志形式进行保存之后,该方法还包括:按照第一预设时间间隔解析网页更新日志,得到日志解析结果;根据日志解析结果计算待检测网站的内容更新量。 进一步地,利用应用程序编程接口将内容更新事件对应的网页更新内容保存到预设数据库之后,该方法还包括:按照第二预设时间间隔获取预设数据库中包含的内容更新事件对应的网页更新内容;根据获取的内容更新事件对应的网页更新内容计算待检测网站的内容更新量。 进一步地,获取目标脚本文件记录的内容更新事件对应的网页更新内容包括:获取内容更新事件发生的时间;获取内容更新事件对应的网页的标题;获取内容更新事件对应的网页发布到的网站栏目标题。 为了实现上述目的,根据本专利技术的另一方面,提供了一种网站更新内容的检测装置。 根据本专利技术的网站更新内容的检测装置包括:接收单元,用于接收待检测网站的内容更新事件发布信号,其中,内容更新事件发布信号用于指示待检测网站产生新增的网页;触发单元,用于根据内容更新事件发布信号触发待检测网站上预先插入的目标脚本文件,其中,目标脚本文件用于记录待检测网站发生的内容更新事件;记录单元,用于通过目标脚本文件记录待检测网站发生的内容更新事件;获取单元,用于获取目标脚本文件记录的内容更新事件对应的网页更新内容。 进一步地,获取单元包括:排序模块,用于按照内容更新事件被获取的时间的先后顺序对获取到的网页更新内容进行排序;第一存储模块,用于将排序后的网页更新内容按照日志形式进行保存,得到网页更新日志。 进一步地,获取单元包括:调用模块,用于利用目标脚本文件调用应用程序编程接口,其中,应用程序编程接口用于将内容更新事件对应的网页更新内容保存到预设数据库;第二存储模块,用于利用应用程序编程接口将内容更新事件对应的网页更新内容保存到预设数据库。 进一步地,该装置还包括:解析单元,用于按照第一预设时间间隔解析网页更新日志,得到日志解析结果;计算单元,用于根据日志解析结果计算待检测网站的内容更新量。 通过本专利技术,采用包括以下步骤的方法:接收待检测网站的内容更新事件发布信号,其中,内容更新事件发布信号用于指示待检测网站产生新增的网页;根据内容更新事件发布信号触发待检测网站上预先插入的目标脚本文件,其中,目标脚本文件用于记录待检测网站发生的内容更新事件;通过目标脚本文件记录待检测网站发生的内容更新事件;获取目标脚本文件记录的内容更新事件对应的网页更新内容,通过利用目标脚本文件记录待检测网站发生的内容更新事件,解决了获取网页更新内容时消耗负载比较大的问题,达到了在不造成较大负载消耗的基础上获取网页更新内容的效果。 【附图说明】 构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中: 图1是根据本专利技术的网页更新检测方法的实施例的示意图;以及 图2是根据本专利技术的网页更新检测装置的实施例的示意图。 【具体实施方式】 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。 为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。 需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”本文档来自技高网
...
网站更新内容的检测方法及装置

【技术保护点】
一种网站更新内容的检测方法,其特征在于,包括:接收待检测网站的内容更新事件发布信号,其中,所述内容更新事件发布信号用于指示所述待检测网站产生新增的网页;根据所述内容更新事件发布信号触发所述待检测网站上预先插入的目标脚本文件,其中,所述目标脚本文件用于记录所述待检测网站发生的内容更新事件;通过所述目标脚本文件记录所述待检测网站发生的内容更新事件;以及获取所述目标脚本文件记录的内容更新事件对应的网页更新内容。

【技术特征摘要】
1.一种网站更新内容的检测方法,其特征在于,包括: 接收待检测网站的内容更新事件发布信号,其中,所述内容更新事件发布信号用于指示所述待检测网站产生新增的网页; 根据所述内容更新事件发布信号触发所述待检测网站上预先插入的目标脚本文件,其中,所述目标脚本文件用于记录所述待检测网站发生的内容更新事件; 通过所述目标脚本文件记录所述待检测网站发生的内容更新事件;以及 获取所述目标脚本文件记录的内容更新事件对应的网页更新内容。2.根据权利要求1所述的方法,其特征在于,获取所述目标脚本文件记录的内容更新事件对应的网页更新内容包括: 按照所述内容更新事件被获取的时间的先后顺序对获取到的网页更新内容进行排序;以及 将排序后的网页更新内容按照日志形式进行保存,得到网页更新日志。3.根据权利要求1所述的方法,其特征在于,获取所述目标脚本文件记录的内容更新事件对应的网页更新内容包括: 利用所述目标脚本文件调用应用程序编程接口,其中,所述应用程序编程接口用于将所述内容更新事件对应的网页更新内容保存到预设数据库;以及 利用所述应用程序编程接口将所述内容更新事件对应的网页更新内容保存到预设数据库。4.根据权利要求2所述的方法,其特征在于,将排序后的网页更新内容按照日志形式进行保存之后,所述方法还包括: 按照第一预设时间间隔解析所述网页更新日志,得到日志解析结果;以及 根据所述日志解析结果计算所述待检测网站的内容更新量。5.根据权利要求3所述的方法,其特征在于,利用所述应用程序编程接口将所述内容更新事件对应的网页更新内容保存到预设数据库之后,所述方法还包括: 按照第二预设时间间隔获取所述预设数据库中包含的内容更新事件对应的网页更新内容;以及 根据获取的内容更新事件对应的网页更新内容计算所述...

【专利技术属性】
技术研发人员:冯鸳鹤
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1