外链可用性监控方法和监控装置制造方法及图纸

技术编号:18497070 阅读:85 留言:0更新日期:2018-07-21 20:10
本发明专利技术公开了一种外链可用性监控方法及装置。所述方法包括:获取目标页面中的所有外链链接;发起针对外链链接的页面资源获取请求;根据返回的请求响应确定不可用的外链链接;修复、移除和/或报告不可用的外链链接。所述方法还可以对目标页面的下级页面进行相同的处理。由此,可以自动地识别出页面或网站中的死链,并进行相应的操作,从而为外链链接的可用性监控提出了一种高效的解决方案。

Monitoring methods and monitoring devices for external chain availability

The invention discloses a method and device for monitoring the availability of external chains. The methods described include obtaining all external link links in the target page; initiating page resource acquisition requests for external chain links; determining unavailable external chain links based on the returned request response; repair, remove, and / or report unavailable chain links. The method can also process the lower page of the target page in the same way. Thus, the dead chain in the page or the web site can be automatically identified, and the corresponding operation is carried out to provide an efficient solution for monitoring the availability of the external chain links.

【技术实现步骤摘要】
外链可用性监控方法和监控装置
本专利技术涉及互联网
,特别是涉及一种外链可用性监控方法和装置。
技术介绍
随着网络的发展,为了丰富页面内容,经常在页面中插入多个指向外部页面的外链链接。由于外链链接所对应的页面一般是不同于页面提供者的第三方开发的,难以保证所插入的外链的有效性。例如对于诸如导航网站、电商网站这些具有很多外链的网站,由于外部链接的可用性不受网站控制,一旦这些外部链接的地址不可用,就会对这些网站的收入和实用性造成影响。由此,需要一种能对外链的可用性进行监控的方案。
技术实现思路
本专利技术的主要目的在于,提供一种能够对外链的可用性进行监控的高度自动化的方法及监控装置。根据本专利技术的一个方面,提供了一种外链可用性监控方法,包括:获取目标页面中的所有外链链接;发起针对外链链接的页面资源获取请求;根据返回的请求响应确定不可用的外链链接;修复、移除和/或报告不可用的外链链接。由此,可以根据访问目标页面中的外部链接的访问结果确定外部链接的可用性,对于不可用的外部链接可以根据实际情况采取多种措施。例如,对于与目标页面属于同一提供方的不可用的外链,可以尝试对其进行修复,并在修复不成功时进行移除和/或报告;对于与目标页面属于不同提供方的不可用的外链,可以加以移除并报告相应的外部提供方。优选地,目标页面可以是如下之一:导航页面;搜索结果页面;电商商户和/或产品页。本专利技术的外链监控方法尤其适用于上述具有大量外链的情况。优选地,获取目标页面中的所有外链链接包括:获取目标页面的源代码;以及使用正则式href=\"(.*?)\"从源代码中取出所有外链链接。由此,可以方便地检索出需要进行处理的外链链接,由此提升监控效率。优选地,发起针对外链链接的页面资源获取请求包括:逐一发起针对每个外链链接的HTTP请求。根据返回的请求响应确定不可用的外链链接包括:根据返回的HTTP状态码确定不可用的外链链接。由此能够经由业内广泛使用的HTTP状态码来实现对死链的判定,从而提升本专利技术方案的通用性。优选地,根据返回的HTTP状态码确定不可用的外链链接包括:在一外链链接返回的HTTP状态码大于等于400且小于等于504时确定该外链链接不可用。由此,通过合理选择用于判断的HTTP状态码数值,能够更为方便准确地识别出页面中的死链。优选地,该方法还可以包括:跳转至目标页面的内链链接所指向的站内页面并针对所述站内页面重复外链链接的获取、发起页面资源获取请求、确定不可用的外链链接以及修复、移除和/或报告不可用的外链链接的操作。优选地,跳转至目标页面的内链链接所指向的站内页面可以是基于预定规则遍历目标页面所属网站内的所有带外链的页面,以完成对所述网站的死链移除。优选地,对站内页面的跳转也可以不经由内链链接的指向。所述方法可以包括获取网站内的页面结构关系信息(例如,网站地图),并且根据上述结构信息的指示完成对目标网站内各页面的外链可用性检测,从而实现对整个目标站点的死链识别和处理。根据本专利技术的另一个方面,还提供了一种外链可用性监控装置,包括:外链获取单元,用于获取目标页面中的所有外链链接;资源请求单元,用于发起针对外链链接的页面资源获取请求;不可用外链确定单元,用于根据返回的请求响应确定不可用的外链链接;以及不可用外链处理单元,用于修复、移除和/或报告不可用的外链链接。在本专利技术的一个实施例中,外链获取单元包括:源代码获取单元,用于获取目标页面的源代码;以及外链取出单元,用于使用正则表达式href=\"(.*?)\"从源代码中取出所有外链链接。在本专利技术的一个实施例中,该装置还可以包括:站内页面跳转单元,用于跳转至目标页面的内链链接所指向的站内页面,并且外链可用性监控装置使得外链获取单元、不可用外链确定单元和不可用外链处理单元针对站内页面进行操作。本专利技术的外链可用性监控方法及监控装置可以自动地识别目标页面、网站甚至网站集群中的不可用外链链接,并进行相应的处理,从而能够快速有效地实现对外链链接可用性的全方位监控。附图说明通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1是示出了根据本专利技术一实施例的外链可用性监控方法的示意性流程图。图2是示出了根据本专利技术一实施例的外链可用性监控装置的功能框图。图3是示出了对导航页中的外链链接的可用性进行监控的流程图。具体实施方式下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。如前所述,为了实现对页面中的外链链接的可用性的监控,本专利技术提出了一种可以自动识别目标页面、网站甚至网站集群中的不可用外链链接(也可称为“死链”),并进行相应的处理的死链监控方案。在这里,“外链链接”可以指代页面中指向其它外部网站页面的链接,“内链链接”可以指代站内链接,即,同一网站域名下的内容页面之间的互相链接,例如当前页面的下级页面。本专利技术在此述及的目标页面可以是具有多个外链链接的页面,尤其可以是导航页面、搜索结果页面、电商商户和/或产品页等等。下面结合图1就本专利技术的监控方案进行详细说明。图1是示出了根据本专利技术一实施例的外链链接可用性监控方法的示意性流程图。参见图1,外部链接可用性监控方法开始于步骤S110,获取目标页面中的所有外链链接。在一个实施例中,步骤S110可以通过获取目标页面的源代码(例如,使用HTTPGET),对源代码进行分析来得到目标页面的所有外部链接。优选地,可以使用正则式href=\"(.*?)\"从源代码中取出所有外链链接,由此提升外链获取效率。在得到外部链接后,可以在步骤S120,发起针对外部链接的页面资源获取请求。所述请求可以是逐一发起针对每个外链链接的HTTP请求,也可以是并行发起的。在一个实施例中,步骤S110可以通过正则式逐一取出目标页面中的外部链接,在取出第一个外部链接后,就可以执行步骤S120,发出针对第一个外部链接的页面资源获取请求,以此类推,可以实现对所有外部链接的资源获取请求。由此,可以在执行步骤S110的同时执行步骤S120。接下来,在步骤S130,根据返回的请求响应确定不可用的外链链接。其中,步骤S120可以向外链链接所对应的服务器发起HTTP请求的。服务器在接收到访问请求后,会向请求方发出三位HTTP状态码以表示服务器的HTTP响应状态。在现有技术中,已知以不同数字开头的HTTP状态码表示不同的含义。具体地,以1开头的HTTP状态码,代表HTTP请求已被接受,需要继续处理。以2开头的HTTP状态码,代表请求已成功被服务器接收、理解、并接受。以3开头的HTTP状态码代表需要客户端采取进一步的操作才能完成请求。以4开头的HTTP状态码代表了客户端看起来可能发生了错误,妨碍了服务器的处理。以5、6开头的HTTP状态码代表了服务器在处理请求的过程中有错误或者异常状态发生。根据HTTP状态码开头数字所代表的含义可知,以4及以后数字(5、6等等)开头的HTTP状态码表示的均是HTTP请本文档来自技高网...

【技术保护点】
1.一种外链可用性监控方法,包括:获取目标页面中的所有外链链接;发起针对所述外链链接的页面资源获取请求;根据返回的请求响应确定不可用的外链链接;修复、移除和/或报告所述不可用的外链链接。

【技术特征摘要】
1.一种外链可用性监控方法,包括:获取目标页面中的所有外链链接;发起针对所述外链链接的页面资源获取请求;根据返回的请求响应确定不可用的外链链接;修复、移除和/或报告所述不可用的外链链接。2.如权利要求1所述的方法,其中,所述目标页面是如下之一:导航页面;搜索结果页面;电商商户和/或产品页。3.如权利要求1所述的方法,其中,获取目标页面中的所有外链链接包括:获取目标页面的源代码;以及使用正则式href=\"(.*?)\"从所述源代码中取出所有外链链接。4.如权利要求1所述的方法,其中,发起针对所述外链链接的页面资源获取请求包括:逐一发起针对每个所述外链链接的HTTP请求,以及根据返回的请求响应确定不可用的外链链接包括:根据返回的HTTP状态码确定不可用的外链链接。5.如权利要求4所述的方法,其中,根据返回的HTTP状态码确定不可用的外链链接包括:在一外链链接返回的HTTP状态码大于等于400且小于等于504时确定该外链链接不可用。6.如权利要求1所述的方法,还包括:跳转至所述目标页面的内链链接所指向的站内页面并针对站内页面重复所述外链链...

【专利技术属性】
技术研发人员:王细亮王文祥
申请(专利权)人:广州市动景计算机科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1