网站检测方法和装置制造方法及图纸

技术编号:22167142 阅读:23 留言:0更新日期:2019-09-21 10:41
本申请公开了一种网站检测方法和装置,该方法包括:获取待检测的网站的网站地址;依据该网站地址,依次爬取该网站中包含的各个网页的源代码;依据预置的多条搜索引擎优化SEO规则,对该网站中各个网页的源代码进行异常检测,得到该网站的异常检测结果,该异常检测结果包括该网站中不符合该SEO规则的异常网页以及该异常网页中不符合该SEO规则的异常原因;输出该异常检测结果。本申请的方案可以实现更为快速、全面和高效的对网站进行SEO规则检测。

Web Site Detection Method and Device

【技术实现步骤摘要】
网站检测方法和装置
本申请涉及网站构建
,尤其涉及一种网站检测方法和装置。
技术介绍
网站是指在因特网上根据一定的规则,工具制作的用于展示特定内容相关网页的集合。人们可以通过网站可以发布自己想要公开的资讯,或者利用网站来提供相关的网络服务。而网站的构建需要遵循一些规则,如,较为常见的规则为搜索引擎优化(SearchEngineOptimization,SEO)规则。基于SEO规则来调整网站有利于一提高目的网站在有关搜索引擎内的排名。然而,很多网站网站在构建过程中很可能并未很好的遵循SEO规则,这样就会导致网站存在一些需要改进的问题,因此,如何较为全面、高效的检测出网站中存在不符合SEO规则的问题点是本领域技术人员迫切需要解决的技术问题。
技术实现思路
有鉴于此,本申请提供了一种网站检测方法和装置,以实现更为快速、全面和高效的对网站进行SEO规则检测。为实现上述目的,一方面,本申请提供了一种网站检测方法,包括:获取待检测的网站的网站地址;依据所述网站地址,依次爬取所述网站中包含的各个网页的源代码;依据预置的多条搜索引擎优化SEO规则,对所述网站中各个网页的源代码进行异常检测,得到所述网站的异常检测结果,所述异常检测结果包括所述网站中不符合所述SEO规则的异常网页以及所述异常网页中不符合所述SEO规则的异常原因;输出所述异常检测结果。优选的,所述多条SEO规则包括:适用于网页内的至少一条第一SEO规则以及适用于不同网页间的至少一条第二SEO规则;所述依据预置的多条搜索引擎优化SEO规则,对所述网站中各个网页的源代码进行异常检测,包括:按照适用于网页内的至少一条第一SEO规则,分别对网页中每个网页的源代码进行异常检测,得到所述网站中各个网页的异常检测结果;按照适用于不同网页间的至少一条第二SEO规则,在所述网站中不同网页之间进行异常检测,得到所述网站中存在网页间异常的至少一个异常网页组以及所述异常网页组的异常原因,所述异常网页组包括至少两个异常网页。优选的,所述至少一条第二SEO规则包括:重复网页检测规则;所述按照适用于不同网页间的至少一条第二SEO规则,在所述网站中不同网页之间进行异常检测,包括:响应于所述重复网页检测规则,分别提取所述网站的每个网页的正文数据;针对所述网站中每个网页,基于该网页的正文数据,计算该网页的局部敏感指纹;针对所述网站中的每个网页,依据所述网站中各个网页的局部敏感指纹,分别计算该网页与网站中其他网页的海明距离,并确定与该网页的海明距离小于设定阈值的至少一个网页,将该网页以及所述至少一个网页确定为一组存在内容重复的异常网页组。优选的,所述依据所述网站地址,依次爬取所述网站中包含的各个网页的源代码,包括:依据所述网站地址,爬取所述网站的主页的源代码;提取所述主页的源代码中包含的至少一条链接,并将提取到的链接缓存到链接集合中;针对所述链接集合中未被处理的每条链接,依据该链接抓取所述网站中的网页的源代码;提取所述网页的源代码中包含的链接,并将提取到的链接缓存到所述链接集合中;如果所述链接集合中存在尚未被处理的链接,返回执行所述针对每条链接,依据该链接抓取所述网站中的网页的源代码的操作,直至所述链接集合中不存在尚未被处理的链接,得到所述网站中包含的各个网页的源代码。优选的,所述针对所述链接集合中的每条链接,依据该链接抓取所述网站中的网页的源代码,包括:从所述链接集合中确定当前待处理的目标链接;从分布式爬虫中,确定适合处于该目标链接的目标爬虫;通过所述目标爬虫抓取所述目标链接所指向的网页的源代码。优选的,所述输出所述异常检测结果之前,还包括:依据搜索引擎优化SEO规则和所述异常网页中不符合所述SEO规则的异常原因,确定网站中所述异常网页的优化方案;在所述输出所述异常检测结果的同时,还包括:输出所述网站中所述异常网页的优化方案。优选的,所述获取待检测的网站的网站地址,包括:获取用户输入的待检测的网站的域名;基于所述网站的域名,确定所述网站的统一资源定位符URL。又一方面,本申请还提供了一种网站检测装置,包括:地址获取单元,用于获取待检测的网站的网站地址;代码爬取单元,用于依据所述网站地址,依次爬取所述网站中包含的各个网页的源代码;异常检测单元,用于依据预置的多条搜索引擎优化SEO规则,对所述网站中各个网页的源代码进行异常检测,得到所述网站的异常检测结果,所述异常检测结果包括所述网站中不符合所述SEO规则的异常网页以及所述异常网页中不符合所述SEO规则的异常原因;结果输出单元,用于输出所述异常检测结果。优选的,所述异常检测规则中的多条SEO规则包括:适用于网页内的至少一条第一SEO规则以及适用于不同网页间的至少一条第二SEO规则;所述异常检测单元,包括:第一异常检测单元,用于按照适用于网页内的至少一条第一SEO规则,分别对网页中每个网页的源代码进行异常检测,得到所述网站中各个网页的异常检测结果;第二异常检测单元,用于按照适用于不同网页间的至少一条第二SEO规则,在所述网站中不同网页之间进行异常检测,得到所述网站中存在网页间异常的至少一个异常网页组以及所述异常网页组的异常原因,所述异常网页组包括至少两个异常网页。优选的,所述至少一条第二SEO规则包括:重复网页检测规则;所述第二异常检测单元,包括:正文提取单元,用于响应于所述重复网页检测规则,分别提取所述网站的每个网页的正文数据;指纹计算单元,用于针对所述网站中每个网页,基于该网页的正文数据,计算该网页的局部敏感指纹;重复检测单元,用于针对所述网站中的每个网页,依据所述网站中各个网页的局部敏感指纹,分别计算该网页与网站中其他网页的海明距离,并确定与该网页的海明距离小于设定阈值的至少一个网页,将该网页以及所述至少一个网页确定为一组存在内容重复的异常网页组。经由上述的技术方案可知,在本申请实施例中,在获取到待检测的网站的网站地址之后,会依次爬取出该网站中包含的所有网页的源代码,并结合预置的多条SEO规则对网站中各个网页进行异常检测,可见,本申请可以一次性对网站中涉及到的所有网站均异常检测,实现了一次性检测出网站的各个网页中不符合SEO规则的异常网页以及异常原因,并提示给用户,从而可以通过对网站的一次检测全面覆盖网站中各个网页,更为全面的检测出网站中不符合SEO规则的异常情况。而且,与每次仅仅检测一种SEO规则不同,本申请中对于网站中各个网页进行检测时,会按照预置的多条SEO进行异常检测,这样,通过对网站的一次检测可以实现对多种SEO规则的异常检测,避免了通过多次提交网站检测来实现多种SEO规则的检测,有利于更为全面、高效的检测出网站中不符合SEO规则的异常情况。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1示出了本申请的一种网站检测方法的一种流程示意图;图2示出了本申请的一种网站检测方法的又一种流程示意图;图3示出了本申请的一种网站检测方法的又一种流程示意图;图4示出了本申请的一种网站检测装置的一种组成结构示意图。具体实本文档来自技高网...

【技术保护点】
1.一种网站检测方法,其特征在于,包括:获取待检测的网站的网站地址;依据所述网站地址,依次爬取所述网站中包含的各个网页的源代码;依据预置的多条搜索引擎优化SEO规则,对所述网站中各个网页的源代码进行异常检测,得到所述网站的异常检测结果,所述异常检测结果包括所述网站中不符合所述SEO规则的异常网页以及所述异常网页中不符合所述SEO规则的异常原因;输出所述异常检测结果。

【技术特征摘要】
1.一种网站检测方法,其特征在于,包括:获取待检测的网站的网站地址;依据所述网站地址,依次爬取所述网站中包含的各个网页的源代码;依据预置的多条搜索引擎优化SEO规则,对所述网站中各个网页的源代码进行异常检测,得到所述网站的异常检测结果,所述异常检测结果包括所述网站中不符合所述SEO规则的异常网页以及所述异常网页中不符合所述SEO规则的异常原因;输出所述异常检测结果。2.根据权利要求1所述的网站检测方法,其特征在于,所述多条SEO规则包括:适用于网页内的至少一条第一SEO规则以及适用于不同网页间的至少一条第二SEO规则;所述依据预置的多条搜索引擎优化SEO规则,对所述网站中各个网页的源代码进行异常检测,包括:按照适用于网页内的至少一条第一SEO规则,分别对网页中每个网页的源代码进行异常检测,得到所述网站中各个网页的异常检测结果;按照适用于不同网页间的至少一条第二SEO规则,在所述网站中不同网页之间进行异常检测,得到所述网站中存在网页间异常的至少一个异常网页组以及所述异常网页组的异常原因,所述异常网页组包括至少两个异常网页。3.根据权利要求2所述的网站检测方法,其特征在于,所述至少一条第二SEO规则包括:重复网页检测规则;所述按照适用于不同网页间的至少一条第二SEO规则,在所述网站中不同网页之间进行异常检测,包括:响应于所述重复网页检测规则,分别提取所述网站的每个网页的正文数据;针对所述网站中每个网页,基于该网页的正文数据,计算该网页的局部敏感指纹;针对所述网站中的每个网页,依据所述网站中各个网页的局部敏感指纹,分别计算该网页与网站中其他网页的海明距离,并确定与该网页的海明距离小于设定阈值的至少一个网页,将该网页以及所述至少一个网页确定为一组存在内容重复的异常网页组。4.根据权利要求1所述的网站检测方法,其特征在于,所述依据所述网站地址,依次爬取所述网站中包含的各个网页的源代码,包括:依据所述网站地址,爬取所述网站的主页的源代码;提取所述主页的源代码中包含的至少一条链接,并将提取到的链接缓存到链接集合中;针对所述链接集合中未被处理的每条链接,依据该链接抓取所述网站中的网页的源代码;提取所述网页的源代码中包含的链接,并将提取到的链接缓存到所述链接集合中;如果所述链接集合中存在尚未被处理的链接,返回执行所述针对每条链接,依据该链接抓取所述网站中的网页的源代码的操作,直至所述链接集合中不存在尚未被处理的链接,得到所述网站中包含的各个网页的源代码。5.根据权利要求4所述的网站检测方法,其特征在于,所述针对所述链接集合中的每条链接,依据该链接抓取所...

【专利技术属性】
技术研发人员:周坤朋秦曼韩佑波
申请(专利权)人:郑州悉知信息科技股份有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1