网页链接的检测方法和装置制造方法及图纸

技术编号:15329544 阅读:49 留言:0更新日期:2017-05-16 13:11
本申请公开了一种网页链接的检测方法和装置。其中,该方法包括:提取第一网页上的网络链接的标题,其中,第一网页是待检测网站的任意一个具有链接的网页;提取网络链接链接到的第二网页的标题;判断网络链接的标题与第二网页的标题是否相同;以及在判断出网络链接的标题与第二网页的标题相同的情况下,确定第二网页是网络链接的正确链接网页。本申请解决了无法高效检测网页链接的正确性的技术问题。

Method and device for detecting web page link

The invention discloses a method and a device for detecting the link of a webpage. Among them, the method includes: extracting the first page link title, the first page is a link with any web page to be detected; the extraction of network link to the title of the second \; to determine the network link to the title and second page title is the same; and a network link Title The title and second web pages in the same situation in judgment, to determine the second page is correct\ link network links. This application solves the technical problem of not being able to efficiently check the correctness of web links.

【技术实现步骤摘要】
网页链接的检测方法和装置
本申请涉及网络领域,具体而言,涉及一种网页链接的检测方法和装置。
技术介绍
随着互联网的发展,出现了很多网站,网站的网页错链数量是影响用户体验的一个重要因素。网页错链的意思是由于编辑或者程序等问题造成链接错误,造成链接的文字与链接到的内容页不符,比如,链接的文字是“刘备入川为什么不用诸葛亮随行”,点击链接文字后,得到的网页的内容是关于某某明星出行有若干助理随行的,这样网站的用户体验是非常差的。目前,大多使用人工来检测网页链接的正确性,不仅繁琐效率低,且易出错。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种网页链接的检测方法和装置,以至少解决无法高效检测网页链接的正确性的技术问题。根据本申请实施例的一个方面,提供了一种网页链接的检测方法,包括:提取第一网页上的网络链接的标题,其中,所述第一网页是待检测网站的任意一个具有链接的网页;提取所述网络链接链接到的第二网页的标题;判断所述网络链接的标题与所述第二网页的标题是否相同;以及在判断出所述网络链接的标题与所述第二网页的标题相同的情况下,确定所述第二网页是所述网络链接的正确链接网页。进一步地,在判断所述网络链接的标题与所述第二网页的标题是否相同之后,所述方法还包括:在判断出所述网络链接的标题与所述第二网页的标题不相同的情况下,计算所述网络链接的标题与所述第二网页的标题的相似度;判断所述相似度是否在第一预设范围之内;以及如果判断出所述相似度在所述第一预设范围之内,确定所述第二网页是所述网络链接的正确链接网页。进一步地,在判断所述相似度是否在第一预设范围之内之后,所述方法还包括:如果判断出所述相似度不在所述第一预设范围之内,将所述网络链接的标题进行分词,得到第一分词结果;将所述第二网页的标题和内容进行分词,得到第二分词结果;计算所述第一分词结果和所述第二分词结果的匹配度;如果所述第一分词结果和所述第二分词结果的所述匹配度在第二预设范围之内,确定所述第二网页是所述网络链接的正确链接网页;以及如果所述第一分词结果和所述第二分词结果的所述匹配度不在第二预设范围之内,确定所述第二网页是所述网络链接的错误链接网页。进一步地,在提取所述网络链接链接到的第二网页的标题之前,所述方法还包括:在所述待检测网站上部署网络爬虫;提取所述网络爬虫在所述第一网页上爬取到的所述网络链接的地址;以及确定爬取到的地址所表示的网页为所述第二网页。进一步地,在所述待检测网站部署网络爬虫之后,所述方法还包括:设置所述网络爬虫在所述待检测网站上的爬取层级;以及控制所述网络爬虫按照所述爬取层级进行爬取。根据本申请实施例的另一方面,提供了一种网页链接的检测装置,包括:第一提取单元,用于提取第一网页上的网络链接的标题,其中,所述第一网页是待检测网站的任意一个具有链接的网页;第二提取单元,用于提取所述网络链接链接到的第二网页的标题;第一判断单元,用于判断所述网络链接的标题与所述第二网页的标题是否相同;以及第一确定单元,用于在判断出所述网络链接的标题与所述第二网页的标题相同的情况下,确定所述第二网页是所述网络链接的正确链接网页。进一步地,所述装置还包括:第一计算单元,用于在所述第一判断单元判断所述网络链接的标题与所述第二网页的标题是否相同之后,当判断出所述网络链接的标题与所述第二网页的标题不相同时,计算所述网络链接的标题与所述第二网页的标题的相似度;第二判断单元,用于判断所述相似度是否在第一预设范围之内;以及第二确定单元,用于如果判断出所述相似度在所述第一预设范围之内,确定所述第二网页是所述网络链接的正确链接网页。进一步地,所述装置还包括:第一分词单元,用于在所述第二判断单元判断所述相似度是否在第一预设范围之内之后,当判断出所述相似度不在所述第一预设范围之内时,将所述网络链接的标题进行分词,得到第一分词结果;第二分词单元,用于将所述第二网页的标题和内容进行分词,得到第二分词结果;第二计算单元,用于计算所述第一分词结果和所述第二分词结果的匹配度;第三确定单元,用于当所述第一分词结果和所述第二分词结果的所述匹配度在第二预设范围之内时,确定所述第二网页是所述网络链接的正确链接网页;以及第四确定单元,用于当所述第一分词结果和所述第二分词结果的所述匹配度不在第二预设范围之内时,确定所述第二网页是所述网络链接的错误链接网页。进一步地,所述装置还包括:部署单元,用于在所述第二提取单元提取所述网络链接链接到的第二网页的标题之前,在所述待检测网站上部署网络爬虫;第三提取单元,用于提取所述网络爬虫在所述第一网页上爬取到的所述网络链接的地址;以及第五确定单元,用于确定爬取到的地址所表示的网页为所述第二网页。进一步地,所述装置还包括:设置单元,用于在所述部署单元在所述待检测网站部署网络爬虫之后,设置所述网络爬虫在所述待检测网站上的爬取层级;以及控制单元,用于控制所述网络爬虫按照所述爬取层级进行爬取。在本申请实施例中,采用提取第一网页上的网络链接的标题,其中,第一网页是待检测网站的任意一个具有链接的网页,提取网络链接链接到的第二网页的标题,判断网络链接的标题与第二网页的标题是否相同,在判断出网络链接的标题与第二网页的标题相同的情况下,确定第二网页是网络链接的正确链接网页的方式,通过提取网页上的网络链接的标题和网络链接链接到的新的网页的标题,比较这两个标题是否相同,如果这两个标题相同,则说明网络链接链接到的新的网页是网络链接的正确链接网页,达到了检测网页链接的正确性的目的,从而实现了高效检测网页链接正确性的技术效果,进而解决了无法高效检测网页链接的正确性的技术问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的网页链接的检测方法的流程图;图2是根据本申请实施例所提供的网页链接的检测方法进行网页链接的检测的流程图;以及图3是根据本申请实施例的网页链接的检测装置的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本申请实施例,提供了一种网页链接的检测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中本文档来自技高网
...
网页链接的检测方法和装置

【技术保护点】
一种网页链接的检测方法,其特征在于,包括:提取第一网页上的网络链接的标题,其中,所述第一网页是待检测网站的任意一个具有链接的网页;提取所述网络链接链接到的第二网页的标题;判断所述网络链接的标题与所述第二网页的标题是否相同;以及在判断出所述网络链接的标题与所述第二网页的标题相同的情况下,确定所述第二网页是所述网络链接的正确链接网页。

【技术特征摘要】
1.一种网页链接的检测方法,其特征在于,包括:提取第一网页上的网络链接的标题,其中,所述第一网页是待检测网站的任意一个具有链接的网页;提取所述网络链接链接到的第二网页的标题;判断所述网络链接的标题与所述第二网页的标题是否相同;以及在判断出所述网络链接的标题与所述第二网页的标题相同的情况下,确定所述第二网页是所述网络链接的正确链接网页。2.根据权利要求1所述的方法,其特征在于,在判断所述网络链接的标题与所述第二网页的标题是否相同之后,所述方法还包括:在判断出所述网络链接的标题与所述第二网页的标题不相同的情况下,计算所述网络链接的标题与所述第二网页的标题的相似度;判断所述相似度是否在第一预设范围之内;以及如果判断出所述相似度在所述第一预设范围之内,确定所述第二网页是所述网络链接的正确链接网页。3.根据权利要求2所述的方法,其特征在于,在判断所述相似度是否在第一预设范围之内之后,所述方法还包括:如果判断出所述相似度不在所述第一预设范围之内,将所述网络链接的标题进行分词,得到第一分词结果;将所述第二网页的标题和内容进行分词,得到第二分词结果;计算所述第一分词结果和所述第二分词结果的匹配度;如果所述第一分词结果和所述第二分词结果的所述匹配度在第二预设范围之内,确定所述第二网页是所述网络链接的正确链接网页;以及如果所述第一分词结果和所述第二分词结果的所述匹配度不在第二预设范围之内,确定所述第二网页是所述网络链接的错误链接网页。4.根据权利要求1所述的方法,其特征在于,在提取所述网络链接链接到的第二网页的标题之前,所述方法还包括:在所述待检测网站上部署网络爬虫;提取所述网络爬虫在所述第一网页上爬取到的所述网络链接的地址;以及确定爬取到的地址所表示的网页为所述第二网页。5.根据权利要求4所述的方法,其特征在于,在所述待检测网站部署网络爬虫之后,所述方法还包括:设置所述网络爬虫在所述待检测网站上的爬取层级;以及控制所述网络爬虫按照所述爬取层级进行爬取。6.一种网页链接的检测装置,其特征在于,包括:第一提取单元,用于提取第一网页上的网络链接的标题,其中,所述第一网页是待检测网站的任意一个具有链接的网页;第二提取单元,用于提取所述网...

【专利技术属性】
技术研发人员:孙德彬
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1