The invention discloses a method and a device for detecting the link of a webpage. Among them, the method includes: extracting the first page link title, the first page is a link with any web page to be detected; the extraction of network link to the title of the second \; to determine the network link to the title and second page title is the same; and a network link Title The title and second web pages in the same situation in judgment, to determine the second page is correct\ link network links. This application solves the technical problem of not being able to efficiently check the correctness of web links.
【技术实现步骤摘要】
网页链接的检测方法和装置
本申请涉及网络领域,具体而言,涉及一种网页链接的检测方法和装置。
技术介绍
随着互联网的发展,出现了很多网站,网站的网页错链数量是影响用户体验的一个重要因素。网页错链的意思是由于编辑或者程序等问题造成链接错误,造成链接的文字与链接到的内容页不符,比如,链接的文字是“刘备入川为什么不用诸葛亮随行”,点击链接文字后,得到的网页的内容是关于某某明星出行有若干助理随行的,这样网站的用户体验是非常差的。目前,大多使用人工来检测网页链接的正确性,不仅繁琐效率低,且易出错。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种网页链接的检测方法和装置,以至少解决无法高效检测网页链接的正确性的技术问题。根据本申请实施例的一个方面,提供了一种网页链接的检测方法,包括:提取第一网页上的网络链接的标题,其中,所述第一网页是待检测网站的任意一个具有链接的网页;提取所述网络链接链接到的第二网页的标题;判断所述网络链接的标题与所述第二网页的标题是否相同;以及在判断出所述网络链接的标题与所述第二网页的标题相同的情况下,确定所述第二网页是所述网络链接的正确链接网页。进一步地,在判断所述网络链接的标题与所述第二网页的标题是否相同之后,所述方法还包括:在判断出所述网络链接的标题与所述第二网页的标题不相同的情况下,计算所述网络链接的标题与所述第二网页的标题的相似度;判断所述相似度是否在第一预设范围之内;以及如果判断出所述相似度在所述第一预设范围之内,确定所述第二网页是所述网络链接的正确链接网页。进一步地,在判断所述相似度是否在第一预设范围之内之 ...
【技术保护点】
一种网页链接的检测方法,其特征在于,包括:提取第一网页上的网络链接的标题,其中,所述第一网页是待检测网站的任意一个具有链接的网页;提取所述网络链接链接到的第二网页的标题;判断所述网络链接的标题与所述第二网页的标题是否相同;以及在判断出所述网络链接的标题与所述第二网页的标题相同的情况下,确定所述第二网页是所述网络链接的正确链接网页。
【技术特征摘要】
1.一种网页链接的检测方法,其特征在于,包括:提取第一网页上的网络链接的标题,其中,所述第一网页是待检测网站的任意一个具有链接的网页;提取所述网络链接链接到的第二网页的标题;判断所述网络链接的标题与所述第二网页的标题是否相同;以及在判断出所述网络链接的标题与所述第二网页的标题相同的情况下,确定所述第二网页是所述网络链接的正确链接网页。2.根据权利要求1所述的方法,其特征在于,在判断所述网络链接的标题与所述第二网页的标题是否相同之后,所述方法还包括:在判断出所述网络链接的标题与所述第二网页的标题不相同的情况下,计算所述网络链接的标题与所述第二网页的标题的相似度;判断所述相似度是否在第一预设范围之内;以及如果判断出所述相似度在所述第一预设范围之内,确定所述第二网页是所述网络链接的正确链接网页。3.根据权利要求2所述的方法,其特征在于,在判断所述相似度是否在第一预设范围之内之后,所述方法还包括:如果判断出所述相似度不在所述第一预设范围之内,将所述网络链接的标题进行分词,得到第一分词结果;将所述第二网页的标题和内容进行分词,得到第二分词结果;计算所述第一分词结果和所述第二分词结果的匹配度;如果所述第一分词结果和所述第二分词结果的所述匹配度在第二预设范围之内,确定所述第二网页是所述网络链接的正确链接网页;以及如果所述第一分词结果和所述第二分词结果的所述匹配度不在第二预设范围之内,确定所述第二网页是所述网络链接的错误链接网页。4.根据权利要求1所述的方法,其特征在于,在提取所述网络链接链接到的第二网页的标题之前,所述方法还包括:在所述待检测网站上部署网络爬虫;提取所述网络爬虫在所述第一网页上爬取到的所述网络链接的地址;以及确定爬取到的地址所表示的网页为所述第二网页。5.根据权利要求4所述的方法,其特征在于,在所述待检测网站部署网络爬虫之后,所述方法还包括:设置所述网络爬虫在所述待检测网站上的爬取层级;以及控制所述网络爬虫按照所述爬取层级进行爬取。6.一种网页链接的检测装置,其特征在于,包括:第一提取单元,用于提取第一网页上的网络链接的标题,其中,所述第一网页是待检测网站的任意一个具有链接的网页;第二提取单元,用于提取所述网...
【专利技术属性】
技术研发人员:孙德彬,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。