【技术实现步骤摘要】
网页数据的抓取方法、装置、存储介质及电子装置
本专利技术涉及计算机领域,具体而言,涉及一种网页数据的抓取方法、装置、存储介质及电子装置。
技术介绍
为了能够更加快速全面地了解行业的发展,有时需要抓取一些网站的内容,当前的抓取方式就是从一个链接开始不断的扩展新链接然后抓取,再扩展新链,周而复始,但这种方式存在很多问题,比如,抓取地比较盲目,可能抓到很多没有用的内容,站点资源可能抓取的不完整,很多链接没有抓取到,抓取的不完整,也不好判断是否抓取的完整。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种网页数据的抓取方法、装置、存储介质及电子装置,以至少解决相关技术中抓取网页数据时抓取的效率较低的技术问题。根据本专利技术实施例的一个方面,提供了一种网页数据的抓取方法,包括:在目标网站上的网页链接中获取与预先配置的网页链接信息集合中的网页链接信息匹配的候选网页链接,其中,所述目标网站上的网页链接包括:所述目标网站的主页对应的网页链接,以及所述主页下的每一级网页对 ...
【技术保护点】
1.一种网页数据的抓取方法,其特征在于,包括:/n在目标网站上的网页链接中获取与预先配置的网页链接信息集合中的网页链接信息匹配的候选网页链接,其中,所述目标网站上的网页链接包括:所述目标网站的主页对应的网页链接,以及所述主页下的每一级网页对应的网页链接;/n在所述候选网页链接所指向的候选网页中查找网页类型为目标类型的目标网页,其中,所述目标类型用于指示预先配置的网页链接信息集合中配置了所述目标网页的抓取规则;/n按照所述抓取规则从所述目标网页中抓取网页数据。/n
【技术特征摘要】
1.一种网页数据的抓取方法,其特征在于,包括:
在目标网站上的网页链接中获取与预先配置的网页链接信息集合中的网页链接信息匹配的候选网页链接,其中,所述目标网站上的网页链接包括:所述目标网站的主页对应的网页链接,以及所述主页下的每一级网页对应的网页链接;
在所述候选网页链接所指向的候选网页中查找网页类型为目标类型的目标网页,其中,所述目标类型用于指示预先配置的网页链接信息集合中配置了所述目标网页的抓取规则;
按照所述抓取规则从所述目标网页中抓取网页数据。
2.根据权利要求1所述的方法,其特征在于,
在目标网站上的网页链接中获取与预先配置的网页链接信息集合中的网页链接信息匹配的候选网页链接包括:从所述目标网站中的待处理网页上抓取网页链接,其中,所述待处理网页为在所述预先配置的网页链接信息集合中未配置所述抓取规则的网页链接信息所指向的网页;在抓取到的所述网页链接中查找与所述预先配置的网页链接信息集合中的网页链接信息匹配的所述候选网页链接;
在所述候选网页链接所指向的候选网页中查找网页类型为目标类型的目标网页包括:对每个所述候选网页执行以下步骤:获取所述候选网页的网页类型;在所述候选网页的网页类型为所述目标类型的情况下,将所述候选网页确认为所述目标网页。
3.根据权利要求2所述的方法,其特征在于,在获取所述候选网页的网页类型之后,所述方法还包括:
在所述候选网页的网页类型不为所述目标类型的情况下,将所述待处理网页更新为所述候选网页,并跳转执行所述从所述目标网站中的所述待处理网页上抓取网页链接的步骤和所述在抓取到的所述网页链接中查找与所述预先配置的网页链接信息集合中的网页链接信息匹配的所述候选网页链接的步骤。
4.根据权利要求1所述的方法,其特征在于,在所述目标网站上的网页链接中获取与所述预先配置的网页链接信息集合中的网页链接信息匹配的候选网页链接包括:
从所述预先配置的网页链接信息集合中获取一个或者多个正则表达式,其中,所述网页链接信息包括所述一个或者多个正则表达式;
将所述目标网站上的网页链接与所述一个或者多个正则表达式进行匹配;
将所述目标网站上的网页链接中与所述一个或者多个正则表达式中至少一个正则表达式匹配成功的网页链接确定为所述候选网页链接。
<...
【专利技术属性】
技术研发人员:汤见乐,
申请(专利权)人:腾讯科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。