分布式爬取内容的方法、装置及存储介质制造方法及图纸

技术编号:24410210 阅读:27 留言:0更新日期:2020-06-06 08:51
本公开是关于一种分布式爬取内容方法、分布式爬取内容装置及存储介质。分布式爬取内容方法包括:检测针对爬虫页面的输入信息,输入信息包括待爬取内容标识;响应于检测到输入信息,爬取待爬取内容标识对应的爬取内容信息;在爬虫页面显示爬取内容信息。通过本公开,可以简单、易操作地爬取互联网公开数据。

Method, device and storage medium of distributed crawling content

【技术实现步骤摘要】
分布式爬取内容的方法、装置及存储介质
本公开涉及互联网
,尤其涉及分布式爬取内容的方法、装置及存储介质。
技术介绍
随着网络技术的发展,在互联网上每天都会产生海量公开数据,这些公开数据对各行各业都具有一定的参考价值和使用价值。为了快速地获取大量互联网公开数据,催生了获取互联网公开数据的爬虫技术。目前,由于爬虫技术的门槛比较高,在利用爬虫技术获取互联网公开数据时,需要大量具有技术功底以及技术积累的专业人员通过编写和利用爬虫程序,在指定网站中搜索相关页面才能实现,爬虫技术不易操作。有鉴于此,如何实现对互联网公开数据进行简单、易操作的爬虫,是目前急需解决的问题。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种分布式爬取内容的方法、装置及存储介质。根据本公开实施例的第一方面,提供一种分布式爬取内容的方法,分布式爬取内容的方法包括:检测针对爬虫页面的输入信息,输入信息包括待爬取内容标识;响应于检测到输入信息,爬取待爬取内容标识对应的爬取内容信息;在爬虫页面显示爬取内容信息。在一示例中,待爬取内容标识包括:待爬取目标网站信息;或者,待爬取内容标识包括:待爬取目标网站信息、待爬取主题以及待爬取主题中需要统计的信息。在一示例中,响应于检测到所述输入信息,爬取待爬取内容标识对应的爬取内容信息,包括:根据待爬取内容标识,从互联网协议IP池中分配与待爬取内容标识对应的IP地址;通过IP地址,递归爬取目标网站信息;或者递归爬取目标网站信息、待爬取主题和与待爬取主题关联的统计信息。在一示例中,在爬虫页面显示爬取内容信息,包括:在爬虫页面显示爬取到的爬取主题以及与爬取主题关联的统计信息,以及在爬虫页面显示爬取到的爬取主题的访问链接,和爬取到统计信息的访问子链接。在一示例中,分布式爬取内容的方法还包括:在接收到从目标网站返回的状态码时,确定IP地址为无效IP地址,状态码表征爬取待爬取主题和与待爬取主题关联的统计信息失败。根据本公开实施例的第二方面,提供一种分布式爬取内容的装置,分布式爬取内容的装置,包括:检测单元,被配置为检测针对爬虫页面的输入信息,输入信息包括待爬取内容标识;爬取单元,被配置为响应于检测到输入信息,爬取待爬取内容标识对应的爬取内容信息;显示单元,被配置为在爬虫页面显示爬取内容信息。在一示例中,待爬取内容标识包括:待爬取目标网站信息;或者,待爬取内容标识包括:待爬取目标网站信息、待爬取主题以及待爬取主题中需要统计的信息。在一示例中,爬取单元响应于检测到输入信息,采用如下方式爬取待爬取内容标识对应的爬取内容信息:根据待爬取内容标识,从互联网协议IP池中分配与待爬取内容标识对应的IP地址;通过IP地址,递归爬取目标网站信息;或者递归爬取目标网站信息、待爬取主题和与待爬取主题关联的统计信息。在一示例中,显示单元采用如下方式在爬虫页面显示爬取内容信息:在爬虫页面显示爬取到的爬取主题以及与爬取主题关联的统计信息,以及在爬虫页面显示爬取到的爬取主题的访问链接,和爬取到统计信息的访问子链接。在一示例中,检测单元还被配置为:在接收到从目标网址返回的状态码时,确定IP地址为无效IP地址,状态码表征爬取待爬取主题和与待爬取主题关联的统计信息失败。根据本公开的第三方面,提供了一种非临时性计算机可读存储介质,非临时性计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行前述第一方面或者第一方面中任意一示例中的分布式爬取内容的方法。根据本公开的第四方面,提供了一种分布式爬取内容的装置,分布式爬虫装置包括:存储器,配置用于存储指令。以及处理器,配置用于调用指令执行前述第一方面或者第一方面中任意一示例中的分布式爬取内容的方法。本公开的实施例提供的技术方案可以包括以下有益效果:通过检测爬虫页面中输入的包括待爬取内容标识的信息,响应于检测到输入信息,爬取与待爬取内容标识对应的爬取内容信息,并在爬虫页面显示爬取内容信息,使得爬取内容时,不需要根据爬取的内容,编写对应的爬虫程序,爬取内容更加简单,易操作。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1是根据一示例性实施例示出的一种分布式爬取内容的方法的流程图。图2是根据一示例性实施例示出的一种分布式爬取内容的方法的流程图。图3是根据一示例性实施例示出的一种分布式爬取内容的方法的流程图。图4是根据一示例性实施例示出的一种分布式爬取内容的过程示意图。图5是根据一示例性实施例示出的一种分布式爬取内容的装置的框图。图6是根据一示例性实施例示出的一种装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。本公开的示例性实施例的技术方案可以应用于对目标网站进行分布式爬虫的应用场景。在该场景中,分布式爬取内容的方法的执行主体可以是分布式爬虫装置,该分布式爬虫装置可以是计算机,移动终端等终端,本公开实施例不做限定。图1是根据一示例性实施例示出的一种分布式爬取内容的方法的流程图,如图1所示,分布式爬取内容的方法包括以下步骤。在步骤S11中,检测针对爬虫页面的输入信息,输入信息包括待爬取内容标识。本公开中,爬虫页面为用户输入的待爬取内容标识的页面。在爬取页面中,用户可以根据爬取页面中预设的爬取选项选择待爬取内容标识,用户也可以通过自定义的方式将待爬取内容标识输入到爬取页面。其中,待爬取内容标识可以包括:待爬取目标网站信息。或者是待爬取目标网站信息、待爬取主题以及待爬取主题中需要统计的信息。例如,待爬取目标网站信息可以是待爬取目标网站的链接。待爬取主题以及待爬取主题中需要统计的信息例如可以是一个新闻的主题,以及该新闻中需要统计的转发量和阅读量。在步骤S12中,响应于检测到输入信息,爬取待爬取内容标识对应的爬取内容信息。一种实施方式中,可根据检测到用户输入的待爬取的目标网站信息后的点击确认操作,确定检测到输入信息。或者根据检测到用户输入的待爬取的目标网站信息、待爬取主题以及与待爬取主题关联的统计信息后的点击确认操作,确定检测到输入信息。另外,为了使爬虫页面更加通用,方便多个业务类型通过爬虫页面均可以爬取到适合该业务领域的爬取内容,在爬虫页面中,还可以预先设置业务类型的选项。基于用户选择或者输入的业务类型,在爬虫页面可针对性的爬取与业务类型对应的目标网站。并且,针对不同业务类型爬取内容信息时,可根据不同业本文档来自技高网...

【技术保护点】
1.一种分布式爬取内容的方法,其特征在于,所述方法包括:/n检测针对爬虫页面的输入信息,所述输入信息包括待爬取内容标识;/n响应于检测到所述输入信息,爬取待爬取内容标识对应的爬取内容信息;/n在所述爬虫页面显示所述爬取内容信息。/n

【技术特征摘要】
1.一种分布式爬取内容的方法,其特征在于,所述方法包括:
检测针对爬虫页面的输入信息,所述输入信息包括待爬取内容标识;
响应于检测到所述输入信息,爬取待爬取内容标识对应的爬取内容信息;
在所述爬虫页面显示所述爬取内容信息。


2.根据权利要求1所述的方法,其特征在于,
所述待爬取内容标识包括:待爬取目标网站信息;或者,
所述待爬取内容标识包括:待爬取目标网站信息、待爬取主题和所述待爬取主题中需要统计的信息。


3.根据权利要求2所述的方法,其特征在于,所述响应于检测到所述输入信息,爬取待爬取内容标识对应的爬取内容信息,包括:
根据所述待爬取内容标识,从互联网协议IP池中分配与所述待爬取内容标识对应的IP地址;
通过所述IP地址,递归爬取所述目标网站信息;或者
递归爬取所述目标网站信息、所述待爬取主题和与所述待爬取主题关联的统计信息。


4.根据权利要求3所述的方法,其特征在于,所述在所述爬虫页面显示所述爬取内容信息,包括:
在所述爬虫页面显示爬取到的爬取主题以及与所述爬取主题关联的统计信息,以及
在所述爬虫页面显示爬取到的所述爬取主题的访问链接,和爬取到所述统计信息的访问子链接。


5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在接收到状态码时,确定所述IP地址为无效IP地址,所述状态码表征爬取所述待爬取主题和与所述待爬取主题关联的统计信息失败。


6.一种分布式爬取内容的装置,其特征在于,所述装置包括:
检测单元,被配置为检测针对爬虫页面的输入信息,所述输入信息包括待爬取内容标识;
爬取单元,被配置为响应于检测到所述输入信息,爬取待爬取内容标识对应的爬取内容信息;
显示单元,被配置为在所述爬虫页面显示所述...

【专利技术属性】
技术研发人员:黄勇周彦辉
申请(专利权)人:北京松果电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1