信息爬取方法、装置、电子设备和系统制造方法及图纸

技术编号:17783971 阅读:39 留言:0更新日期:2018-04-22 15:15
本发明专利技术提供了一种信息爬取方法、装置、电子设备和系统,属于互联网通信技术领域。本发明专利技术实施例提供的信息爬取方法、装置、电子设备和系统,在微信客户端与微信服务器之间设置电子设备,获取微信服务器提供的网络请求地址,提供给网络爬虫单元,由网络爬虫单元爬取微信公众号中的数据和信息,可以获取微信公众号的所有文章,使爬虫程序可以在短时间内获取大量的微信公众号的内容,在很大程序上提升爬虫程序的性能与效率。

【技术实现步骤摘要】
信息爬取方法、装置、电子设备和系统
本专利技术涉及互联网通信
,具体而言,涉及一种信息爬取方法、装置、电子设备和系统。
技术介绍
目前微信公众号中的文章的查看方式有两种:一种是通过搜狗微信的搜索功能查看公众号文章,一种是通过手机微信APP查看公众号文章。现有的微信公众号爬虫程序大多数是通过搜狗搜索微信公众号的方式爬取,效率低,而且搜狗搜索有严格的反爬虫规则,不能够在短时间内获取大量公众号的文章,即使获取到微信公众号文章也是有数量限制。
技术实现思路
针对上述现有技术中存在的问题,本专利技术提供了一种信息爬取方法、装置、电子设备和系统。第一方面,本专利技术实施例提供了一种信息爬取方法,应用于设置在微信客户端与微信服务器之间的电子设备上,用于爬取微信公众号中的内容,包括:当接收到微信客户端发出的微信公众号访问请求时,提取所述访问请求携带的链接地址和微信公众号标识;向所述链接地址对应地微信服务器发送链接请求;所述链接请求包含有所述微信公众号标识;接收微信服务器返回的所述微信公众号标识对应的网络请求地址;将所述网络请求地址发送至用于爬取信息的网络爬虫单元,以使所述网络爬虫单元爬取所述微信公众号中的内容。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,向所述链接地址对应地微信服务器发送链接请求的步骤,包括:开启微信程序,通过所述微信程序向所述链接地址对应地微信服务器发送链接请求。结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,所述方法还包括:当接收到微信客户端发出的微信公众号访问请求时,提取所述访问请求携带的用户信息;根据所述用户信息登录微信程序,通过所述微信程序向所述链接地址对应地微信服务器发送链接请求。结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,接收微信服务器返回的所述微信公众号标识对应的网络请求地址的步骤之后,所述方法还包括:将所述网络请求地址发送至发起微信公众号访问请求的微信客户端。第二方面,本专利技术实施例还提供了一种信息爬取装置,应用于设置在微信客户端与微信服务器之间的电子设备上,用于爬取微信公众号中的内容,包括:链接地址获取单元,用于当接收到微信客户端发出的微信公众号访问请求时,提取所述访问请求携带的链接地址和微信公众号标识;链接请求发送单元,用于向所述链接地址对应地微信服务器发送链接请求;所述链接请求包含有所述微信公众号标识;请求地址发送单元,用于接收微信服务器返回的所述微信公众号标识对应的网络请求地址;将所述网络请求地址发送至用于爬取信息的网络爬虫单元,以使所述网络爬虫单元爬取所述微信公众号中的内容。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中,所述链接请求发送单元,还用于:开启微信程序,通过所述微信程序向所述链接地址对应地微信服务器发送链接请求。结合第二方面,本专利技术实施例提供了第二方面的第二种可能的实施方式,其中,所述请求地址发送单元,还用于:将所述网络请求地址发送至发起微信公众号访问请求的微信客户端。第三方面,本专利技术实施例还提供了一种电子设备,包括处理器和存储器;所述存储器用于存储支持处理器执行上述方法的程序;所述处理器被配置为用于执行所述存储器中存储的程序。第四方面,本专利技术实施例还提供了一种信息爬取系统,包括一个或多个微信客户端、微信服务器和上述的电子设备;所述微信客户端通过所述电子设备连接所述微信服务器。第五方面,本专利技术实施例还提供了一种机器可读存储介质,其特征在于,存储有上述装置所用的计算机软件指令。本专利技术实施例带来了以下有益效果:本专利技术实施例提供的信息爬取方法、装置、电子设备和系统,在微信客户端与微信服务器之间设置电子设备,获取微信服务器提供的网络请求地址,提供给网络爬虫单元,由网络爬虫单元爬取微信公众号中的数据和信息,可以获取微信公众号的所有文章,使爬虫程序可以在短时间内获取大量的微信公众号的内容,在很大程序上提升爬虫程序的性能与效率。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例所提供的信息爬取方法的流程图;图2为本专利技术另一实施例所提供的信息爬取方法的流程图;图3为本专利技术一实施例所提供的信息爬取装置的结构框图;图4为本专利技术一实施例所提供的信息爬取系统的结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。针对现在爬虫程序爬取微信公众号文章效率低和可爬取的文章数量有限的问题,本专利技术实施例提供了一种信息爬取方法、装置、电子设备和系统,以下首先对本专利技术的信息爬取方法进行详细介绍。实施例一该实施例提供了一种信息爬取方法,应用于设置在微信客户端与微信服务器之间的电子设备上,用于爬取微信公众号中的内容。图1示出了本实施例所提供的信息爬取方法的流程图。如图1所示,该方法包括如下步骤:步骤S101,当接收到微信客户端发出的微信公众号访问请求时,提取访问请求携带的链接地址和微信公众号标识。在本实施例中,微信客户端需要上述电子设备作为中间设备,与微信服务器进行连接。该电子设备也可以称为代理服务器。当微信客户端关注某微信公众号或查看某微信公众号中的某篇文章时,需要发送微信公众号访问请求,该访问请求被电子设备接收到后,电子设备会转发该访问请求。步骤S102,向链接地址对应地微信服务器发送链接请求;链接请求包含有微信公众号标识。向微信服务器发送链接请求时,可以通过第三方程序或微信程序进行发送。例如,开启微信程序,通过微信程序向链接地址对应地微信服务器发送链接请求。可选地,当接收到微信客户端发出的微信公众号访问请求时,提取访问请求携带的用户信息;根据用户信息登录微信程序,通过微信程序向链接地址对应地微信服务器发送链接请求。通过此操作,微信服务器可以从接收到的链接请求中确定该请求来自哪一个微信客户端。步骤S103,接收微信服务器返回的微信公众号标识对应的网络请求地址。微信服务器接收到链接请求后,会根据微信公众号标识查找该微信公众号或该微信公众号文章的网络请求地址,将该网络请求地址回复至电子设备。步骤S104,将网络请求地址发送至用于爬取信息的网络爬虫单元本文档来自技高网...
信息爬取方法、装置、电子设备和系统

【技术保护点】
一种信息爬取方法,其特征在于,应用于设置在微信客户端与微信服务器之间的电子设备上,用于爬取微信公众号中的内容,包括:当接收到微信客户端发出的微信公众号访问请求时,提取所述访问请求携带的链接地址和微信公众号标识;向所述链接地址对应地微信服务器发送链接请求;所述链接请求包含有所述微信公众号标识;接收微信服务器返回的所述微信公众号标识对应的网络请求地址;将所述网络请求地址发送至用于爬取信息的网络爬虫单元,以使所述网络爬虫单元爬取所述微信公众号中的内容。

【技术特征摘要】
1.一种信息爬取方法,其特征在于,应用于设置在微信客户端与微信服务器之间的电子设备上,用于爬取微信公众号中的内容,包括:当接收到微信客户端发出的微信公众号访问请求时,提取所述访问请求携带的链接地址和微信公众号标识;向所述链接地址对应地微信服务器发送链接请求;所述链接请求包含有所述微信公众号标识;接收微信服务器返回的所述微信公众号标识对应的网络请求地址;将所述网络请求地址发送至用于爬取信息的网络爬虫单元,以使所述网络爬虫单元爬取所述微信公众号中的内容。2.根据权利要求1所述的方法,其特征在于,向所述链接地址对应地微信服务器发送链接请求的步骤,包括:开启微信程序,通过所述微信程序向所述链接地址对应地微信服务器发送链接请求。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:当接收到微信客户端发出的微信公众号访问请求时,提取所述访问请求携带的用户信息;根据所述用户信息登录微信程序,通过所述微信程序向所述链接地址对应地微信服务器发送链接请求。4.根据权利要求1所述的方法,其特征在于,接收微信服务器返回的所述微信公众号标识对应的网络请求地址的步骤之后,所述方法还包括:将所述网络请求地址发送至发起微信公众号访问请求的微信客户端。5.一种信息爬取装置,其特征在于,应用于设置在微信客户端与微信服务器之间的电子设备上,...

【专利技术属性】
技术研发人员:沈文策
申请(专利权)人:福建中金在线信息科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1