一种信息采集方法和装置制造方法及图纸

技术编号:22641946 阅读:47 留言:0更新日期:2019-11-26 16:13
本公开涉及一种信息采集方法和装置。包括:获取关于目标网站的采集参数;根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成;将更新后的采集参数分别发送至多个采集终端,并接收由所述采集终端解析的网页内容,得到目标网页内容。本公开通过获取不同网站的反爬虫策略,预先制定相应的规则,并且根据预设规则,更新关于目标网站的采集参数,本公开实现的有益效果是操作简易,用户端不需要进行大量的参数配置,可以持续的访问目标网站,不受反爬虫技术的影响,采集效率高。

A method and device of information acquisition

The present disclosure relates to an information acquisition method and device. Including: acquiring acquisition parameters about the target website; updating the acquisition parameters according to the preset rules, which are generated according to the anti crawler rules of multiple websites; sending the updated acquisition parameters to multiple acquisition terminals respectively, and receiving the web page content analyzed by the acquisition terminal to obtain the target web page content. By acquiring the anti crawler strategies of different websites, the disclosure formulates corresponding rules in advance, and updates the collection parameters of the target website according to the preset rules. The beneficial effect of the disclosure is simple operation, the client does not need to conduct a large number of parameter configurations, can continuously visit the target website, is not affected by the anti crawler technology, and has high collection efficiency.

【技术实现步骤摘要】
一种信息采集方法和装置
本公开涉及网络信息采集
,尤其涉及一种信息采集方法和装置。
技术介绍
随着网络技术的高速发展,互联网信息也在快速增长,形成海量的数据资源。为了从海量的数据资源中采集有价值的数据,爬虫技术应运而生。相关爬虫技术中,信息采集的速率较慢,当需要采集的数据量达到一定规模时,信息采集效率低下;且客户端操作复杂,在编写采集程序时,为了应对各种各样的反爬虫策略,需要输入大量的关联参数,应用起来十分不便。
技术实现思路
为克服相关技术中存在的问题,提高信息采集速率及便利性,本公开提供一种文本自动生成方法和装置。根据本公开实施例的第一方面,提供一种信息采集方法,包括:获取关于目标网站的采集参数;根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成;将更新后的采集参数分别发送至多个采集终端,并接收由所述采集终端解析的网页内容,得到目标网页内容。在一种可能的实现方式中,所述采集参数包括下述中的至少一种:网页请求的用户代理参数、网页请求的访问来源参数、网页请求的权限参数和IP地址参数。在一种可能的实现方式中,所述根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成,包括:添加与所述目标网站相关的网页请求的访问来源参数和/或网页请求的权限参数到所述采集参数中。在一种可能的实现方式中,所述根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成,包括:根据预设的时间间隔或预设访问次数,定时更新所述网页请求的用户代理参数和/或IP地址参数。在一种可能的实现方式中,所述根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成,包括:从预设的采集参数数据库中获取采集参数对应的备选参数;根据预设规则,将所述采集参数替换为备选参数,作为更新后的采集参数,所述预设规则根据多个网站的反爬虫规则生成。在一种可能的实现方式中,所述将更新后的采集参数分别发送至多个采集终端,并接收由所述采集终端解析的网页内容,得到目标网页内容,包括:将更新后的采集参数分别发送至多个采集终端;接收由所述采集终端解析的网页内容,并从所述网页内容中提取网页数据以及子网址信息;在预设采集阈值范围内,将所述子网址信息发送至采集终端,接收由所述采集终端解析的网页内容,从所述网页内容中提取网页数据以及新的子网址信息;存储所述网页数据,得到目标网页内容。根据本公开实施例的第二方面,提供一种信息采集装置,包括:一种信息采集装置,其特征在于,包括:获取模块,用于获取关于目标网站的采集参数;更新模块,用于根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成;调度模块,将更新后的采集参数分别发送至多个采集终端,并接收由所述采集终端解析的网页内容,得到目标网页内容。在一种可能的实现方式中,所述采集参数包括下述中的至少一种:网页请求的用户代理参数、网页请求的访问来源参数、网页请求的权限参数和IP地址参数。在一种可能的实现方式中,所述更新模块包括:添加子模块,用于添加与所述目标网站相关的网页请求的访问来源参数和/或网页请求的权限参数到所述采集参数中。在一种可能的实现方式中,所述更新模块包括:更新子模块,用于根据预设的时间间隔或预设访问次数,定时更新所述网页请求的用户代理参数和/或IP地址参数。在一种可能的实现方式中,所述更新模块包括:获取子模块,用于从预设的采集参数数据库中获取采集参数对应的备选参数;替换子模块,用于根据预设规则,将所述采集参数替换为备选参数,作为更新后的采集参数,所述预设规则根据多个网站的反爬虫规则生成。在一种可能的实现方式中,所述调度模块包括:发送子模块,用于将更新后的采集参数分别发送至多个采集终端;接收子模块,用于接收由所述采集终端解析的网页内容,并从所述网页内容中提取网页数据以及子网址信息;提取子模块,用于在预设采集阈值范围内,将所述子网址信息发送至采集终端,接收由所述采集终端解析的网页内容,从所述网页内容中提取网页数据以及新的子网址信息;存储子模块,用于存储所述网页数据,得到目标网页内容。根据本公开实施例的第三方面,提供了一种信息采集系统,包括:用户终端,获取关于目标网站的采集参数;根据本公开任一实施例所述的信息采集装置;采集终端,用于接收并解析由所述信息采集装置发送的更新后的采集参数,将解析后的网页内容发送至所述信息采集装置。根据本公开实施例的第四方面,提供了一种信息采集装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行本公开任一实施例所述的方法。根据本公开实施例的第五方面,提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行根据本公开任一实施例所述的方法。本公开的实施例提供的技术方案可以包括以下有益效果:本公开通过获取不同网站的反爬虫策略,预先制定相应的规则,并且根据预设规则,更新关于目标网站的采集参数,本公开实现的有益效果是操作简易,用户端不需要进行大量的参数配置,可以持续的访问目标网站,不受反爬虫技术的影响,爬取效率高。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1是根据一示例性实施例示出的一种信息采集方法的应用场景图。图2是根据一示例性实施例示出的一种信息采集方法流程图。图3是根据一示例性实施例示出的一种信息采集装置的框图。图4是根据一示例性实施例示出的一种信息采集装置的框图。图5是根据一示例性实施例示出的一种信息采集装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。为了方便本领域技术人员理解本公开实施例提供的技术方案,下面先对技术方案实现的技术环境进行说明。信息时代,互联网产生了大量的数据资源,其中包含了很多有价值的东西,为了获取这些有价值的数据,具有采集功能的爬虫技术便产生了,有些爬虫技术操作起来较为简单,但只能实现一些简单的采集任务,当采集量较大时,信息采集效率较低,甚至难以完成。随着互联网技术的发展,一些网站采取了反爬虫技术措施,比如检测到某个用户端访问次数较大时,则将所述用户端封号,以限制其继续访问本文档来自技高网...

【技术保护点】
1.一种信息采集方法,其特征在于,包括:/n获取关于目标网站的采集参数;/n根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成;/n将更新后的采集参数分别发送至多个采集终端,并接收由所述采集终端解析的网页内容,得到目标网页内容。/n

【技术特征摘要】
1.一种信息采集方法,其特征在于,包括:
获取关于目标网站的采集参数;
根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成;
将更新后的采集参数分别发送至多个采集终端,并接收由所述采集终端解析的网页内容,得到目标网页内容。


2.根据权利要求1所述的方法,其特征在于,所述采集参数包括下述中的至少一种:
网页请求的用户代理参数、网页请求的访问来源参数、网页请求的权限参数和IP地址参数。


3.根据权利要求2所述的方法,其特征在于,所述根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成,包括:
添加与所述目标网站相关的网页请求的访问来源参数和/或网页请求的权限参数到所述采集参数中。


4.根据权利要求2所述的方法,其特征在于,所述根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成,包括:
根据预设的时间间隔或预设访问次数,定时更新所述网页请求的用户代理参数和/或IP地址参数。


5.根据权利要求1所述的方法,其特征在于,所述根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成,包括:
从预设的采集参数数据库中获取采集参数对应的备选参数;
根据预设规则,将所述采集参数替换为备选参数,作为更新后的采集参数,所述预设规则根据多个网站的反爬虫规则生成。


6.根据权利要求1所述的方法,其特征在于,所述将更新后的采集参数分别发送至多个采集终端,并接收由所述采集终端解析的网页内容,得到目标网页内容,包括:
将更新后的采集参数分别发送至多个采集终端;
接收由所述采集终端解析的网页内容,并从所述网页内容中提取网页数据以及子网址信息;
在预设采集阈值范围内,将所述子网址信息发送至采集终端,接收由所述采集终端解析的网页内容,从所述网页内容中提取网页数据以及新的子网址信息;
存储所述网页数据,得到目标网页内容。


7.一种信息采集装置,其特征在于,包括:
获取模块,用于获取关于目标网站的采集参数;
更新模块,用于根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成;
调度模块,将更新后的采集参数分别发送至多个采集终端,并接收由...

【专利技术属性】
技术研发人员:袁学文
申请(专利权)人:苏州闻道网络科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1