The present disclosure relates to an information acquisition method and device. Including: acquiring acquisition parameters about the target website; updating the acquisition parameters according to the preset rules, which are generated according to the anti crawler rules of multiple websites; sending the updated acquisition parameters to multiple acquisition terminals respectively, and receiving the web page content analyzed by the acquisition terminal to obtain the target web page content. By acquiring the anti crawler strategies of different websites, the disclosure formulates corresponding rules in advance, and updates the collection parameters of the target website according to the preset rules. The beneficial effect of the disclosure is simple operation, the client does not need to conduct a large number of parameter configurations, can continuously visit the target website, is not affected by the anti crawler technology, and has high collection efficiency.
【技术实现步骤摘要】
一种信息采集方法和装置
本公开涉及网络信息采集
,尤其涉及一种信息采集方法和装置。
技术介绍
随着网络技术的高速发展,互联网信息也在快速增长,形成海量的数据资源。为了从海量的数据资源中采集有价值的数据,爬虫技术应运而生。相关爬虫技术中,信息采集的速率较慢,当需要采集的数据量达到一定规模时,信息采集效率低下;且客户端操作复杂,在编写采集程序时,为了应对各种各样的反爬虫策略,需要输入大量的关联参数,应用起来十分不便。
技术实现思路
为克服相关技术中存在的问题,提高信息采集速率及便利性,本公开提供一种文本自动生成方法和装置。根据本公开实施例的第一方面,提供一种信息采集方法,包括:获取关于目标网站的采集参数;根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成;将更新后的采集参数分别发送至多个采集终端,并接收由所述采集终端解析的网页内容,得到目标网页内容。在一种可能的实现方式中,所述采集参数包括下述中的至少一种:网页请求的用户代理参数、网页请求的访问来源参数、网页请求的权限参数和IP地址参数。在一种可能的实现方式中,所述根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成,包括:添加与所述目标网站相关的网页请求的访问来源参数和/或网页请求的权限参数到所述采集参数中。在一种可能的实现方式中,所述根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成,包括:根据预设的时间间 ...
【技术保护点】
1.一种信息采集方法,其特征在于,包括:/n获取关于目标网站的采集参数;/n根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成;/n将更新后的采集参数分别发送至多个采集终端,并接收由所述采集终端解析的网页内容,得到目标网页内容。/n
【技术特征摘要】
1.一种信息采集方法,其特征在于,包括:
获取关于目标网站的采集参数;
根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成;
将更新后的采集参数分别发送至多个采集终端,并接收由所述采集终端解析的网页内容,得到目标网页内容。
2.根据权利要求1所述的方法,其特征在于,所述采集参数包括下述中的至少一种:
网页请求的用户代理参数、网页请求的访问来源参数、网页请求的权限参数和IP地址参数。
3.根据权利要求2所述的方法,其特征在于,所述根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成,包括:
添加与所述目标网站相关的网页请求的访问来源参数和/或网页请求的权限参数到所述采集参数中。
4.根据权利要求2所述的方法,其特征在于,所述根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成,包括:
根据预设的时间间隔或预设访问次数,定时更新所述网页请求的用户代理参数和/或IP地址参数。
5.根据权利要求1所述的方法,其特征在于,所述根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成,包括:
从预设的采集参数数据库中获取采集参数对应的备选参数;
根据预设规则,将所述采集参数替换为备选参数,作为更新后的采集参数,所述预设规则根据多个网站的反爬虫规则生成。
6.根据权利要求1所述的方法,其特征在于,所述将更新后的采集参数分别发送至多个采集终端,并接收由所述采集终端解析的网页内容,得到目标网页内容,包括:
将更新后的采集参数分别发送至多个采集终端;
接收由所述采集终端解析的网页内容,并从所述网页内容中提取网页数据以及子网址信息;
在预设采集阈值范围内,将所述子网址信息发送至采集终端,接收由所述采集终端解析的网页内容,从所述网页内容中提取网页数据以及新的子网址信息;
存储所述网页数据,得到目标网页内容。
7.一种信息采集装置,其特征在于,包括:
获取模块,用于获取关于目标网站的采集参数;
更新模块,用于根据预设规则更新所述采集参数,所述预设规则根据多个网站的反爬虫规则生成;
调度模块,将更新后的采集参数分别发送至多个采集终端,并接收由...
【专利技术属性】
技术研发人员:袁学文,
申请(专利权)人:苏州闻道网络科技股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。