数据爬取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:19593308 阅读:40 留言:0更新日期:2018-11-28 04:51
本发明专利技术公开了一种数据爬取方法、装置、计算机设备及存储介质,所述方法包括,通过采用网络标识信息访问第一网页,若访问成功,且第一网址为非域名,则对第一网址进行解析,得到第一网址对应的域名,访问域名对应的第一网站的首页,若访问成功,且所述第一网址为域名或访问域名对应的第一网站的首页成功,则遍历各个第二网页,若访问成功,对第二网页内容进行解析,得到需要爬取的数据,若访问第一网址对应的第一网页不成功,或者访问域名对应的第一网站的首页不成功,或者遍历各个第二网页不成功,则采用Tornado分派新的网络标识信息至标识频道,返回执行采用网络标识信息访问对应的第一网页的步骤,从而提高了数据爬取的稳定性。

【技术实现步骤摘要】
数据爬取方法、装置、计算机设备及存储介质
本专利技术涉及金融领域,尤其涉及一种数据爬取方法、装置、计算机设备及存储介质。
技术介绍
目前,在金融行业中,数据信息对于金融公司越来越重要,金融公司通常需要通过网络向目标网站爬取大量有效信息。传统的信息爬取方式为使用一个IP地址频繁对目标网站进行爬取,由于第一网站设置了反爬取模式,预设的时间段内限制一个IP地址对目标网站的访问次数,若是在预设的时间段内对第一网站的访问次数达到了预设的限定值,只能在下一个预设的时间段内再进行爬取,甚至目标网站将IP地址当做为恶意IP而封杀,从而导致爬取信息的稳定性低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种可以提高数据爬取稳定性低的数据爬取方法、装置、计算机设备及存储介质。一种数据爬取方法,包括:采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页,其中,所述标识频道中的网络标识信息预先由标识信息库分派,所述标识信息库包括可成功访问网络资源的多个网络标识信息;若采用所述标识频道中的所述网络标识信息访问所述第一网址对应的第一网页成功,且所述第一网址为非域名,则按照预设的第一解析方式对所述第一本文档来自技高网...

【技术保护点】
1.一种数据爬取方法,其特征在于,所述数据爬取方法包括:采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页,其中,所述标识频道中的网络标识信息预先由标识信息库分派,所述标识信息库包括可成功访问网络资源的多个网络标识信息;若采用所述标识频道中的所述网络标识信息访问所述第一网址对应的第一网页成功,且所述第一网址为非域名,则按照预设的第一解析方式对所述第一网址进行解析,得到所述第一网址对应的域名;采用所述网络标识信息访问所述域名对应的第一网站的首页,其中,所述第一网站包括一个以上第二网页,所述第二网页包括第二网页内容;若采用所述标识频道中的所述网络标识信息访问所述第一网址对应的第一网页成功...

【技术特征摘要】
1.一种数据爬取方法,其特征在于,所述数据爬取方法包括:采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页,其中,所述标识频道中的网络标识信息预先由标识信息库分派,所述标识信息库包括可成功访问网络资源的多个网络标识信息;若采用所述标识频道中的所述网络标识信息访问所述第一网址对应的第一网页成功,且所述第一网址为非域名,则按照预设的第一解析方式对所述第一网址进行解析,得到所述第一网址对应的域名;采用所述网络标识信息访问所述域名对应的第一网站的首页,其中,所述第一网站包括一个以上第二网页,所述第二网页包括第二网页内容;若采用所述标识频道中的所述网络标识信息访问所述第一网址对应的第一网页成功,且所述第一网址为域名,或者采用所述网络标识信息访问所述域名对应的第一网站的首页成功,则遍历所述第一网站的各个第二网页;若遍历所述第一网站的各个第二网页成功,按照预设的第二解析方式对所述第二网页内容进行解析,得到需要爬取的数据;若采用所述网络标识信息访问所述第一网址对应的第一网页不成功,或者采用所述网络标识信息访问所述域名对应的第一网站的首页不成功,或者遍历所述第一网站的各个所述第二网页不成功,则采用Tornado异步机制分派所述标识信息库中的新的网络标识信息至所述标识频道,返回执行所述采用所述标识频道中的网络标识信息访问预设的第一网址对应的第一网页的步骤,所述新的网络标识信息是指未分派过至所述标识频道的网络标识信息。2.如权利要求1所述的数据爬取方法,其特征在于,在所述采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页的步骤之前,所述数据爬取方法还包括:从第二网站对应的网页中获取所述第二网站上的网络标识信息,其中,所述第二网站存在有一个以上网络标识信息;采用所述第二网站上的网络标识信息访问预设的第二网址对应的第三网页;若采用所述第二网站上的网络标识信息访问预设的第二网址对应的第三网页成功,则将所述第二网站上的网络标识信息保存到所述标识信息库中。3.如权利要求1所述的数据爬取方法,其特征在于,所述采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页包括:采用所述网络标识信息向所述预设的第一网址对应的服务器发送HTTP请求;若接收到所述服务器根据所述HTTP请求反馈的HTML文件,则确定采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页成功。4.如权利要求1所述的数据爬取方法,其特征在于,所述遍历所述第一网站的各个第二网页包括:获取所述第一网站中的HTML的各个超链接标签,其中,所述超链接标签包括一个以上链接目标属性;提取各个超链接标签中的所有所述链接目标属性;采用所述网络标识信息遍历各个所述链接目标属性对应的第二网页。5.如权利要求1至4中任一项所述的数据爬取方法,其特征在于,所述按照预设的第二解析方式对所述第二网页内容进行解析,得到需要爬取的数据包括:去除所述第二网页的标签信息,得到XML文档;解析所述XML文档,得到XML文档中的文档对象树,其中...

【专利技术属性】
技术研发人员:蔡俊
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1