【技术实现步骤摘要】
一种基于python语言的自动爬取网页数据的方法
[0001]本专利技术涉及数据爬取领域,特别涉及一种基于
python
语言的自动爬取网页数据的方法
。
技术介绍
[0002]互联网信息技术的高速发展促使人类社会的数据种类和规模以前所未有的速度增长,海量的数据背后隐藏着巨大价值
。
随着政务系统数据的逐步公开,我国水雨情信息网站上公布的大江大河实时水情
(
包括日尺度的全国河流水位及流量数据
)、
大型水库实时水情
(
包括日尺度的全国水库水位
、
蓄水量和入库流量数据
)、
重要站点实时雨情
(
包括日尺度全国重要站点的降雨量
)、
珠江水利委员会公布的实时水情和实时咸情
(
包括珠江流域重要站点的日尺度水位
、
流量
、
入库
/
出库流量
、
库容和盐度等
)、
国家地表水水质自动监测实时数据发布系统公布的水质数据
(
包括小时和月尺度的九项水质监测指标浓度
)
等不断实时更新,这些数据对于高校研究所的科研人员来说无疑是宝贵的资源
。
然而这些数据零散地分布在各个网站中,网站上的信息数量庞大且复杂,网站均不具备历史数据的储存功能,如何从多样化数据中准确收集到有效信息,并进一步在海量数据中挖掘蕴藏的重要价值,是当前首要解 ...
【技术保护点】
【技术特征摘要】
1.
一种基于
python
语言的自动爬取网页数据的方法,其特征在于,包括如下步骤:
S1
搭建
python
语言环境;
S2
选取目标网址,根据数据结果,确定目标网站的数据库储存格式,并获取目标网站的
headers
和
response
;
S3
确定目标网站的存储指定数据库,构建爬取目标网站的模型;
S4
在运行环境处于正常联网状态,运行该模型,进行数据爬取;
S5
根据数据响应状态,调整目标网站数据;
S6
对成功响应的网页数据进行清洗整理,删除或替代无效值和缺失值;,输出数据结果并保存
。2.
根据权利要求1所述的方法,其特征在于,对于网页数据的无效值进行删除,对于缺失值和异常值,用0或者空值代替
。3.
根据权利要求1所述的方法,其特征在于,所述数据响应状态包括如下:
200OK
:表示请求成功,并且服务器已经成功返回请求的数据;
301Moved Permanently
:表示请求的网页已永久移动到新位置,会伴随一个新的
URL
返回,爬虫根据这个
URL
进行重定向;
302Found
:表示请求的网页已暂时移动到新位置,未来请求的
URL
可能会发生变化;
403Forbidden
:表示服务器理解请求,但是拒绝执行;
404Not Found
:表示请求的网页不存在或无法找到;
500Internal Server Error
:表示服务器遇到了意外错误,无法完成请求;
503Service Unavailable
:表示服务器当前无法处理请求
。4.
根据权利要求1所述的方法,其特征在于,还包括,根据不同的响应码和响应状态,调整爬取方式,具体为:处理成功响应:如果响应状态码为
200
,表示请求成功,处理获取到的数据;处理重定向:如果响应状态码为
301
或
302
,表示请求的网页已经被永久或暂时重定向到新的位置,通过解析响应中的
Loca...
【专利技术属性】
技术研发人员:王兆礼,蒋杰,赖成光,
申请(专利权)人:人工智能与数字经济广东省实验室广州,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。