基于Web的生态空间数据爬取方法技术

技术编号：22330235 阅读：48 留言：0更新日期：2019-10-19 12:18

本发明专利技术公开了基于Web的生态空间数据爬取方法，属于互联网领域，其特征在于，该方法包括以下步骤：(1)二氧化硫数据爬取：根据二氧化硫浓度数据特征，选取爬取方案，进行数据爬取，筛选出二氧化硫浓度超标的城市；(2)室内二氧化硫检测：使用二氧化硫检测仪检测二氧化硫浓度超标城市室内二氧化硫浓度；(3)数据比对：根据室内二氧化硫检测浓度与爬取数据进行比对；(4)二氧化硫脱硫处理：若室内二氧化硫浓度呈逐步上升的趋势且接近爬取二氧化硫浓度，则开启二氧化硫脱硫处理；通过本发明专利技术，利用数据爬取技术筛选出二氧化硫浓度超标城市，针对性的进行室内二氧化硫浓度检测，进而给出对应的室内二氧化硫治理方案。

Web based crawling method of ecological spatial data

全部详细技术资料下载

【技术实现步骤摘要】
基于Web的生态空间数据爬取方法
本专利技术属于互联网领域，具体涉及基于Web的生态空间数据爬取方法。
技术介绍
Web空间数据获取主要采用网络爬虫技术，网络爬虫又称网络蜘蛛，网络机器人，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本，传统网络爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定条件停止。目前，空气质量检测数据具有更新速度快，数据量大的特点，传统基于网络爬虫的web空间数据获取研究大多都是基于单机网络爬虫的形式；然而，web空间数据广泛分布于不同的网络站点中且更新频率较快，依赖单机网络爬虫抓取数据在抓取覆盖率和抓取效率上准以满足需求，难以保证抓取数据的及时性和全面性；同时单机网络爬虫为了提高数据抓取效率，通常采用多线程异步方式进行实现，其实现难度大、不易维护、容易发死锁现象。基于web空间数据爬取方法收集到的空气质量数据中二氧化硫含量是大气污染的主要污染物之一，也是酸雨形成的原因之一，若空气中二氧化硫浓度超标，对人体危害较大，容易出现眼、鼻粘膜刺激症状，甚至发生猴头与支气管痉挛，轻则昏迷，重则死亡；若环境中二氧化硫浓度超标，植物也会出现“中毒”症状，叶片逐渐褪色、叶片萎蔫、叶脉变白，从而造成死亡；空气中二氧化硫溶于水后，不仅会使土壤和水体酸化，给人类和植物造成极大的危害，同时二氧化硫与酸雨出现后，为社会经济发展造成了严重阻碍。我国二氧化硫污染严重，主要原因是我国的产业结构主要以煤炭产业为主，煤炭燃烧造成了大量二氧化硫以及其他污染物的排放，同时对...

【技术保护点】
1.基于Web的生态空间数据爬取方法，其特征在于，包括以下步骤：(1)二氧化硫数据爬取：根据二氧化硫浓度数据特征，选取爬取方案，进行数据爬取，筛选出二氧化硫浓度超标的城市；(2)室内二氧化硫检测：使用二氧化硫检测仪检测二氧化硫浓度超标城市室内二氧化硫浓度；(3)数据比对：根据室内二氧化硫检测浓度与爬取数据进行比对；(4)二氧化硫脱硫处理：若室内二氧化硫浓度呈逐步上升的趋势且接近爬取二氧化硫浓度，则开启二氧化硫脱硫处理。

【技术特征摘要】
1.基于Web的生态空间数据爬取方法，其特征在于，包括以下步骤：(1)二氧化硫数据爬取：根据二氧化硫浓度数据特征，选取爬取方案，进行数据爬取，筛选出二氧化硫浓度超标的城市；(2)室内二氧化硫检测：使用二氧化硫检测仪检测二氧化硫浓度超标城市室内二氧化硫浓度；(3)数据比对：根据室内二氧化硫检测浓度与爬取数据进行比对；(4)二氧化硫脱硫处理：若室内二氧化硫浓度呈逐步上升的趋势且接近爬取二氧化硫浓度，则开启二氧化硫脱硫处理。2.根据权利要求1所述的基于Web的生态空间数据爬取方法，所述的步骤(1)中二氧化硫数据爬取具体步骤如下：1.1，选择爬取方案：根据二氧化硫浓度数据特征，数据多，更新快，对环境监测网站HTML页面进行分析，查找需要的数据信息URL及标签，根据该标签和URL信息制定页面信息爬取方案为分布式网络爬虫；1.2，爬取数据：从网页中提取出有关的URL加入URL队列，爬取网站上数据；1.3，URL处理：读取URL，URL去重，提取域名和URL存储；1.4，清洗数据：将爬取到的数据进行数据清洗，一致性检查和处理无效值和缺失值；一致性检查是根据每个变量的合理取值范围和相互关系，检查数据之间的关系，发现超出正常范围或者相互矛盾的值；采用估算、直接剔除、全局变量填充、随机插补法处理无效值和缺失值；1.5，存储数据：将爬取到的数据存在数据库中。3.根据权利要求1所述的基于Web的生态空间数据爬取方法，所述的爬取数据具体步骤如下：2.1，爬虫引擎打开一个环境监测网站的主域名，找到处理该网站的解析器，从解析器中获取系统首先要进行抓取的起始URLs；2.2，爬虫引擎将得到的起始URLs发送给调度器，调度器将其依次加入到主节点Redis缓存服务器存储的共享待爬取URL队列中；2.3，爬虫引擎向调度器查询共享待爬取URL队列中的剩余URL；2.4，调度器将查询和获取共享待爬取URL队列中第一个要爬取的URL，然后爬虫引擎把该URL所对应的网络请求通过下载器中间件发送给下载器；2.5，下载器对该URL所对应的Web页面进行下载，然后将下载好的空气中二氧化硫含量数据通过下载器中...

【专利技术属性】
技术研发人员：白云，李川，刘岱，
申请(专利权)人：重庆工商大学融智学院，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人