基于Web的生态空间数据爬取方法技术

技术编号:22330235 阅读:48 留言:0更新日期:2019-10-19 12:18
本发明专利技术公开了基于Web的生态空间数据爬取方法,属于互联网领域,其特征在于,该方法包括以下步骤:(1)二氧化硫数据爬取:根据二氧化硫浓度数据特征,选取爬取方案,进行数据爬取,筛选出二氧化硫浓度超标的城市;(2)室内二氧化硫检测:使用二氧化硫检测仪检测二氧化硫浓度超标城市室内二氧化硫浓度;(3)数据比对:根据室内二氧化硫检测浓度与爬取数据进行比对;(4)二氧化硫脱硫处理:若室内二氧化硫浓度呈逐步上升的趋势且接近爬取二氧化硫浓度,则开启二氧化硫脱硫处理;通过本发明专利技术,利用数据爬取技术筛选出二氧化硫浓度超标城市,针对性的进行室内二氧化硫浓度检测,进而给出对应的室内二氧化硫治理方案。

Web based crawling method of ecological spatial data

【技术实现步骤摘要】
基于Web的生态空间数据爬取方法
本专利技术属于互联网领域,具体涉及基于Web的生态空间数据爬取方法。
技术介绍
Web空间数据获取主要采用网络爬虫技术,网络爬虫又称网络蜘蛛,网络机器人,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,传统网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定条件停止。目前,空气质量检测数据具有更新速度快,数据量大的特点,传统基于网络爬虫的web空间数据获取研究大多都是基于单机网络爬虫的形式;然而,web空间数据广泛分布于不同的网络站点中且更新频率较快,依赖单机网络爬虫抓取数据在抓取覆盖率和抓取效率上准以满足需求,难以保证抓取数据的及时性和全面性;同时单机网络爬虫为了提高数据抓取效率,通常采用多线程异步方式进行实现,其实现难度大、不易维护、容易发死锁现象。基于web空间数据爬取方法收集到的空气质量数据中二氧化硫含量是大气污染的主要污染物之一,也是酸雨形成的原因之一,若空气中二氧化硫浓度超标,对人体危害较大,容易出现眼、鼻粘膜刺激症状,甚至发生猴头与支气管痉挛,轻则昏迷,重则死亡;若环境中二氧化硫浓度超标,植物也会出现“中毒”症状,叶片逐渐褪色、叶片萎蔫、叶脉变白,从而造成死亡;空气中二氧化硫溶于水后,不仅会使土壤和水体酸化,给人类和植物造成极大的危害,同时二氧化硫与酸雨出现后,为社会经济发展造成了严重阻碍。我国二氧化硫污染严重,主要原因是我国的产业结构主要以煤炭产业为主,煤炭燃烧造成了大量二氧化硫以及其他污染物的排放,同时对二氧化硫的污染防治工作不到位,不重视保护生态环境。目前二氧化硫处理方法有物理方法和化学方法,其中物理方法应用较广泛的为吸附法、溶剂吸收法,化学法中主要有钙法、钠法和钾法;单一的物理方法脱硫,往往需要加入大量的化学物质进行二氧化硫处理,能耗浪费较大;化学法中往往由于反应条件,处理后的溶液中含有未反应的溶液,造成分离困难,影响重复使用,造成资源的浪费。
技术实现思路
本专利技术提供了基于Web的生态空间数据爬取方法,以至少解决相关技术中对于空气质量数据收集数据量过大,无用数据过多,数据质量低的问题,同时对空气质量数据中二氧化硫进行分析,找出影响二氧化硫含量的影响因素,给出对应的室内二氧化硫治理方案。基于Web的生态空间数据爬取方法,包括以下步骤:(1)二氧化硫数据爬取:根据二氧化硫浓度数据特征,选取爬取方案,进行数据爬取,筛选出二氧化硫浓度超标的城市;(2)室内二氧化硫检测:使用二氧化硫检测仪检测二氧化硫浓度超标城市室内二氧化硫浓度;(3)数据比对:根据室内二氧化硫检测浓度与爬取数据进行比对;(4)二氧化硫脱硫处理:若室内二氧化硫浓度呈逐步上升的趋势且接近爬取二氧化硫浓度,则开启二氧化硫脱硫处理。进一步,所述的步骤(1)中二氧化硫数据爬取具体步骤如下:1.1,选择爬取方案:根据二氧化硫浓度数据特征,数据多,更新快,对环境监测网站HTML页面进行分析,查找需要的数据信息URL及标签,根据该标签和URL信息制定页面信息爬取方案为分布式网络爬虫;1.2,爬取数据:从网页中提取出有关的URL加入URL队列,爬取网站上数据;1.3,URL处理:读取URL,URL去重,提取域名和URL存储;1.4,清洗数据:将爬取到的数据进行数据清洗,一致性检查和处理无效值和缺失值;一致性检查是根据每个变量的合理取值范围和相互关系,检查数据之间的关系,发现超出正常范围或者相互矛盾的值;采用估算、直接剔除、全局变量填充、随机插补法处理无效值和缺失值;1.5,存储数据:将爬取到的数据存在数据库中。进一步,所述的爬取数据具体步骤如下:2.1,爬虫引擎打开一个环境监测网站的主域名,找到处理该网站的解析器,从解析器中获取系统首先要进行抓取的起始URLs;2.2,爬虫引擎将得到的起始URLs发送给调度器,调度器将其依次加入到主节点Redis缓存服务器存储的共享待爬取URL队列中;2.3,爬虫引擎向调度器查询共享待爬取URL队列中的剩余URL;2.4,调度器将查询和获取共享待爬取URL队列中第一个要爬取的URL,然后爬虫引擎把该URL所对应的网络请求通过下载器中间件发送给下载器;2.5,下载器对该URL所对应的Web页面进行下载,然后将下载好的空气中二氧化硫含量数据通过下载器中间件传递给爬虫引擎;2.6,爬虫引擎将下载好的数据通过爬虫中间件传递给解析器;2.7,解析器对下载好的数据进行分析处理,并从中提取出感兴趣的数据项和新的URLs发送给爬虫引擎;2.8,爬取网站路径补充,避免网页为引用页面,导致路径不完整造成数据收集出现缺失,需要进行爬取网站路径补充。其中,是否需要补充的判断方法为:两个连续访问页面Pl、P2,若Pl为P2引用页面,两个页面之间就需要补全路径,若非引用页面,就需要检查用户访问路径中是否存在P2访问页面,若没有,则判断P2为用户新会话过程,不需要再补全路径,若有,则表明用户是执行了后退操作通过Pl访问了P2,需要补全路径。补全方法一般采取匹配父节点的方法完成,当判断两个页面之间需要补充路径时,先检查P2的父页面,与Pl的父节点进行匹配,若相同,就可以直接将Pl的父节点作为P1与P2之间的完整路径;若不同,则需要继续检查Pl的祖父节点,与P2父节点进行匹配,直至所有需匹配的P2父节点均补全到用户访问路径中。进一步,所述的URL处理包括以下流程,具体如下:3.1,读取URL:从Redis数据库的URL队列中读取一批URL到Storm分布式平台上进行处理;3.2,URL去重:过滤已爬取的URL,防止网络爬虫对相同的URL重复爬取,提高爬虫系统的爬取效率;3.3,提取域名:从URL中提取域名,依据网站域名的特点,识别URL所属的网站URL队列;3.4,URL存储:将URL按照域名存储到不同的网站URL队列中,URL存储使用TridentState实现。进一步,数据爬取为北方火电厂、化工产业等主要重工业城市二氧化硫浓度。进一步,二氧化硫治理的方案为膜吸收法,通过使用氧化石墨烯改性聚全氟乙丙烯中空纤维膜吸收器,选择氢氧化钠溶液为吸收液,实现脱硫的目标。进一步,其中氧化石墨烯改性聚全氟乙丙烯中空纤维膜的制备方法为:4.1,将聚全氟乙丙烯与纳米级二氧化硅和界面处理剂组成的致孔剂、增塑剂邻苯二甲酸二辛酯三种物质混合均匀后,在真空条件下,加入氧化石墨烯充分混合,烘干后进行熔融拉丝;4.2将拉丝后物质进行静电纺丝处理,用无水乙醇萃洗浸泡,得到氧化石墨烯改性聚全氟乙丙烯中空纤维膜。进一步,其中聚全氟乙丙烯:致孔剂:增塑剂质量比为3:2:1,氧化石墨烯质量为三种混合后溶液总质量的0.2%,真空干燥下温度为98℃,干燥时间为10h。进一步,其中静电纺丝处理为电压25kv、注射速度2.0ml/h条件下进行静电纺丝。有益效果(1)本专利技术采用分布式网络爬取技术,主节点不做数据爬取,只进行爬取任务的调度,爬虫节点负责数据的下载和提取,部署简单,易于扩展;支持断点续爬,经过故障修复能够再次运行,能够快速恢复之前的数据结构,提升了系统的稳定性;主节点负责对分布式网络爬虫系统中各爬虫节点进行负载均衡,避免某个爬虫节点本文档来自技高网
...

【技术保护点】
1.基于Web的生态空间数据爬取方法,其特征在于,包括以下步骤:(1)二氧化硫数据爬取:根据二氧化硫浓度数据特征,选取爬取方案,进行数据爬取,筛选出二氧化硫浓度超标的城市;(2)室内二氧化硫检测:使用二氧化硫检测仪检测二氧化硫浓度超标城市室内二氧化硫浓度;(3)数据比对:根据室内二氧化硫检测浓度与爬取数据进行比对;(4)二氧化硫脱硫处理:若室内二氧化硫浓度呈逐步上升的趋势且接近爬取二氧化硫浓度,则开启二氧化硫脱硫处理。

【技术特征摘要】
1.基于Web的生态空间数据爬取方法,其特征在于,包括以下步骤:(1)二氧化硫数据爬取:根据二氧化硫浓度数据特征,选取爬取方案,进行数据爬取,筛选出二氧化硫浓度超标的城市;(2)室内二氧化硫检测:使用二氧化硫检测仪检测二氧化硫浓度超标城市室内二氧化硫浓度;(3)数据比对:根据室内二氧化硫检测浓度与爬取数据进行比对;(4)二氧化硫脱硫处理:若室内二氧化硫浓度呈逐步上升的趋势且接近爬取二氧化硫浓度,则开启二氧化硫脱硫处理。2.根据权利要求1所述的基于Web的生态空间数据爬取方法,所述的步骤(1)中二氧化硫数据爬取具体步骤如下:1.1,选择爬取方案:根据二氧化硫浓度数据特征,数据多,更新快,对环境监测网站HTML页面进行分析,查找需要的数据信息URL及标签,根据该标签和URL信息制定页面信息爬取方案为分布式网络爬虫;1.2,爬取数据:从网页中提取出有关的URL加入URL队列,爬取网站上数据;1.3,URL处理:读取URL,URL去重,提取域名和URL存储;1.4,清洗数据:将爬取到的数据进行数据清洗,一致性检查和处理无效值和缺失值;一致性检查是根据每个变量的合理取值范围和相互关系,检查数据之间的关系,发现超出正常范围或者相互矛盾的值;采用估算、直接剔除、全局变量填充、随机插补法处理无效值和缺失值;1.5,存储数据:将爬取到的数据存在数据库中。3.根据权利要求1所述的基于Web的生态空间数据爬取方法,所述的爬取数据具体步骤如下:2.1,爬虫引擎打开一个环境监测网站的主域名,找到处理该网站的解析器,从解析器中获取系统首先要进行抓取的起始URLs;2.2,爬虫引擎将得到的起始URLs发送给调度器,调度器将其依次加入到主节点Redis缓存服务器存储的共享待爬取URL队列中;2.3,爬虫引擎向调度器查询共享待爬取URL队列中的剩余URL;2.4,调度器将查询和获取共享待爬取URL队列中第一个要爬取的URL,然后爬虫引擎把该URL所对应的网络请求通过下载器中间件发送给下载器;2.5,下载器对该URL所对应的Web页面进行下载,然后将下载好的空气中二氧化硫含量数据通过下载器中...

【专利技术属性】
技术研发人员:白云李川刘岱
申请(专利权)人:重庆工商大学融智学院
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1