一种基于网络爬虫的土壤污染场地环境信息采集方法技术

技术编号：27470089 阅读：16 留言：0更新日期：2021-03-02 17:34

本发明专利技术公开了本发明专利技术公开一种基于网络爬虫的土壤污染场地环境信息采集方法，利用网络爬虫从多个初始URL开始下载网页内容，通过搜索策略获取网页中与土壤场地环境主题相关的数据，同时不断从当前页面提取新的URL，根据网页抓取策略放入待抓取URL队列中，循环执行，直至停止，循环结束，其中，土壤场地环境主题相关的数据包括土壤环境检测数据或/和土壤环境污染源信息；获取的网页中与土壤场地环境主题相关的数据进行清洗和整理，并建立索引存入数据库中；从地理信息服务器中获取空间地理数据；将获取的网络土壤污染场地环境信息数据表格转化到格式化数据库中，供相关用户日后的检索与分析使用。与分析使用。与分析使用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于网络爬虫的土壤污染场地环境信息采集方法

[0001]本专利技术属于空间数据集成领域，具体涉及一种基于网络爬虫的土壤污染场地环境信息采集方法。
技术背景
[0002]大数据是以容量大、类型多、存取速度快、应用价值高为主要特诊的数据集合，正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析，从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态，全面推进大数据发展和应用，加快建设数据强国。《促进大数据发展行动纲要》等文件要求推动信息系统和公共数据互联共享，促进大数据在各行业创新应用；运用现代信息技术加强公共服务和市场监管，推动简政放权和职能转变，构建“互联网+”绿色生态，实现生态环境数据互联互通和开放共享。
[0003]传统的土壤污染场地环境信息数据收集与检索工作通常依靠人工完成。通过人工采集与整理的土壤污染场地环境信息数据往往具有精度高、数据格式规整、可信程度高，但数据量小、来源单一、时效性较差的特点。与此相对应，网络土壤污染场地环境信息数据量大、来源广泛、时效性强，但数据格式复杂多变，收集和整理网络土壤污染场地环境信息数据需要耗费大量的人力。因此，传统的人工数据采集与整理方法不适用于网络土壤污染场地环境信息。

技术实现思路

[0004]为了克服现有技术存在的缺点和不足，本专利技术提供了一种基于网络爬虫的土壤污染场地环境信息采集方法，通过网络爬虫自动从网页上提取与关键词土壤污染场地环境数据表格，并将网络土壤污染场地环境数据表格转化到格式化数据库中。
...

【技术保护点】

【技术特征摘要】
1.一种基于网络爬虫的土壤污染场地环境信息采集方法，其特征在于，所述方法包括如下步骤：S1利用网络爬虫从多个初始URL开始下载网页内容，通过搜索策略获取网页中与土壤场地环境主题相关的数据，同时不断从当前页面提取新的URL，根据网页抓取策略放入待抓取URL队列中，循环执行，直至停止，循环结束，其中，土壤场地环境主题相关的数据包括土壤环境检测数据或/和土壤环境污染源信息；S2将S1中获取的网页中与土壤场地环境主题相关的数据进行清洗和整理，并建立索引存入数据库中；S3从地理信息服务器中获取空间地理数据；S4通过GIS脱密处理方法对L1中获取的空间地理数据进行脱密处理；S5将获取的网络土壤污染场地环境信息数据表格转化到格式化数据库中，供相关用户日后的检索与分析使用。2.根据权利要求1所述的基于网络爬虫的土壤污染场地环境信息采集方法，其特征在于，所述步骤S1还包括：S1.1启动网络爬虫程序，选取多个初始URL，并将其放入待抓取URL队列中；S1.2从待抓取URL队列中取出某个URL，并下载该URL对应的网页内容，然后将该URL放入到已抓取URL队列；S1.3通过搜索获取网页内容...

【专利技术属性】
技术研发人员：严佩嘉，赵坤荣，王晓聪，王松岭，杨启帆，娄继琛，周永杰，
申请(专利权)人：生态环境部华南环境科学研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人