一种基于网络爬虫的土壤污染场地环境信息采集方法技术

技术编号:27470089 阅读:16 留言:0更新日期:2021-03-02 17:34
本发明专利技术公开了本发明专利技术公开一种基于网络爬虫的土壤污染场地环境信息采集方法,利用网络爬虫从多个初始URL开始下载网页内容,通过搜索策略获取网页中与土壤场地环境主题相关的数据,同时不断从当前页面提取新的URL,根据网页抓取策略放入待抓取URL队列中,循环执行,直至停止,循环结束,其中,土壤场地环境主题相关的数据包括土壤环境检测数据或/和土壤环境污染源信息;获取的网页中与土壤场地环境主题相关的数据进行清洗和整理,并建立索引存入数据库中;从地理信息服务器中获取空间地理数据;将获取的网络土壤污染场地环境信息数据表格转化到格式化数据库中,供相关用户日后的检索与分析使用。与分析使用。与分析使用。

【技术实现步骤摘要】
一种基于网络爬虫的土壤污染场地环境信息采集方法


[0001]本专利技术属于空间数据集成领域,具体涉及一种基于网络爬虫的土壤污染场地环境信息采集方法。
技术背景
[0002]大数据是以容量大、类型多、存取速度快、应用价值高为主要特诊的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态,全面推进大数据发展和应用,加快建设数据强国。《促进大数据发展行动纲要》等文件要求推动信息系统和公共数据互联共享,促进大数据在各行业创新应用;运用现代信息技术加强公共服务和市场监管,推动简政放权和职能转变,构建“互联网+”绿色生态,实现生态环境数据互联互通和开放共享。
[0003]传统的土壤污染场地环境信息数据收集与检索工作通常依靠人工完成。通过人工采集与整理的土壤污染场地环境信息数据往往具有精度高、数据格式规整、可信程度高,但数据量小、来源单一、时效性较差的特点。与此相对应,网络土壤污染场地环境信息数据量大、来源广泛、时效性强,但数据格式复杂多变,收集和整理网络土壤污染场地环境信息数据需要耗费大量的人力。因此,传统的人工数据采集与整理方法不适用于网络土壤污染场地环境信息。

技术实现思路

[0004]为了克服现有技术存在的缺点和不足,本专利技术提供了一种基于网络爬虫的土壤污染场地环境信息采集方法,通过网络爬虫自动从网页上提取与关键词土壤污染场地环境数据表格,并将网络土壤污染场地环境数据表格转化到格式化数据库中。
[0005]为了实现上述目的,本专利技术采用的技术方案如下:
[0006]一种基于网络爬虫的土壤污染场地环境信息采集方法,所述方法包括如下步骤:
[0007]S1利用网络爬虫从多个初始URL开始下载网页内容,通过搜索策略获取网页中与土壤场地环境主题相关的数据,同时不断从当前页面提取新的URL,根据网页抓取策略放入待抓取URL队列中,循环执行,直至停止,循环结束,其中,土壤场地环境主题相关的数据包括土壤环境检测数据或/和土壤环境污染源信息;
[0008]S2将S1中获取的网页中与土壤场地环境主题相关的数据进行清洗和整理,并建立索引存入数据库中;
[0009]S3从地理信息服务器中获取空间地理数据;
[0010]S4通过GIS脱密处理方法对L1中获取的空间地理数据进行脱密处理;
[0011]S5将获取的网络土壤污染场地环境信息数据表格转化到格式化数据库中,供相关用户日后的检索与分析使用。
[0012]需要说明的是,所述步骤S1还包括:
[0013]S1.1启动网络爬虫程序,选取多个初始URL,并将其放入待抓取URL队列中;
[0014]S1.2从待抓取URL队列中取出某个URL,并下载该URL对应的网页内容,然后将该URL放入到已抓取URL队列;
[0015]S1.3通过搜索获取网页内容中与生态环境主题相关的数据,判断获取的数据是否已被历史获取,若是则丢弃该数据和网页内容,若否则缓存该数据,丢弃网页内容,同时解析该网页中所包含的URL,判断该URL是否是已抓取URL队列中所包含的URL,若是,则丢弃,若否,则将其放入待抓取URL队列中;
[0016]S1.4循环执行S1.2-S1.3,直至待抓取URL队列中的所有URL被完全抓取,或系统命令停止抓取,循环结束。
[0017]需要说明的是,所述土壤场地环境主题为土壤场地环境关键词集,其获取过程为:定期地从学术论文网站上获取论文,并将新获取的论文保存在语料库中;对语料库中各篇论文的词语集进行数值化处理;将数值化处理结果作为训练样本导入Word2Vec模型进行训练,得到各个词语的词向量;针对每个词语,分别根据词向量计算该词语与其它各个词语的欧式距离或向量夹角,然后根据计算结果选取欧式距离最近或向量夹角最小的前N个其它词语作为相关词语,得到相关词语集,其中,N为介于20~100之间的自然数;将词语为“土壤污染场地环境”的相关词语集作为土壤污染场地环境关键词集。
[0018]本专利技术的有益效果在于,通过网络爬虫自动从网页上提取土壤污染场地环境信息数据表格,并将网络土壤污染场地环境信息数据表格转化到格式化数据库中,供相关用户日后的检索与分析使用。
附图说明
[0019]图1为图1是本专利技术方法的流程图。
具体实施例
[0020]以下将结合附图对本专利技术作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围并不限于本实施例。
[0021]本专利技术为一种基于网络爬虫的土壤污染场地环境信息采集方法,所述方法包括如下步骤:
[0022]S1利用网络爬虫从多个初始URL开始下载网页内容,通过搜索策略获取网页中与土壤场地环境主题相关的数据,同时不断从当前页面提取新的URL,根据网页抓取策略放入待抓取URL队列中,循环执行,直至停止,循环结束,其中,土壤场地环境主题相关的数据包括土壤环境检测数据或/和土壤环境污染源信息;
[0023]S2将S1中获取的网页中与土壤场地环境主题相关的数据进行清洗和整理,并建立索引存入数据库中;
[0024]S3从地理信息服务器中获取空间地理数据;
[0025]S4通过GIS脱密处理方法对L1中获取的空间地理数据进行脱密处理;
[0026]S5将获取的网络土壤污染场地环境信息数据表格转化到格式化数据库中,供相关用户日后的检索与分析使用。
[0027]需要说明的是,所述步骤S1还包括:
[0028]S1.1启动网络爬虫程序,选取多个初始URL,并将其放入待抓取URL队列中;
[0029]S1.2从待抓取URL队列中取出某个URL,并下载该URL对应的网页内容,然后将该URL放入到已抓取URL队列;
[0030]S1.3通过搜索获取网页内容中与生态环境主题相关的数据,判断获取的数据是否已被历史获取,若是则丢弃该数据和网页内容,若否则缓存该数据,丢弃网页内容,同时解析该网页中所包含的URL,判断该URL是否是已抓取URL队列中所包含的URL,若是,则丢弃,若否,则将其放入待抓取URL队列中;
[0031]S1.4循环执行S1.2-S1.3,直至待抓取URL队列中的所有URL被完全抓取,或系统命令停止抓取,循环结束。
[0032]需要说明的是,所述土壤场地环境主题为土壤场地环境关键词集,其获取过程为:定期地从学术论文网站上获取论文,并将新获取的论文保存在语料库中;对语料库中各篇论文的词语集进行数值化处理;将数值化处理结果作为训练样本导入Word2Vec模型进行训练,得到各个词语的词向量;针对每个词语,分别根据词向量计算该词语与其它各个词语的欧式距离或向量夹角,然后根据计算结果选取欧式距离最近或向量夹角最小的前N个其它词语作为相关词语,得到相关词语集,其中,N为介于20~100之间的自然数;将词语为“土壤污染场地环境”的相关词语集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网络爬虫的土壤污染场地环境信息采集方法,其特征在于,所述方法包括如下步骤:S1利用网络爬虫从多个初始URL开始下载网页内容,通过搜索策略获取网页中与土壤场地环境主题相关的数据,同时不断从当前页面提取新的URL,根据网页抓取策略放入待抓取URL队列中,循环执行,直至停止,循环结束,其中,土壤场地环境主题相关的数据包括土壤环境检测数据或/和土壤环境污染源信息;S2将S1中获取的网页中与土壤场地环境主题相关的数据进行清洗和整理,并建立索引存入数据库中;S3从地理信息服务器中获取空间地理数据;S4通过GIS脱密处理方法对L1中获取的空间地理数据进行脱密处理;S5将获取的网络土壤污染场地环境信息数据表格转化到格式化数据库中,供相关用户日后的检索与分析使用。2.根据权利要求1所述的基于网络爬虫的土壤污染场地环境信息采集方法,其特征在于,所述步骤S1还包括:S1.1启动网络爬虫程序,选取多个初始URL,并将其放入待抓取URL队列中;S1.2从待抓取URL队列中取出某个URL,并下载该URL对应的网页内容,然后将该URL放入到已抓取URL队列;S1.3通过搜索获取网页内容...

【专利技术属性】
技术研发人员:严佩嘉赵坤荣王晓聪王松岭杨启帆娄继琛周永杰
申请(专利权)人:生态环境部华南环境科学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1