一种生态环境空间大数据集成方法技术

技术编号:21361569 阅读:31 留言:0更新日期:2019-06-15 09:22
本发明专利技术公开一种生态环境空间大数据集成方法,生态环境数据获取步骤如下:S1、利用网络爬虫获取的网页中与生态环境主题相关的数据;S2、将数据进行清洗和整理,并建立索引存入数据库中;空间地理数据获取步骤如下:L1、直接从地理信息服务器中获取空间地理数据;L2、通过GIS脱密处理方法对L1中获取的空间地理数据进行脱密处理;生态环境空间大数据集成步骤如下:从存入数据库中提取目标数据,并加载到脱密处理后的空间地理数据中,得到集成的生态环境空间大数据。本发明专利技术通过脱密处理的空间地理数据既可以满足信息化的实用价值又可以保证涉及国家安全的数据保密,数据集成实现网络化环境信息系统间不同尺度数据交换、传输和共享、数据互操作。

A Method for Integrating Large Spatial Data of Eco-environment

The invention discloses a method for integrating large spatial data of ecological environment, and the steps for obtaining ecological environment data are as follows: S1, data related to ecological environment topics in web pages acquired by web crawlers; S2, data cleaning and collating, and index setting into database; and the steps for acquiring spatial geographic data are as follows: L1, acquiring spatial land directly from geographic information servers. Physical data; L2. The spatial geographic data acquired in L1 is declassified by the method of GIS declassifying. The steps of ecological environment spatial data integration are as follows: extracting target data from the database and loading it into the spatial geographic data after declassifying, obtaining the integrated ecological environment spatial data. The method can not only satisfy the practical value of informationization, but also ensure the confidentiality of data related to national security. Data integration can realize data exchange, transmission and sharing at different scales and data interoperability between networked environmental information systems.

【技术实现步骤摘要】
一种生态环境空间大数据集成方法
本专利技术属于空间数据集成领域,具体涉及一种生态环境空间大数据集成方法。
技术介绍
大数据是以容量大、类型多、存取速度快、应用价值高为主要特诊的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态,全面推进大数据发展和应用,加快建设数据强国。《促进大数据发展行动纲要》等文件要求推动信息系统和公共数据互联共享,促进大数据在各行业创新应用;运用现代信息技术加强公共服务和市场监管,推动简政放权和职能转变,构建“互联网+”绿色生态,实现生态环境数据互联互通和开放共享。合理的资源利用与良好的区域生态环境是实现社会经济可持续发展的重要基础条件,我国许多地区生态环境脆弱,近年来生态环境恶化的趋势尚未得到有效遏制,以灾害为主要表现形式的的各种生态环境问题对于我国国民经济的长期、稳定发展的制约作用愈加明显,资源环境利用效益降低、区域环境受到不利影响、各种灾害频繁发生等问题受到普遍重视。随着我国人口的持续增长和社会经济的快速发展,对于资源的利用强度不断增大,水土流失、荒漠化土地本文档来自技高网...

【技术保护点】
1.一种生态环境空间大数据集成方法,其特征在于:包括生态环境数据获取步骤、空间地理数据获取步骤,和生态环境空间大数据集成步骤:生态环境数据获取步骤如下:S1、利用网络爬虫从多个初始URL开始下载网页内容,通过搜索策略获取网页中与生态环境主题相关的数据,同时不断从当前页面提取新的URL,根据网页抓取策略放入待抓取URL队列中,循环执行,直至停止,循环结束,其中,生态环境主题相关的数据包括水质监测数据、大气环境监测数据、土壤环境检测数据或/和生态环境污染源信息;S2、将S1中获取的网页中与生态环境主题相关的数据进行清洗和整理,并建立索引存入数据库中;空间地理数据获取步骤如下:L1、直接从地理信息服...

【技术特征摘要】
1.一种生态环境空间大数据集成方法,其特征在于:包括生态环境数据获取步骤、空间地理数据获取步骤,和生态环境空间大数据集成步骤:生态环境数据获取步骤如下:S1、利用网络爬虫从多个初始URL开始下载网页内容,通过搜索策略获取网页中与生态环境主题相关的数据,同时不断从当前页面提取新的URL,根据网页抓取策略放入待抓取URL队列中,循环执行,直至停止,循环结束,其中,生态环境主题相关的数据包括水质监测数据、大气环境监测数据、土壤环境检测数据或/和生态环境污染源信息;S2、将S1中获取的网页中与生态环境主题相关的数据进行清洗和整理,并建立索引存入数据库中;空间地理数据获取步骤如下:L1、直接从地理信息服务器中获取空间地理数据;L2、通过GIS脱密处理方法对L1中获取的空间地理数据进行脱密处理;生态环境空间大数据集成步骤如下:从存入数据库中提取目标数据,并加载到脱密处理后的空间地理数据中,得到集成的生态环境空间大数据。2.根据权利要求1所述的一种生态环境空间大数据集成方法,其特征在于:所述S1的实现过程为:S101、启动网络爬虫程序;S102、选取多个初始URL,并将其放入待抓取URL队列中;S103、从待抓取URL队列中取出某个URL,并下载该URL对应的网页内容,然后将该URL放入到已抓取URL队列;S104、通过搜索获取网页内容中与生态环境主题相关的数据,判断获取的数据是否已被历史获取,若是则丢弃该数据和网页内容,若否则缓存该数据,丢弃网页内容,同时解析该网页中所包含的URL,判断该URL是否是已抓取URL队列中所包含的URL,若是,则丢弃,若否,则将其放入待抓取URL队列中;S105、循环执行S103-S104,直至待抓取URL队列中的所有URL被完全抓取,或系统命令停止抓取,循环结束。3.根据权利要求2所述的一种生态环境空间大数据集成方法,其特征在于:所述S2的实现过程为:将S104缓存的数据进行清洗和整理,并建立索引存入数据库中。4.根据权利要求1所述的一种生态环境空间大数据集成方法,其特征在于:所述生态环境主题为生态环境关键词集,生态环境关键词集的获取过程为:S001、定期地从学术论文网站上获取论文,并将新获取的论文保存在语料库中;S002、对语料库中各篇论文的词语集进行数值化处理;S003、将数值化处理结果作为训练样本导入Word2Vec模型进行训练,得到各个词语的词向量;S004、针对每个词语,分别根据...

【专利技术属性】
技术研发人员:陈国彬
申请(专利权)人:重庆工商大学融智学院
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1