一种基于生态环境大数据框架的主从数据共享模式制造技术

技术编号:33707477 阅读:30 留言:0更新日期:2022-06-06 08:33
本发明专利技术公开了一种基于生态环境大数据框架的主从数据共享模式,首先,定义了一个生态环境大数据的存储、编辑和查询的主从双线框架。在主线上,服务维护方通过定时数据爬取子系统自动采集生态环境数据,接着通过数据清理、数据集成、数据变换操作对数据进行规范化处理,以提高平台数据质量,最后将处理好的数据存储在系统数据库中。在从线上,平台用户可共享自己的生态环境数据集,经人工权威认证后,通过数据集成操作将共享的数据与系统数据库中的数据进行规范化合并,以此来对主线数据进行补充和扩展,未通过权威认证的数据集存储在用户数据库中。最终通过数据共享子系统按照主从共享模式完成生态环境领域间的数据共享与交换。与交换。与交换。

【技术实现步骤摘要】
一种基于生态环境大数据框架的主从数据共享模式


[0001]本专利技术属于生态环境数据共享
,尤其涉及一种生态环境大数据框架的主从数据共享模式。

技术介绍

[0002]我国的生态环境建设经过多年的努力,在快速发展的同时产生了大量的数据,但目前人们对这些数据的开发利用不足,远远没有发挥数据本身以及隐藏数据背后的价值。造成这种现象的最主要原因是数据的来源、格式及标准等不统一,同时在各个部门之间存在“数据孤岛”,缺乏有效的数据共享,数据交流程度、利用率低。没有数据共享,不能实现数据“在一起”,就不能形成大数据,最后制约了生态环境大数据领域研究的发展。
[0003]目前生态环境数据共享领域的研究较少,现有的数据共享模式普遍较为单一,不具有拓展性,如专利CN112231333A公布了一种生态环境数据共享交换方法和系统,在该方法中,系统单方面采集、汇总、共享数据,用户只能申请数据,不能够共享自己的数据,该数据共享模式缺乏灵活性和拓展性。另外,随着时间的推移下,数据量的规模越来越庞大,现有的数据共享模式就不具有普适性。
>
技术实现思路
...

【技术保护点】

【技术特征摘要】
1.一种基于生态环境大数据框架的主从数据共享模式,其特征在于,包括以下步骤:S1、在主线上,根据生态环境领域不同监测站数据的更新策略,采取不同的模式定时采集数据。S2、按照数据的类型及其特征,将S1中采集到的数据通过数据清理、数据集成、数据变换操作对数据进行规范化处理,最后将处理好的数据存储在系统数据库中。S3、在从线上,接收用户共享的生态环境数据集,系统自动判断数据集的类别。若该数据集的类别和S1中数据的类别一致,并且数据集的质量通过了人工的检验,则将该数据集与主线上的数据进行规范化合并。否则,将该数据集存储在用户数据库中。S4、数据共享子系统接收用户的数据请求,通过审核后执行数据共享请求。2.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式,其特征在于:步骤S1中不同的模式包括一天采集一次、每隔四个小时采集一次、每小时采集一次。3.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式,其特征在于:步骤S1包括:S11、系统在指定的采集时间点触发对应的采集任务程序。S12、采集任务程序按照接口的格式模拟浏览器向接口所在的服务器发送HTTP/HTTPS请求。S13、根据HTTP/HTTPS协议对服务器返回的报文进行解析,从而获取到响应体中的数据部分。4.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式,其特征在于:步骤S2中数据的类型包括:字符串、整型、浮点型、布尔型、日期。5.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式,其特征在于:步骤S2中数据的特征具体为:采集的数据主要以半结构化数据为主,以非结构化数据为辅。异源同类别数据的一致性较差,具体表现为单位、度量、数据属性命名不一致。6.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式,其特征在于:步骤S2包括:S21、根据不同的数据模型遵循不同的方法(对于非结构化数据文本,则使用正则表达式解析数据。而对于半结构化数据(通常为JSON数据),通过站点提供的文档以及专业经验推断出具体的属性含义,从而解析出对应的数据),从而抽取出所需的数据。S22、纠正数据中的错误(包括数据值错误、数据类型错误、数据编码错误)S23、检测数据中是否存在重复记录或重复字段,对于这些重复项目需要进行去重处理。若存在不同来源的重复记录或者在相同时间点存在多条监测数据,则按照“生态环境部优先于直属单位,直属单...

【专利技术属性】
技术研发人员:岳金钊王永桂
申请(专利权)人:武汉祁联生态科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1