一种基于生态环境大数据框架的主从数据共享模式制造技术

技术编号:33707477 阅读:13 留言:0更新日期:2022-06-06 08:33
本发明专利技术公开了一种基于生态环境大数据框架的主从数据共享模式,首先,定义了一个生态环境大数据的存储、编辑和查询的主从双线框架。在主线上,服务维护方通过定时数据爬取子系统自动采集生态环境数据,接着通过数据清理、数据集成、数据变换操作对数据进行规范化处理,以提高平台数据质量,最后将处理好的数据存储在系统数据库中。在从线上,平台用户可共享自己的生态环境数据集,经人工权威认证后,通过数据集成操作将共享的数据与系统数据库中的数据进行规范化合并,以此来对主线数据进行补充和扩展,未通过权威认证的数据集存储在用户数据库中。最终通过数据共享子系统按照主从共享模式完成生态环境领域间的数据共享与交换。与交换。与交换。

【技术实现步骤摘要】
一种基于生态环境大数据框架的主从数据共享模式


[0001]本专利技术属于生态环境数据共享
,尤其涉及一种生态环境大数据框架的主从数据共享模式。

技术介绍

[0002]我国的生态环境建设经过多年的努力,在快速发展的同时产生了大量的数据,但目前人们对这些数据的开发利用不足,远远没有发挥数据本身以及隐藏数据背后的价值。造成这种现象的最主要原因是数据的来源、格式及标准等不统一,同时在各个部门之间存在“数据孤岛”,缺乏有效的数据共享,数据交流程度、利用率低。没有数据共享,不能实现数据“在一起”,就不能形成大数据,最后制约了生态环境大数据领域研究的发展。
[0003]目前生态环境数据共享领域的研究较少,现有的数据共享模式普遍较为单一,不具有拓展性,如专利CN112231333A公布了一种生态环境数据共享交换方法和系统,在该方法中,系统单方面采集、汇总、共享数据,用户只能申请数据,不能够共享自己的数据,该数据共享模式缺乏灵活性和拓展性。另外,随着时间的推移下,数据量的规模越来越庞大,现有的数据共享模式就不具有普适性。

技术实现思路

[0004]针对在生态环境大数据领域现有共享模式单一、不具有扩展性和普适性的缺陷,本专利技术提供了一种基于生态环境大数据框架的主从数据共享模式,满足了在生态环境大数据框架下的数据共享需求,提高了数据的完整性和准确性,也增强了数据的多元性和权威性。提高了生态环境领域数据共享的灵活性、扩展性和可持续性。
[0005]本专利技术提供了一种基于生态环境大数据框架的主从数据共享模式,包括以下步骤:
[0006]S1、在主线上,根据生态环境领域不同监测站点数据的更新策略,采取不同的模式定时采集数据。
[0007]S2、按照数据的类型及其特征,将S1中采集到的数据通过数据清理、数据集成、数据变换操作对数据进行规范化处理,最后将处理好的数据存储在系统数据库中。
[0008]S3、在从线上,接收用户共享的生态环境数据集,系统自动判断数据集的类别。若该数据集的类别和S1中数据的类别一致,并且数据集的质量通过了人工的检验,则将该数据集与主线上的数据进行规范化合并。否则,将该数据集存储在用户数据库中。
[0009]S4、数据共享子系统接收用户的数据请求,通过审核后执行数据共享请求。
[0010]进一步地,步骤S1中,所述不同的模式包括一天采集一次、每隔四个小时采集一次、每小时采集一次:
[0011]进一步地,步骤S1包括:
[0012]S11、系统在指定的采集时间点触发对应的采集任务程序。
[0013]S12、采集任务程序按照接口的格式模拟浏览器向接口所在的服务器发送 HTTP/
HTTPS请求。
[0014]S13、根据HTTP/HTTPS协议对服务器返回的报文进行解析,从而获取到响应体中的数据部分。
[0015]进一步地,步骤S2中数据的类型包括:字符串、整型、浮点型、布尔型、日期。
[0016]进一步地,步骤S2中数据的特征具体为:采集的数据主要以半结构化数据为主,以非结构化数据为辅。异源同类别数据的一致性较差,具体表现为单位、度量、数据属性命名不一致。
[0017]进一步地,步骤S2包括:
[0018]S21、根据不同的数据模型遵循不同的方法(对于非结构化数据文本,则使用正则表达式解析数据。而对于半结构化数据(通常为JSON数据),通过站点提供的文档以及专业经验推断出具体的属性含义,从而解析出对应的数据),从而抽取出所需的数据。
[0019]S22、纠正数据中的错误(包括数据值错误、数据类型错误、数据编码错误)
[0020]S23、检测数据中是否存在重复记录或重复字段,对于这些重复项目需要进行去重处理。若存在不同来源的重复记录或者在相同时间点存在多条监测数据,则按照“生态环境部优先于直属单位,直属单位优先于用户共享的,用户共享的优先于进行过缺失值补全的”原则保留数据。
[0021]S24、对数据按照预设的标准统一数据规格,包括字段的单位、类型、名称、格式、计数方法。
[0022]S25、对数据按照相应的逻辑进行异常值检测。若发现异常值,就将该字段值置为空。
[0023]S26、按照一定的逻辑补全缺失值,同时标记该属性值为补全值。具体为:按照缺失值的不同类别分别补全,。若缺失值对应的属性属于站点的详细信息类别,通过查询站点字典补全缺失值,或者人工进行补全;若缺失值对应的属性属于日期时间类别,则根据采集时间查找同时同源数据,进而补全缺失值;若缺失值对应的属性属于业务类别,则以该属性存在值的平均值来插补缺失的值。
[0024]S27、将经过处理的数据存储在系统数据库。
[0025]进一步地,步骤S3包括:
[0026]S31、用户下载对应的数据共享模板,按照模板的格式对要共享的数据进行处理。
[0027]S31、在用户阅读并接受相应的共享协议之后,填写数据集的描述信息,最后上传对应的数据集。
[0028]S32、系统接收到用户上传的文件之后,通过指定的逻辑对数据类别进行初步的判断,再结合用户填写的数据集描述信息,最终判定出该数据集的数据类别是否和S1中采集的数据类别一致。
[0029]其中,S32中指定的数据类别判断逻辑为:挑选数据集中的某一个或某几个文件,读取前几行的内容,通过和采集到的数据属性集合进行对比,进而得出数据类别是否和主线的数据一致。
[0030]S33、若S32中数据判别结果为一致,则系统自动创建数据审核工单,由人工介入,从完整性和准确性两个方面对数据进行手动审核,以保证数据的质量。若审核通过,则进入S34执行数据合并。否则,放弃与主线数据的合并,将该数据集存储在用户数据库。
[0031]S34、按照步骤S21、S22、S23、S24和S25所述的数据处理方法,对满足合并标准的数据集进行规范化处理、去重、合并,以达到从线数据扩充主线数据的目的。
[0032]另外,从线数据被合并后将会和主线数据有标志的存放在系统数据库中。
[0033]进一步地,步骤S4包括:用户在阅读并接受生态环境数据共享协议的前提下,填写并提交相应的申请表单(表单中包括申请人的基本信息以及申请数据的目的)。系统接收到用户的数据请求后,会自动转发给管理员审核,管理员在判定该请求合法后,由系统自动开放该数据集的下载地址,以供用户的下载。
[0034]本专利技术提供的有益效果是:将主从数据共享模式应用在生态环境领域,充分发挥主从两条线的优势,同时引入分布式数据存储来满足生态环境大数据的需要。在主线上,服务维护方定时进行数据采集、数据清洗、数据入库等操作,不断从体量上扩大主线数据的规模。在从线上,将用户共享的经过认证的数据与主线上的数据进行规范化合并,以此来对主线数据进行补充和扩展。一方面,该模式提高了数据的完整性和准确性,也增强了数据的多元性和权威性。另一方面,该模式相比传统的单线数据共享更具有灵活性、扩展性和可持续性,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生态环境大数据框架的主从数据共享模式,其特征在于,包括以下步骤:S1、在主线上,根据生态环境领域不同监测站数据的更新策略,采取不同的模式定时采集数据。S2、按照数据的类型及其特征,将S1中采集到的数据通过数据清理、数据集成、数据变换操作对数据进行规范化处理,最后将处理好的数据存储在系统数据库中。S3、在从线上,接收用户共享的生态环境数据集,系统自动判断数据集的类别。若该数据集的类别和S1中数据的类别一致,并且数据集的质量通过了人工的检验,则将该数据集与主线上的数据进行规范化合并。否则,将该数据集存储在用户数据库中。S4、数据共享子系统接收用户的数据请求,通过审核后执行数据共享请求。2.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式,其特征在于:步骤S1中不同的模式包括一天采集一次、每隔四个小时采集一次、每小时采集一次。3.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式,其特征在于:步骤S1包括:S11、系统在指定的采集时间点触发对应的采集任务程序。S12、采集任务程序按照接口的格式模拟浏览器向接口所在的服务器发送HTTP/HTTPS请求。S13、根据HTTP/HTTPS协议对服务器返回的报文进行解析,从而获取到响应体中的数据部分。4.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式,其特征在于:步骤S2中数据的类型包括:字符串、整型、浮点型、布尔型、日期。5.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式,其特征在于:步骤S2中数据的特征具体为:采集的数据主要以半结构化数据为主,以非结构化数据为辅。异源同类别数据的一致性较差,具体表现为单位、度量、数据属性命名不一致。6.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式,其特征在于:步骤S2包括:S21、根据不同的数据模型遵循不同的方法(对于非结构化数据文本,则使用正则表达式解析数据。而对于半结构化数据(通常为JSON数据),通过站点提供的文档以及专业经验推断出具体的属性含义,从而解析出对应的数据),从而抽取出所需的数据。S22、纠正数据中的错误(包括数据值错误、数据类型错误、数据编码错误)S23、检测数据中是否存在重复记录或重复字段,对于这些重复项目需要进行去重处理。若存在不同来源的重复记录或者在相同时间点存在多条监测数据,则按照“生态环境部优先于直属单位,直属单...

【专利技术属性】
技术研发人员:岳金钊王永桂
申请(专利权)人:武汉祁联生态科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1