一种hadoop环境下的农业数据监控方法技术

技术编号:19057492 阅读:25 留言:0更新日期:2018-09-29 12:18
本发明专利技术请求保护一种hadoop环境下的农业数据监控方法,通过hadoop环境下存储方法对农业系统中的原始数据记录进行存储,采用非主键的索引方法对校验字段进行索引,使用格网编码方式,采用异构数据层存储Hbase对象的数据结构,基于Hbase对象的结构模式将任务进行分解,采用HBase对原始数据记录建立时间戳索引和MapReduce的并行化方式完成校验规则的数据监控。本发明专利技术能够高效可扩展地通过分布式集群的横向扩展,解决数据海量化问题;通过异构数据统一建模,解决数据异构化带来的不便;通过为校验规则涉及的字段建立辅助查询索引,以支持校验规则执行时进行高效查询处理。

【技术实现步骤摘要】
一种hadoop环境下的农业数据监控方法
本专利技术涉及计算机
,尤其涉及一种hadoop环境下的农业数据监控方法,该方法高效可扩展。
技术介绍
进入21世纪以来,计算机网络和传感器技术的快速发展,农业物联网的广泛应用使世界进入农业物联网快速发展的时代,我国也建立了大量相关的农业物联网系统。这些系统在农业环境监测、灾害预警、作物生长监测、农产品安全等领域发挥了重要作用,取得了一系列重要成果。而在此过程中,随着农业物联网系统的不断发展,系统规模的增大,农业物联网积累了越来越多的海量异构的农业数据,而这些对农业物联网的存储和相应的数据检索提出了更高的要求然而在这些结构数据集成解决方案中,较少以非结构化数据的集成为研究重点,在解决异构数据统一存储和检索的技术实现上,大多数都使用XML技术作为元数据解决方案。XML技术具有结构灵活、扩展性高、语义丰富等特点,但仍存储在数据间关联性不好、解析复杂XML文件耗时等特点。
技术实现思路
专利技术目的:针对上述现有技术存在的问题和不足,本专利技术的目的是提供一种hadoop环境下的农业数据监控方法,解决了现有的关系数据库系统方法的计算延时大,难于扩展,系统性价比低的问题。技术方案:为实现上述专利技术目的,本专利技术采用的技术方案为一种hadoop环境下的农业数据监控方法,包括以下步骤:(1)通过hadoop环境下存储方法对农业系统中的原始数据记录进行存储;(2)采用非主键的索引方法对校验字段进行索引,使用格网编码方式,在增量数据质量校验,或者时间窗口的细时间粒度的数据质量校验时在索引表中首先按照层级排序,从起始层级依次排列到终止层级,然后在毎一层级的记录范围内按照行列号Z值排序;(3)采用异构数据层存储Hbase对象的数据结构,并建立相应的索引信息,根据时间戳范围查询原始数据记录表;首先对Hbase对象的数据结构进行分解,然后基于Hbase对象的结构模式将任务进行分解,并与底层存储系统进行映射,由底层存储系统分别执行;(4)采用HBase对原始数据记录建立时间戳索引,以及存储数据的特征及分组信息,在检索查询任务中,确定需校验的数据范围后进行校验;(5)采用MapReduce的并行化方式完成校验规则的数据监控。优选的,所述分布存储方法为HBase的分布存储方法,采用Master/Slave架构搭建集群,包含一个HMatser节点、若干HRegionServer节点和一个Zookeeper集群,底层将数据存储在hadoop存储系统中。所述校验规则为MapReduce的并行化校验规则。优选的,所述步骤(2)中,采用非主键索引的方法对校验字段进行索引,从数据存储表中一次性读入所有记录,获取矢量要素OID及其对应的CC码、几何信息geo和时间版本T,将其转化为<OID_T,(CC,geo)>的形式输出。优选的,所述步骤(3)中,所述步骤(3)中,对原始数据记录建立时间戳索引,通过调用spark计算引擎计算单元逻辑规则对数据进行计算,并将计算后的数据输出到分布式存储器,再查询原始数据记录表以获取原始数据记录进行校验。优选的,所述步骤(4)中,为全量原始数据建立HDFS辅助索引文件,依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,将经过数据质量核检处理单元处理后的数据回传到分布式存储器。优选的,所述步骤(5)中,对所有的校验规则建立指示文件,Map任务读取相应的指示文件,获取执行相应校验规则需要的参数,调用相应的处理逻辑进行校验。本专利技术能够高效可扩展地通过分布式集群的横向扩展,解决数据海量化问题;通过异构数据统一建模,解决数据异构化带来的不便;通过为校验规则涉及的字段建立辅助查询索引,以支持校验规则执行时进行高效查询处理;设计了一个MapReduce的校验规则并行处理方法,使得每条校验规则都可以并行化处理,有效提升了系统响应性能。附图说明被包括来提供对所公开主题的进一步认识的附图,将被并入此说明书并构成该说明书的一部分。附图也阐明了所公开主题的实现,以及连同详细描述一起用于解释所公开主题的实现原则。没有尝试对所公开主题的基本理解及其多种实践方式展示超过需要的结构细节。图1为本专利技术的方法总体示意图。具体实施方式下面结合附图和具体实施例,进一步阐明本专利技术。应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。HBase是Hadoop生态环境中的一个分布式存储系统。针对分布式文件系统HDFS缺少结构化半结构化数据存储访问和随机读写能力的缺陷,在HDFS(HadoopDistributedFileSystem,即Hadoop分布式文件系统)之上,HBase提供了一个分布式数据管理系统,解决大规模的结构化和半结构化数据存储访问问题。HBase提供列存储模式的大数据表管理能力,可存储管理数十亿以上的数据记录,每个记录可包含百万以上的数据列;HBase试图提供随机和实时的数据读写访问能力,并具有高可扩展性、高可用性、容错处理能力、负载平衡能力、以及实时数据查询能力。HBase的底层数据是存储在HDFS中的,因而HBase是完全依赖于底层的HDFS工作的。由于HDFS采用了良好了数据多副本存储机制、以及强大的数据节点出错检测和节点失效恢复机制,HDFS的HBase在数据存储时自然继承了HDFS的这种数据存储的高可靠性和容错处理能力。Hadoop视频监控数据是由物联网摄像头传感器采集的视频图像,和监控图片数据类似,它也包括两类数据,一部分为二进制视频图像本身,类型是HDIP初始化类型Video;另一部分是它对应的描述信息,由值类型组成。本专利技术采用分布数据存储和管理系统HBase存储数据,将原始数据记录存储到HBase中,原始数据包括环境数据信息,环境数据信息由不同的相关传感器采集而来,将不同的环境信息用自定义类型Environment描述,在Environment中分别包含空气温度、风向、风速、土壤温度、降雨量、光子量、空气湿度、二氧化碳浓度、辐射量等属性组成。这些属性都属于值类型数据,将被存储到底层的关心模型中。将批量数据进行存储和索引的流程包括以下步骤:(1)将待校验的CSV格式的基准数据表和比对数据表存入HBase中,原始数据记录主键作为HBase表的主键,原始数据记录的非主键属性作为HBase表的一列,不同的列属于不同的列族,利用HBase的面向列存储(同一列族的数据统一存储)提高查询某列数据时的响应性能;(2)将校验规则校验字段的查询索引表存入HBase中,校验字段作为HBase查询索引表的主键,原始数据记录主键作为查询索引表的列名,所有主键属于同一个列族,采用这种数据模式方便对查询索引表记录的增加、删除、修改和查询;(3)将数据记录时间戳的查询索引表存入HBase中,数据记录时间戳作为HBase查询索引表的主键,原始数据记录主键作为查询索引表的列值存储。(4)将校验规则校验字段的查询索引表存入HBase中时,同时将查询索引表存入HDFS的索引文件中。引入key-value数据库HBase之后,借助其强大的键值对数据访问能力,可轻松实现地本文档来自技高网...

【技术保护点】
1.一种hadoop环境下的农业数据监控方法,包括以下步骤:(1)通过hadoop环境下存储方法对农业系统中的原始数据记录进行存储;(2)采用非主键的索引方法对校验字段进行索引,使用格网编码方式,在增量数据质量校验,或者时间窗口的细时间粒度的数据质量校验时在索引表中首先按照层级排序,从起始层级依次排列到终止层级,然后在毎一层级的记录范围内按照行列号Z值排序;(3)采用异构数据层存储Hbase对象的数据结构,并建立相应的索引信息,根据时间戳范围查询原始数据记录表;首先对Hbase对象的数据结构进行分解,然后基于Hbase对象的结构模式将任务进行分解,并与底层存储系统进行映射,由底层存储系统分别执行;(4)采用HBase对原始数据记录建立时间戳索引,以及存储数据的特征及分组信息,在检索查询任务中,确定需校验的数据范围后进行校验;(5)采用MapReduce的并行化方式完成校验规则的数据监控。

【技术特征摘要】
1.一种hadoop环境下的农业数据监控方法,包括以下步骤:(1)通过hadoop环境下存储方法对农业系统中的原始数据记录进行存储;(2)采用非主键的索引方法对校验字段进行索引,使用格网编码方式,在增量数据质量校验,或者时间窗口的细时间粒度的数据质量校验时在索引表中首先按照层级排序,从起始层级依次排列到终止层级,然后在毎一层级的记录范围内按照行列号Z值排序;(3)采用异构数据层存储Hbase对象的数据结构,并建立相应的索引信息,根据时间戳范围查询原始数据记录表;首先对Hbase对象的数据结构进行分解,然后基于Hbase对象的结构模式将任务进行分解,并与底层存储系统进行映射,由底层存储系统分别执行;(4)采用HBase对原始数据记录建立时间戳索引,以及存储数据的特征及分组信息,在检索查询任务中,确定需校验的数据范围后进行校验;(5)采用MapReduce的并行化方式完成校验规则的数据监控。2.根据权利要求1所述一种hadoop环境下的农业数据监控方法,其特征在于:所述分布存储方法为HBase的分布存储方法,采用Master/Slave架构搭建集群,包含一个Head节点、若干HRegion节点和一个Zookeeper集群,底层将数据存储在hadoop存储系统中。3.根据权利要求1所述一种hadoop环境下的农业数据监控方法,其特征在于:所述校验规则为MapReduce的并行化校验规则。4.根据权利要...

【专利技术属性】
技术研发人员:李梅汝王志鸿王文建
申请(专利权)人:尚谷科技天津有限公司李梅汝王志鸿王文建
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1