一种基于分布式存储的数据动态处理方法技术

技术编号:25479380 阅读:107 留言:0更新日期:2020-09-01 23:00
本发明专利技术公开了一种基于分布式存储的数据动态处理方法,系统架构包括边缘数据采集层,数据分析层、交互层。包括步骤:1、响应搜索请求;2、拆分搜索请求;3、搜索请求处理;4、生成数据请求;5、数据初级搜索;6、数据转发;7、解析索引;8、搜索分析引擎处理数据;9、分片搜索分析结果汇总;10、交互层可视化展现。本发明专利技术在数据处理过程中引入了根据分片规则生成数据请求、创建数据转发实例实现数据从边缘收集节点到分析节点的动态转发、动态装载解析索引引擎的方法,解决了即可支持动态搜索又可以消除由于中央存储带来的数据容量的壁垒的难点,为大数据分析提供了一种可靠的数据处理里方法。

【技术实现步骤摘要】
一种基于分布式存储的数据动态处理方法
本专利技术涉及存储数据
,尤其涉及一种基于分布式存储的数据动态处理方法。
技术介绍
随着大数据时代和5G的时代到来,基于时序数据的分析平台越来越多地被利用在社会生产的各个领域。随着5G的数据传输技术带来的变革,越来越多的信息数据被纳入到数据处理范畴中,从而使得大数据数据分析领域所涵盖的数据体量、数据种类都变得越来越大。由于需要去分析多种类大体量数据之间的潜在关系,数据的针对性壁垒被一再地降低。现有的数据平台在数据种类的支持上已经上升到了一个新的高度。目前市面上的多种数据处理平台都具有多种类数据接入功能,支持的数据源种类多样,几乎涵盖了各个领域,各个设备所产生的的数据。这些数据不乏来自于传感器设备通过特有的网络协议进行传输的机器数据,也有存在于数据库中已经格式规范好的应用数据,更有类似于视频音频等流数据。而这些种类繁复,传输渠道多样的数据都被现有市面上的数据平台悉数囊括。但新的问题也随之而出,随着数据种类增多,数据体量也出现了激增。就以流数据为例,如果我们将视频,音频等数据都加以统计,一个中小型企业的日增数据量就会达到TB级,而对于一个大型集团企业,日增数据有可能将会接近PB级。而这几点往往也是现有市面上的数据处理平台的最大痛点。目前市面上的数据处理平台大致可以分为两类,一类针对多种类数据并且提供动态搜索分析的数据处理平台。此类数据平台以ELK,SPLUNK,日志易等作为典型代表,其特点基本如下:1.支持数据种类广泛;2.都提供了强大的搜索引擎支持特定搜索语言的数据搜素。3.具有数据索引功能,数据搜索速度快;但是其劣势也很显而易见,尽管该类数据处理平台均支持分布式架构部署,但数据分析节点由于索引器的关系,使得数据都需要存放在中央数据存储中。尽管用户可以通过扩容存储设备来达到一个相对较高的存储容量,但面对日增数据在TB级的增量而言,存储需求基本都是无法满足的。因此现有的此类数据分析平台往往选择地即是在数据源接入时进行有针对性的数据筛选,从而降低数据分析所需要的存储需求。但数据筛选却一定程度上制约了数据分析的价值。而另一类数据分析平台或者称之为数据分析架构往往是基于分布式文件系统进行搭建的,其中较有代表性的例如基于HDFS的Hadoop平台。这类数据平台其利用了分布式存储的特点,将数据存放在了各个分布式分析节点中,并不设有中央存储。但是此类平台由于缺乏索引机制,因此在应对用户提出的动态搜索需求时就变得不太容易满足。此类平台的特点是支持的数据体量大,但无法支持数据的动态处理。所有数据检索和数据分析需要基于特定的程序开发进行满足,并且对于分析过程中的中间态数据进行二次利用的可能性也较低。但是对于临时性的数据分析该类平台无法在短时间内满足客户使用的需要。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于分布式存储的数据动态处理方法。本专利技术通过以下技术方案来实现上述目的:本专利技术由边缘采集层、数据分析层、交互层构成;所述边缘采集层是由边缘采集节点组成的分布式数据采集集群,每一个边缘采集节点承担两个功能角色:数据采集、数据管理,主要进行原始数据的收集、存储、与转发的工作;所述数据分析层由若干数据分析节点组成的数据分析集群,每一个数据分析节点拥有:响应数据搜索请求、执行数据分析搜索、生成数据转发请求、数据解析索引等功能,分析层拥有一部分的缓存存储,缓存存储主要用于存储平台短时间内经解析索引器生成的加工数据,供后续分析搜索快速使用;交互层主要为用户提拱UI操作界面,并传达用户搜索请求,交互层主要由Portal和可供用户交互的各类APP组成。所述数据采集:每一个边缘采集节点支持多种类的数据采集,支持各类数据源经特定的数据传输渠道接入数据采集节点。数据采集节点提供与数据渠道适配的数据采集方法对各类数据进行采集。所述数据管理:每一个边缘采集节点对采集而得的数据进行存储管理与转发管理,当数据经采集渠道采集后由边缘采集节点对数据进行存储管理,即使用分布式架构对采集而来的数据进行存储,供后续分析使用,存储过程中,根据数据采集的时间序列进行切片存储,为后续数据初步检索提供服务,区别于传统的分布式数据管理体系,数据采集节点不承担数据分析功能,仅承担数据初步检索与数据向分析节点转发的功能。数据初步检索是一种基于存储规范的初级检索,其检索维度仅限于数据存储切片规则,即数据类别、数据来源、数据采集时间组成的维度。初级检索的对象数据的范围而不是数据的内容,初级检索的目的仅仅是缩小数据转发的体量,数据转发是指边缘采集节点响应分析节点的数据请求,对一定时间段内特定的数据类别、数据来源的数据从已被管理的数据中通过初级检索筛选出来并向分析节点转发的功能,边缘采集节点往往部署在数据宿主设备或与数据宿主设备同网段的采集服务器上,一个边缘采集节点可以支持一个或者多个数据采集管理工作,通过平行扩展边缘采集节点的数量从而形成数据采集层,通过每个边缘采集节点对数据的管理功能来实现数据处理平台的数据存储池。响应数据搜索请求:分析层响应前端UI界面发送来的数据搜索请求,并且将数据搜索根据数据管理的切片规则进行细化拆分,将搜索分析请求拆分成若干份相互不影响的并行分析搜索请求。执行数据分析搜索:在搜索拆分完后分析节点优先对缓存存储中的索引结构体执行搜索;对于不命中缓存的数据,数据节点将会把搜索请求做进一步的转化。当请求的数据经边缘采集节点转发并解析索引完成后进行搜索分析。生成数据转发请求:对于不命中的搜索请求转化成向边缘采集节点索取数据的数据请求,并转发至边缘采集节点等待数据反馈。数据解析索引:边缘采集节点在收集到数据请求后会针对每一个数据请求,建立数据转发实例,分析节点会根据数据转发实例动态加载独立的数据解析索引引擎,从而实现分片数据的并发解析和索引,索引的结果会进一步同步到二级索引器中将解析索引的输出进行整合,最终将索引后的数据以数据分片单元以最近使用频次原则的方式存放至缓存存储中,与此同时解析索引完成后的数据也会直接由分析搜索进行处理,防止缓存存储中的数据由于容量问题导致发起二次数据请求的可能。本专利技术的有益效果在于:本专利技术是一种基于分布式存储的数据动态处理方法,与现有技术相比,本专利技术在数据处理过程中引入了根据分片规则生成数据请求、创建数据转发实例实现数据从边缘收集节点到分析节点的动态转发、动态装载解析索引引擎的方法,解决了即可支持动态搜索又可以消除由于中央存储带来的数据容量的壁垒的难点,为大数据分析提供了一种可靠的数据处理里方法附图说明图1是本专利技术的平台部署架构图;图2是本专利技术的数据搜索请求数据流程图;图3是本专利技术的数据分析搜索流程图。具体实施方式下面结合附图对本专利技术作进一步说明:如图1-3所示:一种拥有基于分布式存储,能够支持TB乃至PB级的数据容量,但又拥有灵活的快速搜索能力,并且对于数据处理中间态的数据可以重复利用的数据处理方法,有以下三部本文档来自技高网
...

【技术保护点】
1.一种基于分布式存储的数据动态处理方法,其特征在于:由边缘采集层、数据分析层、交互层构成;/n所述边缘采集层是由边缘采集节点组成的分布式数据采集集群,每一个边缘采集节点承担两个功能角色:数据采集、数据管理,主要进行原始数据的收集、存储、与转发的工作;/n所述数据分析层由若干数据分析节点组成的数据分析集群,每一个数据分析节点拥有:响应数据搜索请求、执行数据分析搜索、生成数据转发请求、数据解析索引等功能,分析层拥有一部分的缓存存储,缓存存储主要用于存储平台短时间内经解析索引器生成的加工数据,供后续分析搜索快速使用;/n交互层主要为用户提拱UI操作界面,并传达用户搜索请求,交互层主要由Portal和可供用户交互的各类APP组成。/n

【技术特征摘要】
1.一种基于分布式存储的数据动态处理方法,其特征在于:由边缘采集层、数据分析层、交互层构成;
所述边缘采集层是由边缘采集节点组成的分布式数据采集集群,每一个边缘采集节点承担两个功能角色:数据采集、数据管理,主要进行原始数据的收集、存储、与转发的工作;
所述数据分析层由若干数据分析节点组成的数据分析集群,每一个数据分析节点拥有:响应数据搜索请求、执行数据分析搜索、生成数据转发请求、数据解析索引等功能,分析层拥有一部分的缓存存储,缓存存储主要用于存储平台短时间内经解析索引器生成的加工数据,供后续分析搜索快速使用;
交互层主要为用户提拱UI操作界面,并传达用户搜索请求,交互层主要由Portal和可供用户交互的各类APP组成。


2.根据权利要求1所述的基于分布式存储的数据动态处理方法,其特征在于:所述数据采集:每一个边缘采集节点支持多种类的数据采集,支持各类数据源经特定的数据传输渠道接入数据采集节点。数据采集节点提供与数据渠道适配的数据采集方法对各类数据进行采集。


3.根据权利要求1所述的基于分布式存储的数据动态处理方法,其特征在于:所述数据管理:每一个边缘采集节点对采集而得的数据进行存储管理与转发管理,当数据经采集渠道采集后由边缘采集节点对数据进行存储管理,即使用分布式架构对采集而来的数据进行存储,供后续分析使用,存储过程中,根据数据采集的时间序列进行切片存储,为后续数据初步检索提供服务,区别于传统的分布式数据管理体系,数据采集节点不承担数据分析功能,仅承担数据初步检索与数据向分析节点转发的功能。数据初步检索是一种基于存储规范的初级检索,其检索维度仅限于数据存储切片规则,即数据类别、数据来源、数据采集时间组成的维度。初级检索的对象数据的范围而不是数据的内容,初级检索的目的仅仅是缩小数据转发的体量,数据转发是指边缘采集节点响应分析节点的数据请求,对一定...

【专利技术属性】
技术研发人员:沈慧
申请(专利权)人:上海鼎茂信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1