一种数据管理方法、系统、设备及介质技术方案

技术编号:26730572 阅读:24 留言:0更新日期:2020-12-15 14:31
本发明专利技术公开了一种数据管理方法、装置、设备及存储介质,其特征在于,由集成在实时流计算框架Flink上的数据管理系统执行,包括:解析从分布式消息系统中所拉取的流数据,获得各所述流数据的数据属性信息,其中,各所述流数据具备不同数据来源;采用各所述流数据属性信息匹配的存储策略,将相应的流数据通过预设的时间窗口存储至第一指定数据库中。本发明专利技术基于Flink框架解析不同来源的流数据,获得流数据的数据属性信息,根据数据属性信息存储至指定数据库中,实现了对不同来源的流数据进行指定存储、快速索引和及时流量预警。

【技术实现步骤摘要】
一种数据管理方法、系统、设备及介质
本专利技术实施例涉及信息
的数据存储技术,尤其涉及一种数据管理方法、系统、设备及介质。
技术介绍
随着网络技术发展,使得各行各业每秒产出大量连续流数据。海量数据反映了人们的日常规律,如何有效分析和处理海量流数据提取准确的流数据呈现规律和知识,将是数据信息领域重要的技术手段;但海量数据具备:数据量大、数据种类和来源多样化、增长速度快、数据准确性低、数据价值密度相对较低等特性,使得流数据呈现规律和知识的提取并非易事。现有技术中海量数据存储和索引方法中不同来源的流数据处理流程复杂、流数据处理的时效较差、也不能对海量数据处理时的流数据量进行预警。
技术实现思路
本专利技术提供了一种数据管理方法、系统、设备及介质,以实现根据不同来源数据的属性信息,对不同来源的流数据进行指定存储、快速索引和及时流量预警。第一方面,本专利技术实施例提供了一种数据管理方法,由集成在实时流计算框架Flink上的数据管理系统执行,包括:解析从分布式消息系统中所拉取的流数据,获得各所述流数据的数据属性信息,其中,各所述流数据具备不同数据来源;采用各所述流数据属性信息匹配的存储策略,将相应的流数据通过预设的时间窗口存储至第一指定数据库中。第二方面,本专利技术实施例还提供了一种数据管理系统,集成在实时流计算框架Flink上,包括:数据解析模块,用于解析从分布式消息系统中所拉取的流数据,获得各所述流数据的数据属性信息;数据存储模块,用于采用各所述流数据属性信息匹配的存储策略,将相应的流数据通过预设的时间窗口存储至第一指定数据库中;其中,各所述流数据具备不同数据来源。第三方面,本专利技术实施例还提供一种计算机设备,所述计算机设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任一所述的数据管理方法。第四方面,本专利技术实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的数据存储方法。本专利技术通过在Flink框架上进行数据管理,解析从分布式消息系统中所拉取的流数据,获得各所述流数据的数据属性信息,其中,各所述流数据具备不同数据来源;采用各所述流数据属性信息匹配的存储策略,将相应的流数据通过预设的时间窗口存储至第一指定数据库中解决海量数据存储和索引方法中不同来源的流数据处理流程复杂、流数据处理的时效较差、也不能对海量数据处理时的流数据量进行预警等问题,实现了根据不同来源数据的属性信息,对不同来源的流数据进行指定存储、快速索引和及时流量预警效果。附图说明图1是本专利技术实施例一中的一种数据管理方法的流程图;图2是本专利技术实施例一中的一种数据管理方法的实现架构示例图;图3是本专利技术实施例二中的一种数据管理系统的结构示意图;图4是本专利技术实施例三中的计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种数据管理方法的流程图,本实施例可适用于海量数据进行管理的情况,该方法可以由集成在实时流计算框架FlinkFlink上的数据管理系统执行,具体包括如下步骤:步骤S110,解析从分布式消息系统中所拉取的流数据,获得各所述流数据的数据属性信息,其中,各所述流数据具备不同数据来源;其中,流数据为连续或聚合的随时间无线增长的动态数据集合,可以是海量日志数据。其中,分布式消息系统可以处理消费规模的网站中的所有动作流数据,不仅要像分布式文件系统一样做日志数据处理和离线分析,还能对实时处理进行限制。例如,分布式消息系统kafka,通过分布式文件系统的并行加载机制来实现对线上和离线数据的处理,以提供实时的消费信息。其中,流数据的数据属性信息为流数据使用、处理、存储过程中所体现的数据特性或者数据内容的数字化信息。例如,流数据的数据属性信息可以是数据来源信息、数据索引信息、数据属性信息、数据存储信息、数据量化信息等。本专利技术实施例中,通过从分布是消息系统拉取流数据进入Flink搜索引擎,解析拉取的流数据,获得流数据的数据属性信息,相当于对流数据进行简单的分析生成流数据的数据属性信息。根据生成的流数据的数据属性信息可以进一步的对流数据的使用、处理、存储提供数据支持。需要说明的是,本专利技术是基于Flink框架的流数据处理,可以支持本地存储、集群、云等多种部署模式。Flink框架利用同一种底层技术来实现流处理和批处理,具有支持高吞吐,低延迟、高性能的流处理;支持高度灵活的窗口操作;拥有支持状态计算完备语义和强大的处理性能,简化数据处理流程,应用程序的维护变得易操作。实际上在Flink程序的基础构架模块是流与转换,每一个数据流都起始于一个或多个源,并且终止于一个或多个节点。在本专利技术实施例中,基于Flink框架进行流数据管理的过程中,同时兼备Flink框架在数据处理中技术效果这里不进行详细的描述。步骤S120,采用各所述流数据属性信息匹配的存储策略,将相应的流数据通过预设的时间窗口存储至第一指定数据库中。其中,存储策略为根据流数据属性信息制定的预设存储关系,用于根据预设存储关系将流数据进行对应存储。其中,预设的时间窗口为根据数据属性信息对预设时间间隔内的流数据预设的处理操作。例如,预设的时间窗口的处理操作可以是分类操作,也可以是数据统计操作等。其中,第一指定数据库为预设存储关系中一个存储数据库,用于存储流数据及相关信息。第一指定数据库可以是分布式数据库,例如,Hbase数据库。本专利技术实施例中,根据流数据的数据属性信息匹配该流数据所对应的存储策略,根据匹配的流数据的存储策略,对各流数据进行分组后流入预设的时间窗口。预设的时间窗口根据各流数据的组别进行对应存储,这个过程相当于对流数据进行分类整理,使得被整理后的流数据进行对应存储,为Flink搜索引擎的检索提供便利。进一步的,数据管理方法还包括:确定所述时间窗口在所对应设定时间戳下的流数据量值,并将所述流数据量值及流经时间段关联存储至第二指定数据库中。其中,时间戳为数据进入时间窗口后,时间窗口根据预设时间阈值对数据添加的信息,用于对进入时间窗口的数据进行标记。时间戳生成的方式有很多种,可以是根据预设时间阈值进行时间标记,也可以是根据数据进入时间窗口的具体时间进行标记,在这里不进行进一步的限定。其中,流数据量值为流经数据时间窗口所统计的数据流量。其中,流经时间段为预设的时间窗口处理数据的预设时间阈值,即流数据划分片段的时间节点。示例性的,当预设的时间窗口的预设时间阈值设置为5分钟,将流数据划分为5分钟片段本文档来自技高网...

【技术保护点】
1.一种数据管理方法,其特征在于,由集成在实时流计算框架Flink上的数据管理系统执行,包括:/n解析从分布式消息系统中所拉取的流数据,获得各所述流数据的数据属性信息,其中,各所述流数据具备不同数据来源;/n采用各所述流数据属性信息匹配的存储策略,将相应的流数据通过预设的时间窗口存储至第一指定数据库中。/n

【技术特征摘要】
1.一种数据管理方法,其特征在于,由集成在实时流计算框架Flink上的数据管理系统执行,包括:
解析从分布式消息系统中所拉取的流数据,获得各所述流数据的数据属性信息,其中,各所述流数据具备不同数据来源;
采用各所述流数据属性信息匹配的存储策略,将相应的流数据通过预设的时间窗口存储至第一指定数据库中。


2.根据权利要求1所述的方法,其特征在于,还包括:
确定所述时间窗口在所对应设定时间戳下的流数据量值,并将所述流数据量值及流经时间段关联存储至第二指定数据库中。


3.根据权利要求2所述的方法,其特征在于,还包括:
实时监测所述设定时间戳下的流数据量值,并当所述流数据量值大于预设流量阈值时,以设定警告形式进行流量负载预警。


4.根据权利要求1所述的方法,其特征在于,解析从分布式消息系统中所拉取的流数据,获得各所述流数据的数据属性信息,包括:
从预设的元数据规则集中确定匹配各所述流数据的目标元数据规则,并采用各所述目标元数据规则处理相应的流数据,获得各所述流数据属性信息。


5.根据权利要求4所述的方法,其特征在于,还包括:
根据各所述流数据的数据属性信息以及相应的目标元数据规则,对存储至所述第一指定数据库的各流数据在指定索引库中建立全文索引。


6.根据权利要求5所述的方法,其特征在于,还包括:

【专利技术属性】
技术研发人员:丁宝存谢永恒万月亮
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1