基于可视化的流计算平台、方法、设备和存储介质技术

技术编号:23557708 阅读:51 留言:0更新日期:2020-03-25 03:27
本发明专利技术实施例公开了一种基于可视化的流计算平台、方法、设备和存储介质。其中,该流计算平台包括:数据开发组件、流计算组件以及智能调度组件;其中,所述数据开发组件用于通过流计算中的拖拽算子可视化开发对应的流计算应用,并确定所述流计算应用对应的流计算引擎;所述流计算组件用于解析所述流计算应用中携带的调度参数,并调用所述流计算引擎执行所述流计算应用;所述智能调度组件用于根据所述调度参数调度所述流计算应用的执行。本发明专利技术实施例提供的技术方案,无需仅由深入了解流计算应用技术的开发人员来实现,提高了流计算平台的应用范围,支持不同流计算引擎的可扩展性,提高流计算开发的灵活性。

Visualization based flow computing platform, methods, devices and storage media

【技术实现步骤摘要】
基于可视化的流计算平台、方法、设备和存储介质
本专利技术实施例涉及数据处理领域,尤其涉及一种基于可视化的流计算平台、方法、设备和存储介质。
技术介绍
在传统的数据处理流程中,通常是将所收集到的数据统一存储到数据库中,当用户需要时对数据库进行数据查询得到结果,或者进行相关的数据处理。随着网页应用、网络监控以及传感检测等领域的兴起,产生了一种新的数据密集型应用:流数据,即数据以大量、快速、时变的流式持续产生。传统的数据处理方式,如MapReduce方式的离线处理并不能很好的处理这些流式数据,于是产生了一种新的数据处理方式:流计算,可以实时获取来自不同数据源的海量数据,经过实时分析处理,获取有价值的信息。流计算秉承着数据的价值随着时间流逝而降低的基本理念,例如淘宝双11的实时交易额等,因此当时间出现时就应该立即进行处理,而不是缓存起来进行批量处理。为了及时处理流数据,就需要一个低延迟、可扩展、高可靠的流式数据处理引擎。现有的流计算引擎主要有商业级的InfoSphereStreams和StreamBase以及开源版本的TwitterStorm、SparkStreaming和Flink,用的比较广泛的是SparkStreaming和Flink引擎。其中,SparkStreaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力,支持从多种数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理,最后将处理结果保存到文件系统、数据库或者展示在仪表盘上。SparkStreaming的内部机制是:接收实时的流数据,并根据一定的时间间隔拆分成一批批的数据,封装成一个个弹性分布式数据集(ResilientDistributedDatasets,RDD),然后通过流计算引擎处理这些数据,最后得到处理后的一批批结果。这种微批的处理方式使得它可以同时兼容批量和实时数据处理的逻辑和算法,方便用于历史数据和实时数据联合分析的特定应用场景。Flink是一个用于对无边界和有边界数据流进行有状态计算的框架和分布式处理引擎,支持流处理与批处理两种类型应用。Flink是完全支持流处理,它把流处理中的输入数据流定义为无界的,批处理被看成一种特殊的流处理,将它的输入数据流定义为有界的。Flink在出现无序或者延迟加载的数据情况下也可以提供准确的结果,而且它是状态化容错的,在维护一次完整的应用转态势,能无缝修复错误,有很好的吞吐量和低延迟。SparkStreaming与Flink都是通用的开源大规模流数据处理引擎,目前是在一个系统支持所有的数据处理以带来效能的提升,都有成熟的生态系统,但两套引擎都需要有资深的程序员才能参与开发,而且目前的流计算产品通常采用全托管的方式进行流计算,不支持多种复杂应用的处理接口,使得流计算开发的灵活性较低,无法满足不同应用对流计算引擎的需求。
技术实现思路
本专利技术实施例提供了一种基于可视化的流计算平台、方法、设备和存储介质,提高流计算开发的灵活性,支持流计算引擎的可扩展性。第一方面,本专利技术实施例提供了一种基于可视化的流计算平台,该平台包括:数据开发组件、流计算组件以及智能调度组件;其中,所述数据开发组件用于通过流计算中的拖拽算子可视化开发对应的流计算应用,并确定所述流计算应用对应的流计算引擎;所述流计算组件用于解析所述流计算应用中携带的调度参数,并调用所述流计算引擎执行所述流计算应用;所述智能调度组件用于根据所述调度参数调度所述流计算应用的执行。第二方面,本专利技术实施例提供了一种流数据处理方法,该方法包括:实时获取通过流计算中的拖拽算子可视化开发的流计算应用对应的流数据,并确定对应的流计算引擎;根据所述流计算应用中携带的调度参数,调用所述流计算引擎按照所述拖拽算子中的处理算子调度处理所述流数据。第三方面,本专利技术实施例提供了一种设备,该设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例中所述的流数据处理方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例所述的流数据处理方法。本专利技术实施例提供了一种基于可视化的流计算平台、方法、设备和存储介质,通过流计算中的拖拽算子可视化开发对应的流计算应用,无需仅由深入了解流计算应用技术的开发人员来实现,提高了流计算平台的应用范围,并确定相应的流计算引擎,从而根据该流计算应用中携带的调度参数,调用对应的流计算引擎调度执行各个流计算应用,支持不同流计算引擎的可扩展性,提高流计算开发的灵活性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1A为本专利技术实施例一提供的一种基于可视化的流计算平台的原理架构图;图1B为本专利技术实施例一提供的另一种基于可视化的流计算平台的原理架构图;图2为本专利技术实施例二提供的一种基于可视化的流计算平台的原理架构图;图3为本专利技术实施例三提供的一种流数据处理方法的流程图;图4为本专利技术实施例四提供的一种设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。此外,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。实施例一图1A为本专利技术实施例一提供的一种基于可视化的流计算平台的原理架构图,本实施例可适用于对流数据进行实时处理的情况中。参照图1A,本实施例中流计算平台10可以包括:数据开发组件110、流计算组件120以及智能调度组件130。其中,数据开发组件110用于通过流计算中的拖拽算子可视化开发对应的流计算应用,并确定流计算应用对应的流计算引擎;流计算组件120用于解析流计算应用中携带的调度参数,并调用流计算引擎执行流计算应用;智能调度组件130用于根据调度参数调度流计算应用的执行。具体的,数据开发组件110中预先配置有流计算下包含的多种流处理功能对应的算子,支持开发人员在可视化界面中采用拖拽算子的方式主动选择相应的流处理功能,此时由于可视化界面中各个算子的处理功能是预先设定好的,无需开发人员深入了解流计算的深层技术,因此对开发人员具备的技术要求较低,满足不同用户对流计算平台提供技术能力的需求,提高了流计算平台的应用范围;此外,本实施例的数据开发组件110中还支持开发人员新增加额外的算子,并自定义该新增算子对应的流处理功能,从而保证流计算中算子开发的可扩展性。进一步的,数据开发组件110根据开发人员在可视化界面中的拖拽算子开发出本文档来自技高网
...

【技术保护点】
1.一种基于可视化的流计算平台,其特征在于,包括:数据开发组件、流计算组件以及智能调度组件;其中,/n所述数据开发组件用于通过流计算中的拖拽算子可视化开发对应的流计算应用,并确定所述流计算应用对应的流计算引擎;/n所述流计算组件用于解析所述流计算应用中携带的调度参数,并调用所述流计算引擎执行所述流计算应用;/n所述智能调度组件用于根据所述调度参数调度所述流计算应用的执行。/n

【技术特征摘要】
1.一种基于可视化的流计算平台,其特征在于,包括:数据开发组件、流计算组件以及智能调度组件;其中,
所述数据开发组件用于通过流计算中的拖拽算子可视化开发对应的流计算应用,并确定所述流计算应用对应的流计算引擎;
所述流计算组件用于解析所述流计算应用中携带的调度参数,并调用所述流计算引擎执行所述流计算应用;
所述智能调度组件用于根据所述调度参数调度所述流计算应用的执行。


2.根据权利要求1所述的流计算平台,其特征在于,所述数据开发组件上包括流式架构模块、流计算开发模块和流式服务模块;其中,
所述流式架构模块用于通过流计算中的拖拽算子将所述流计算应用转换为所述流计算引擎的原生接口所支持的格式;
所述流计算开发模块提供所述流计算应用的作业类型,用于根据所述流式架构模块中的拖拽算子开发不同作业类型下的流计算应用;
所述流式服务模块提供所述流计算应用在执行过程中的作业接口,用于负责所述流计算应用的生命周期管理。


3.根据权利要求2所述的流计算平台,其特征在于,所述流式架构模块包括数据源单元、流处理单元和存储单元;其中,
所述数据源单元用于从至少一个数据源获取所述流计算应用对应的流数据;
所述流处理单元用于根据所述拖拽算子中对应的处理算子对所述流数据进行计算,得到相应的流计算结果;
所述存储单元用于通过至少一个外部存储系统存储所述流计算结果。


4.根据权利要求1所述的流计算平台,其特征在于,所述流计算组件包括流式插件,用于对接所述数据开发组件和所述智能调度组件,在所述智能调度组件根据所述调度参数的调度下,调用所述流计算引擎执行所述流计算应用,并通知所述数据开发组件记录所述流计算应用的作业信息。

...

【专利技术属性】
技术研发人员:彭海平唐景峰苏毓仁林华邦陈铭新李晓敦赵世辉
申请(专利权)人:中国建设银行股份有限公司建信金融科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1