一种基于单项数据流的云原生数据API构建方法技术

技术编号:33711623 阅读:56 留言:0更新日期:2022-06-06 08:45
本发明专利技术涉及网络技术领域,尤其为一种基于单项数据流的云原生数据AP I构建方法,包括以下步骤:10:多源异构数据交换框架搭建;20:流批一体数据加工框架搭建;30:采用Apache Hud i数据湖进行数据存储;40:基于FaaS平台的AP I搭建;50:基于Presto平台进行数据查询,本发明专利技术通过采用Apache Hud i数据湖存储和基于MPP架构的OLAP查询引擎,可以应对大多数数据查询请求,相对于目前多数使用的Restfu l接口而言,能够有效满足各种用户的数据需求,并且AP I基于FaaS平台搭建,能够有效解决AP I异常导致服务崩溃时所有数据AP I均无法使用且无法做到故障隔离的问题。故障隔离的问题。故障隔离的问题。

【技术实现步骤摘要】
一种基于单项数据流的云原生数据API构建方法


[0001]本专利技术涉及网络
,具体为一种基于单项数据流的云原生数据API构建方法。

技术介绍

[0002]在数据分析利用的过程中,数据本身、基于数据的分析模型、基于数据本身和分析模型的数据应用都有开放共享的巨大价值。传统的数据开放共享手段是数据导出,例如导出到本地磁盘、FTP服务器、分布式文件系统等。这种方式适合临时的、大量数据的交换场景,但平台会失去导出数据的任何信息收集能力,不能做到对数据使用者的信息收集与审计,也不能做到模型和数据应用的导出,极大限制了数据服务的功能边界。于是在打造应用生态的场景中,接口,尤其是Restful接口成为了更流行的服务提供形式,数据、模型、应用均可通过Restful接口开放,用户调用接口时平台也能采集到调用者基本信息,方便进行权限管理和流量并发控制,从而提供更好更稳定的数据服务。
[0003]但目前很多厂商的Restful接口提供是需要客户提前明确需求,而后研发力量投入,直接在平台交付时完成的,这种方式显然不够灵活,投入也大。针对数据API,某些开源技术以及平台厂商可以实现声明式的数据API订制功能,使得用户可以定义数据需求,平台即可以API的形式提供数据开放服务。但当前大部分这种技术均是使用一套服务运营所有接口,无法细粒度地针对每个接口动态调整资源,而且某些API异常导致服务崩溃时,所有数据API均无法使用,无法做到故障隔离。
[0004]因此需要一种基于单项数据流的云原生数据API构建方法对上述问题做出改善。

技术实现思路

[0005]本专利技术的目的在于提供一种基于单项数据流的云原生数据API构建方法,以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]一种基于单项数据流的云原生数据API构建方法,包括以下步骤:
[0008]10:多源异构数据交换框架搭建
[0009]20:流批一体数据加工框架搭建;
[0010]30:采用ApacheHudi数据湖进行数据存储;
[0011]40:基于FaaS平台的API搭建;
[0012]50:基于Presto平台进行数据查询。
[0013]作为本专利技术优选的方案,所述步骤30还可采用Alluxio存储系统以降低I/O开销。
[0014]作为本专利技术优选的方案,所述步骤10包括以下步骤:
[0015]101:数据源抽象,对JDBC、文件系统、消息队列等通用数据源的读取和写入,提供开发框架与集成方法,方便用户自行开发其他数据源驱动:
[0016]102:交换行为抽象:针对每个数据源,抽象出交换任务运行时间策略、新旧数据写
入策略、脏数据过滤策略、任务运行配置等自定义行为,不同数据源可根据其底层技术支撑情况自行实现;
[0017]103:外部元数据导入:若数据源侧存储了导入数据的元数据,例如字段备注、主外键关系等,则提供开发框架实现这些元数据的导入功能;
[0018]104:支持页面化的采集数据源管理、任务监控告警、采集数据编目、数据集关系管理功能,支持使用低代码开发框架扩展管理控制台的功能。
[0019]作为本专利技术优选的方案,所述步骤20的具体步骤包括以下:
[0020]201:流批一体数据加工任务构建;
[0021]202:加工任务调度;
[0022]203:加工数据分层管理;
[0023]204:UDF管理,将用户自行编写的UDF数据处理函数上传至平台,以备加工任务调用。
[0024]作为本专利技术优选的方案,所述步骤201支持通过SQL语言、Spark程序、Flink程序进行数据加工,在底层框架支持的情况下,同一种加工任务代码可以在流和批两种运行方式中切换,所述步骤202还支持定时调度、依赖调度、调度任务上线下线功能,形成加工任务工作流,同时支持超出时间预警告警功能。
[0025]作为本专利技术优选的方案,所述步骤40包括以下步骤:
[0026]401:基于FaaS的数据开放接口引擎,基于FaaS技术的数据即席查询接口引擎,每个即席查询服务对应一个容器集群,并提供统一的接口访问、负载均衡和故障隔离;
[0027]402:数据推送服务,将数据以消息队列的形式推送给用户;
[0028]403:数据脱敏管理,针对数据服务调用者具有的权限,配置数据对象在数据服务中的脱敏规则,当前除了身份证号、手机号等常见字段脱敏方式外,提供字符填充式的脱敏方式;
[0029]404:基于SLA的存储调度。
[0030]所述步骤404对于不同的数据存储与查询框架可以提供的API的SLA不同,该框架可提供不同类型的数据存储,分别对应不同SLA类型的数据API,同时根据现有数据API调用情况和数据集成速度预测新数据API SLA是否可以满足,进而扩容缩容底层存储。
[0031]与现有技术相比,本专利技术的有益效果是:
[0032]本专利技术通过采用最全能的数据存储和查询方式(Apache Hudi数据湖+Presto基于MPP架构的OLAP查询引擎),必要时可使用Alluxio降低I/O开销,可以应对大多数数据查询请求,相对于目前多数使用的Restful接口而言,能够有效满足各种用户的数据需求,并且API基于FaaS平台搭建,能够有效解决API异常导致服务崩溃时所有数据API均无法使用且无法做到故障隔离的问题。
附图说明
[0033]图1为本专利技术API构建的流程框图;
[0034]图2为本专利技术多源异构数据交换框架搭建流程框图;
[0035]图3为本专利技术流批一体数据加工框架搭建流程框图;
[0036]图4为本专利技术基于FaaS平台的API搭建流程框图。
具体实施方式
[0037]下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]为了便于理解本专利技术,下面将参照相关对本专利技术进行更全面的描述。给出了本专利技术的若干实施例。但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。
[0039]需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
[0040]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于单项数据流的云原生数据API构建方法,包括以下步骤:10:多源异构数据交换框架搭建;20:流批一体数据加工框架搭建;30:采用Apache Hudi数据湖进行数据存储;40:基于FaaS平台的API搭建;50:基于Presto平台进行数据查询。2.根据权利要求1所述的一种基于单项数据流的云原生数据API构建方法,其特征在于:所述步骤30还可采用Alluxio存储系统以降低I/O开销。3.根据权利要求1所述的一种基于单项数据流的云原生数据API构建方法,其特征在于:所述步骤10包括以下步骤:101:数据源抽象,对JDBC、文件系统、消息队列等通用数据源的读取和写入,提供开发框架与集成方法,方便用户自行开发其他数据源驱动:102:交换行为抽象:针对每个数据源,抽象出交换任务运行时间策略、新旧数据写入策略、脏数据过滤策略、任务运行配置等自定义行为,不同数据源可根据其底层技术支撑情况自行实现;103:外部元数据导入:若数据源侧存储了导入数据的元数据,例如字段备注、主外键关系等,则提供开发框架实现这些元数据的导入功能;104:支持页面化的采集数据源管理、任务监控告警、采集数据编目、数据集关系管理功能,支持使用低代码开发框架扩展管理控制台的功能。4.根据权利要求1所述的一种基于单项数据流的云原生数据API构建方法,其特征在于:所述步骤20的具体步骤包括以下:201:流批一体数据加工任务构建;202:加工任务调度;203:加工数据分层管理;204:UDF管理...

【专利技术属性】
技术研发人员:郭晨
申请(专利权)人:江苏逸思长天数字智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1