流式数据处理方法、系统、计算机设备和可读存储介质技术方案

技术编号:30441148 阅读:24 留言:0更新日期:2021-10-24 18:28
本申请涉及一种流式数据处理方法、系统、计算机设备和可读存储介质,其中,该流式数据处理方法包括:流式数据接入步骤,基于流计算组件接入流处理平台中的流式数据;流式数据解析步骤,配置数据读取配置文件并根据数据读取配置文件解析该流式数据得到目标数据;其中,所述数据读取配置文件中至少包括:字段名、字段值、解析配置及Join配置。通过本申请,基于数据读取配置文件实现灵活的流式数据解析,提供给用户一种通过配置数据读取配置文件准确灵活的得到所需目标数据的解决方案。活的得到所需目标数据的解决方案。活的得到所需目标数据的解决方案。

【技术实现步骤摘要】
流式数据处理方法、系统、计算机设备和可读存储介质


[0001]本申请涉及互联网
,特别是涉及流式数据处理方法、系统、计算机设备和计算机可读存储介质。

技术介绍

[0002]大数据处理系统可分为批式(batch)大数据和流式(streaming)大数据两类。其中,批式大数据又被称为历史大数据,流式大数据又被称为实时大数据。流数据是连续的、没有边界的、快速的、随时间不断变化的系列数据项(如为结构化数据就是元组,如图片文档也可以构成流数据),随着技术的发展,流式数据的处理就变得越来越重要。
[0003]目前主流的流式数据处理技术以Spark Streaming、Storm、Flink为代表,但是现有的流式数据接入系统接入的数据并不是我们最终需要的有价值的数据,如何准确灵活得到实际需要的有价值的数据,尚未提出有效的解决方案。

技术实现思路

[0004]本申请实施例提供了一种流式数据处理方法、系统、计算机设备和计算机可读存储介质,基于数据读取配置文件实现灵活的流式数据解析,提供给用户一种通过配置数据读取配置文件准确灵活的得到所需目标数据的解决方案。
[0005]第一方面,本申请实施例提供了一种流式数据处理方法,包括:
[0006]流式数据接入步骤,基于流计算组件接入流处理平台中的流式数据;所述流计算组件具体为Spark Streaming。
[0007]流式数据解析步骤,配置数据读取配置文件并根据数据读取配置文件解析所述流式数据得到目标数据;
[0008]其中,所述数据读取配置文件中至少包括:字段名、字段值、解析配置及Join配置。
[0009]基于上述步骤,本申请实施例实现根据用户的需求完成对数据流的读取进行配置,并基于数据读取配置文件实现对数据进行解析。本申请实施例基于数据读取配置文件支持对流式数据进行Join连接并基于数据读取配置文件支持数据治理。
[0010]在其中一些实施例中,该方法还包括:
[0011]流式数据连接步骤,根据一目标数据库的主表及所述Join配置进行数据Join并输出。
[0012]基于上述步骤,本申请实施例根据Join配置的流式数据Join连接,提出一种新的流式数据Join方法,实现根据需求抽取字段而非粗略的加载所有数据进行Join,提高数据Join的灵活性。
[0013]在其中一些实施例中,所述解析配置中包括数据字段、下沉字段、二级数据字段、表名、二级下沉字段、下值替换字段、常量赋值字段、删除字段其一或其任意组合,
[0014]所述流式数据解析步骤进一步包括:
[0015]目标数据判断步骤,联用所述字段名和字段值判断并查找所有与所述字段名和字
段值的配置相同的数据,得到所述目标数据;
[0016]目标数据解析步骤,根据所述解析配置对所述目标数据进行数据解析及治理。
[0017]基于上述步骤,实现了数据解析过程中,基于下值替换字段、常量赋值字段及删除字段等实现对原数据字段的修改、保留或删除等操作,在后续数据处理过程中无需通过SQL治理数据,既进一步提高了数据解析的灵活性,又减少了后续数据处理过程中的数据治理成本。
[0018]在其中一些实施例中,所述Join配置中包括Join字段、码表、码表主键字段、码表值字段、重命名字段其一或其任意组合。
[0019]基于上述配置,实现对数据进行Join连接并支持对数据字段进行重命名,实现了灵活的数据治理。
[0020]第二方面,本申请实施例提供了一种流式数据处理系统,包括:
[0021]流式数据接入模块,用于基于流计算组件接入流处理平台中的流式数据;所述流计算组件具体为Spark Streaming。
[0022]流式数据解析模块,用于配置数据读取配置文件并根据数据读取配置文件解析所述流式数据得到目标数据;
[0023]其中,所述数据读取配置文件中至少包括:字段名、字段值、解析配置及Join配置。
[0024]基于上述模块,本申请实施例实现根据用户的需求完成对数据流的读取进行配置,并基于数据读取配置文件实现对数据进行解析。本申请实施例基于数据读取配置文件支持对流式数据进行Join连接并基于数据读取配置文件支持数据治理。
[0025]在其中一些实施例中,该系统还包括:
[0026]流式数据连接模块,用于根据一目标数据库的主表及所述Join配置进行数据Join并输出。
[0027]基于上述模块,本申请实施例根据Join配置的流式数据Join连接,提出一种新的流式数据Join方法,实现根据需求抽取字段而非粗略的加载所有数据进行Join,提高数据Join的灵活性。
[0028]在其中一些实施例中,所述解析配置中包括数据字段、下沉字段、二级数据字段、表名、二级下沉字段、下值替换字段、常量赋值字段、删除字段其一或其任意组合,
[0029]所述流式数据解析模块进一步包括:
[0030]目标数据判断模块,用于联用所述字段名和字段值判断并查找所有与所述字段名和字段值的配置相同的数据,得到所述目标数据;
[0031]目标数据解析模块,用于根据所述解析配置对所述目标数据进行数据解析及治理。
[0032]基于上述模块,实现了数据解析过程中基于下值替换字段、常量赋值字段及删除字段等实现对原数据字段的修改、保留或删除等操作,在后续数据处理过程中无需通过SQL治理数据,既进一步提高了数据解析的灵活性,又减少了后续数据处理过程中的数据治理成本。
[0033]在其中一些实施例中,所述Join配置中包括Join字段、码表、码表主键字段、码表值字段、重命名字段其一或其任意组合。
[0034]基于上述配置,实现对数据进行Join连接并支持对数据字段进行重命名,实现了
灵活的数据治理。
[0035]第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的流式数据处理方法。
[0036]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的流式数据处理方法。
[0037]相比于相关技术,本申请实施例提供的流式数据处理方法、系统、计算机设备和计算机可读存储介质,尤其涉及一种数据能力基础,具体应用于数据清洗,基于数据读取配置文件的灵活配置实现对流式数据的解析处理,支持对流式数据的Join连接,还支持对原数据字段进行修改、保留或删除及重命名等操作,既实现数据解析又实现数据治理,灵活方便,降低整体数据处理成本。
[0038]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0039]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种流式数据处理方法,其特征在于,包括:流式数据接入步骤,基于流计算组件接入流处理平台中的流式数据;流式数据解析步骤,配置数据读取配置文件并根据数据读取配置文件解析所述流式数据得到目标数据;其中,所述数据读取配置文件中至少包括:字段名、字段值、解析配置及Join配置。2.根据权利要求1所述的流式数据处理方法,其特征在于,还包括:流式数据连接步骤,根据一目标数据库的主表及所述Join配置进行数据Join并输出。3.根据权利要求2所述的流式数据处理方法,其特征在于,所述解析配置中包括数据字段、下沉字段、二级数据字段、表名、二级下沉字段、下值替换字段、常量赋值字段、删除字段其一或其任意组合,所述流式数据解析步骤进一步包括:目标数据判断步骤,联用所述字段名和字段值判断并查找所有与所述字段名和字段值的配置相同的数据,得到所述目标数据;目标数据解析步骤,根据所述解析配置对所述目标数据进行数据解析及治理。4.根据权利要求2或3所述的流式数据处理方法,其特征在于,所述Join配置中包括Join字段、码表、码表主键字段、码表值字段、重命名字段其一或其任意组合。5.一种流式数据处理系统,其特征在于,包括:流式数据接入模块,用于基于流计算组件接入流处理平台中的流式数据;流式数据解析模块,用于配置数据读取配置文件并根据数据读取配置文件解析所述...

【专利技术属性】
技术研发人员:汪月
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1