基于NiFi的数据处理方法和装置制造方法及图纸

技术编号:24455825 阅读:25 留言:0更新日期:2020-06-10 15:31
本发明专利技术提供了基于NiFi的数据处理方法和装置,包括:预先部署NiFi组件,并设置用于数据清洗的清洗组件和用于数据转换的转换组件,还包括:将清洗组件和转换组件嵌入在NiFi组件中;利用嵌入后的NiFi组件执行:采集数据源中的待处理数据;调用清洗组件和转换组件对待处理数据进行处理,得到处理后的数据;将处理后的数据存储到数据仓库中。本方案能够去除杂乱的数据。

Data processing method and device based on nifi

【技术实现步骤摘要】
基于NiFi的数据处理方法和装置
本专利技术涉及计算机
,特别涉及基于NiFi的数据处理方法和装置。
技术介绍
随着科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据逐渐成为高科技时代的产物。大数据是如此重要,以至于其数据采集、储存、搜索、共享、分析,乃至可视化地呈现,都成为了当前重要的研究课题。目前,数据仓库中存储的数据通常是面向某一主题的数据的集合,而这些数据通常从多个业务系统中抽取而来,并且通常包含历史数据。这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,从而不利于数据分析。
技术实现思路
本专利技术实施例提供了基于NiFi的数据处理方法和装置,能够去除杂乱的数据。第一方面,本专利技术提供了基于NiFi的数据处理方法,预先部署NiFi组件,并设置用于数据清洗的清洗组件和用于数据转换的转换组件,还包括:将所述清洗组件和所述转换组件嵌入在所述NiFi组件中;利用嵌入后的所述NiFi组件执行:采集数据源中的待处理数据;调用所述清洗组件和所述转换组件对所述待处理数据进行处理,得到处理后的数据;将所述处理后的数据存储到数据仓库中。优选地,所述调用所述清洗组件和所述转换组件对所述待处理数据进行处理,得到处理后的数据,包括:S1:确定所述清洗组件的处理优先级是否高于所述转换组件的处理优先级,如果是,执行S2,否则,执行S3;S2:调用所述清洗组件对所述待处理数据进行数据清洗,将清洗后的数据作为待处理数据,并调用所述转换组件对该待处理数据进行数据转换;S3:调用所述转换组件对所述待处理数据进行数据转换,将转换后的数据作为待处理数据,并调用所述清洗组件对该待处理数据进行数据清洗。优选地,在所述S1之前,进一步包括:确定至少一个字段名筛选条件;所述S2中的调用所述清洗组件对所述待处理数据进行数据清洗,包括:调用所述清洗组件执行:D1:确定待清洗集合,其中,所述待清洗集合中包括所述待处理数据中的至少一个第一字段名;D2:从所述待清洗集合中确定当前第一字段名;D3:确定所述当前第一字段名是否与所述至少一个字段名筛选条件相匹配,如果是,执行D4,否则,执行D5;D4:从所述待处理数据中抽取所述第一字段名指示的字段,执行D5;D5:确定所述当前第一字段名是否为所述待清洗集合中最后一个第一字段名,如果是,结束当前流程,否则,执行D6;D6:从所述待清洗集合中删除所述当前第一字段名,返回D2。优选地,在所述S1之前,进一步包括:确定至少一个转换条件;所述S3中的调用所述转换组件对所述待处理数据进行数据转换,包括:调用所述转换组件执行:F1:确定待转换集合,其中,所述待转换集合包括所述待处理数据中的至少一个第二字段名;F2:从所述待转换集合中确定当前第二字段名;F3:按照所述至少一个转换条件对所述当前第二字段名指示的字段进行转换;F4:确定所述当前第二字段名是否为所述待转换集合中的最后一个第二字段名,如果是,结束当前流程,否则,执行F5;F5:从所述待转换集合中删除所述当前第二字段名,返回F2。优选地,所述将所述清洗组件和所述转换组件嵌入在所述NiFi组件中,包括:确定所述NiFi组件的配置格式;按照所述配置格式分别对所述清洗组件和所述转换组件进行打包,得到打包后的数据包;将所述数据包添加到所述NiFi组件中;运行添加所述数据包后的所述NiFi组件。第二方面,本专利技术提供了基于NiFi的数据处理装置,包括:组件设置模块,用于预先部署NiFi组件,并设置用于数据清洗的清洗组件和用于数据转换的转换组件;组件嵌入模块,用于将所述组件设置模块设置的所述清洗组件和所述转换组件嵌入在所述NiFi组件中;数据采集模块,用于利用所述组件嵌入模块嵌入后的所述NiFi组件,采集数据源中的待处理数据;数据清洗转换模块,用于利用所述组件嵌入模块嵌入后的所述NiFi组件,调用所述清洗组件和所述转换组件对所述数据采集模块采集的所述待处理数据进行处理,得到处理后的数据;数据存储模块,用于将所述数据清洗转换模块得到的所述处理后的数据存储到数据仓库中。优选地,所述数据清洗转换模块,包括:判断模块、清洗模块和转换模块;所述判断模块,用于确定所述清洗组件的处理优先级是否高于所述转换组件的处理优先级,如果是,触发所述清洗模块调用所述清洗组件对所述待处理数据进行数据清洗,将清洗后的数据作为待处理数据,并触发所述转换模块调用所述转换组件对所述清洗模块清洗后的该待处理数据进行数据转换;否则,触发所述转换模块调用所述转换组件对所述待处理数据进行数据转换,将转换后的数据作为待处理数据,并触发所述清洗模块调用所述清洗组件对所述转化模块转换的该待处理数据进行数据清洗。优选地,所述判断模块,进一步用于确定至少一个字段名筛选条件;所述清洗模块,用于调用所述清洗组件执行:D1:确定待清洗集合,其中,所述待清洗集合中包括所述待处理数据中的至少一个第一字段名;D2:从所述待清洗集合中确定当前第一字段名;D3:确定所述当前第一字段名是否与所述至少一个字段名筛选条件相匹配,如果是,执行D4,否则,执行D5;D4:从所述待处理数据中抽取所述第一字段名指示的字段,执行D5;D5:确定所述当前第一字段名是否为所述待清洗集合中最后一个第一字段名,如果是,结束当前流程,否则,执行D6;D6:从所述待清洗集合中删除所述当前第一字段名,返回D2。优选地,所述判断模块,进一步用于确定至少一个转换条件;所述转换模块,用于调用所述转换组件执行:F1:确定待转换集合,其中,所述待转换集合包括所述待处理数据中的至少一个第二字段名;F2:从所述待转换集合中确定当前第二字段名;F3:按照所述至少一个转换条件对所述当前第二字段名指示的字段进行转换;F4:确定所述当前第二字段名是否为所述待转换集合中的最后一个第二字段名,如果是,结束当前流程,否则,执行F5;F5:从所述待转换集合中删除所述当前第二字段名,返回F2。优选地,所述组件嵌入模块,用于确定所述NiFi组件的配置格式;按照所述配置格式分别对所述清洗组件和所述转换组件进行打包,得到打包后的数据包;将所述数据包添加到所述NiFi组件中;运行添加所述数据包后的所述NiFi组件。第三方面,本专利技术还提供了存储介质,包括:至少一个存储器和至少一个处理器;所述至少一个存储器,用于存储机器可读程序;所述至少一个处理器,用于调用所述机器可读程序,执行上述任一项中所述的基于NiFi的数据处理方法。第四方面,本专利技术还提供了计算机可读介质,所本文档来自技高网...

【技术保护点】
1.基于NiFi的数据处理方法,其特征在于,预先部署NiFi组件,并设置用于数据清洗的清洗组件和用于数据转换的转换组件,还包括:/n将所述清洗组件和所述转换组件嵌入在所述NiFi组件中;/n利用嵌入后的所述NiFi组件执行:/n采集数据源中的待处理数据;/n调用所述清洗组件和所述转换组件对所述待处理数据进行处理,得到处理后的数据;/n将所述处理后的数据存储到数据仓库中。/n

【技术特征摘要】
1.基于NiFi的数据处理方法,其特征在于,预先部署NiFi组件,并设置用于数据清洗的清洗组件和用于数据转换的转换组件,还包括:
将所述清洗组件和所述转换组件嵌入在所述NiFi组件中;
利用嵌入后的所述NiFi组件执行:
采集数据源中的待处理数据;
调用所述清洗组件和所述转换组件对所述待处理数据进行处理,得到处理后的数据;
将所述处理后的数据存储到数据仓库中。


2.根据权利要求1所述的基于NiFi的数据处理方法,其特征在于,
所述调用所述清洗组件和所述转换组件对所述待处理数据进行处理,得到处理后的数据,包括:
S1:确定所述清洗组件的处理优先级是否高于所述转换组件的处理优先级,如果是,执行S2,否则,执行S3;
S2:调用所述清洗组件对所述待处理数据进行数据清洗,将清洗后的数据作为待处理数据,并调用所述转换组件对该待处理数据进行数据转换;
S3:调用所述转换组件对所述待处理数据进行数据转换,将转换后的数据作为待处理数据,并调用所述清洗组件对该待处理数据进行数据清洗。


3.根据权利要求2所述的基于NiFi的数据处理方法,其特征在于,
在所述S1之前,进一步包括:
确定至少一个字段名筛选条件;
所述S2中的调用所述清洗组件对所述待处理数据进行数据清洗,包括:
调用所述清洗组件执行:
D1:确定待清洗集合,其中,所述待清洗集合中包括所述待处理数据中的至少一个第一字段名;
D2:从所述待清洗集合中确定当前第一字段名;
D3:确定所述当前第一字段名是否与所述至少一个字段名筛选条件相匹配,如果是,执行D4,否则,执行D5;
D4:从所述待处理数据中抽取所述第一字段名指示的字段,执行D5;
D5:确定所述当前第一字段名是否为所述待清洗集合中最后一个第一字段名,如果是,结束当前流程,否则,执行D6;
D6:从所述待清洗集合中删除所述当前第一字段名,返回D2;
和/或,
在所述S1之前,进一步包括:
确定至少一个转换条件;
所述S3中的调用所述转换组件对所述待处理数据进行数据转换,包括:
调用所述转换组件执行:
F1:确定待转换集合,其中,所述待转换集合包括所述待处理数据中的至少一个第二字段名;
F2:从所述待转换集合中确定当前第二字段名;
F3:按照所述至少一个转换条件对所述当前第二字段名指示的字段进行转换;
F4:确定所述当前第二字段名是否为所述待转换集合中的最后一个第二字段名,如果是,结束当前流程,否则,执行F5;
F5:从所述待转换集合中删除所述当前第二字段名,返回F2。


4.根据权利要求1至3中任一所述的基于NiFi的数据处理方法,其特征在于,
所述将所述清洗组件和所述转换组件嵌入在所述NiFi组件中,包括:
确定所述NiFi组件的配置格式;
按照所述配置格式分别对所述清洗组件和所述转换组件进行打包,得到打包后的数据包;
将所述数据包添加到所述NiFi组件中;
运行添加所述数据包后的所述NiFi组件。


5.基于NiFi的数据处理装置,其特征在于,包括:
组件设置模块,用于预先部署NiFi组件,并设置用于数据清洗的清洗组件和用于数据转换的转换组件;
组件嵌入模块,用于将所述组件设置模块设置的所述清洗组件和所述转换组件嵌入在所述...

【专利技术属性】
技术研发人员:胡振升胡清王建华
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1