【技术实现步骤摘要】
一种基于NIFI的数据处理流程设计方法
本专利技术公开一种数据处理流程设计方法,涉及数据处理领域,具体地说是一种基于NIFI的数据处理流程设计方法。
技术介绍
传统的网管数据采集是通过开发专门的业务应用程序,通过编写脚本程序,再采用crontab进行定时调度,进而实现网管数据的定时采集。网管数据的采集目录通过读取配置文件的形式获取。流程繁琐,容易出现问题。采集文件的解析实现也是通过采用定制化的代码程序,针对一种类型的采集文件及格式,开发相应代码,与采集文件类型强相关。这种文件解析方式的好处是代码逻辑简单容易实现,劣势是当对接新的采集文件时,需要重新定制开发代码,工作量大,对接时间长。当对接文件类型增多时,文件解析程序不好管理。采用现有的应用服务方式进行文件的采集解析时,当数据量增大,容易产生单点瓶颈问题,进而影响整个系统的工作效率。本专利技术一种基于NIFI的数据处理流程设计方法,充分发挥集群性能,通过获取采集文件名列表的processor;通过kafka将文件列表分发到nifi集群的各个节点上的processor;可多节点多线程并行下载远端机文件的process ...
【技术保护点】
1.一种基于NIFI的数据处理流程设计方法,其特征是NIFI集群中主节点运行模式的Collect processor采集目录下文件的文件列表,传递给集群运行模式下的PublishKafka processor,PublishKafka processor将文件列表发送到kafka的Topic中,集群运行模式下的ConsumeKafka processor读取kafka的Topic的文件列表传递给集群运行模式下的FetchFiles processor,FetchFiles processor根据文件列表到目录下下载相应文件,并将下载的相应文件传递到集群运行模式下的Parse ...
【技术特征摘要】
1.一种基于NIFI的数据处理流程设计方法,其特征是NIFI集群中主节点运行模式的Collectprocessor采集目录下文件的文件列表,传递给集群运行模式下的PublishKafkaprocessor,PublishKafkaprocessor将文件列表发送到kafka的Topic中,集群运行模式下的ConsumeKafkaprocessor读取kafka的Topic的文件列表传递给集群运行模式下的FetchFilesprocessor,FetchFilesprocessor根据文件列表到目录下下载相应文件,并将下载的相应文件传递到集群运行模式下的Parseprocessor,Parseprocessor根据相应文件的解析规则和文件类型,对相应文件进行适配解析。2.根据权利要求1所述的方法,其特征是Collectprocessor、PublishKafkaprocessor、ConsumeKafkaprocessor、FetchFilesprocessor和Parseprocessor之间利用flowfile传递数据。3.根据权利要求2所述的方法,其特征是所述Collectprocessor利用flowfile将文件列表传递给PublishKafkaprocessor,PublishKafkaprocessor将flowfile发送到kafka的Topic分区上,NIFI集群的每个节点都可从Topic分区上获得文件列表。4.根据权利要求1-3任一项所述的方法,其特征是NIFI集群的某个节点ConsumeKafkaprocessor读取kafka的Topic的文件列表传递给NIFI集群的其他节点的FetchFilesprocessor,所述FetchFilesprocessor进行相应的数据处理。5.根据权利要求4所述的方法,其特征是FetchFilesprocessor根据文件列表到目录下下载相应文件,将下载的相应文件分发到NIFI集群的相应的节点上,使收到相应文件的NIFI集群节点同时处理数据。6.根据权利要求5所述的方法,其特征是所述FetchFilesprocessor根据文件列表到目录下下载相应文件,包括csv文件类型和xml文件类型,并将下载的相应文件传递到集群运行模式下的Parseprocessor,Parseprocessor根据csv文件类型和xml文件类型的解析规则,对相应文件进行适配解析。7.根据权利要求5所述的方法,其特征是NIFI集群中主节点运行模式的Collectprocessor采集目录下xml文件的文件列表,传递给集群...
【专利技术属性】
技术研发人员:杨凯杰,郑国生,
申请(专利权)人:浪潮天元通信信息系统有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。