【技术实现步骤摘要】
一种数据处理方法、装置及设备
[0001]本专利技术涉及数据采集
,特别是指一种数据处理方法、装置及设备。
技术介绍
[0002]数据处理和分发系统(Apache NiFi,以下简称NiFi)是一款功能非常强大的实现数据采集、数据清洗,将数据从来源端经过抽取、转换并加载至目的端(ETL,Extract
‑
Transform
‑
Load)的开源的工具。NiFi支持图形化操作,对流程设计人员友好;内置200多个处理器(Processor),满足大部分数据采集和清洗的需求;支持数据流的全链路追踪,实时查看数据流向;支持单机、集群、docker等灵活部署,适用于多种使用环境。鉴于NiFi有这么多优势特性,所以在生产环境的ETL场景中得到了广泛的使用。
[0003]NiFi在进行数据处理的时候,处理的对象是流文件(FlowFile)。如图1所示,一个FlowFile包含两部分内容:元数据(metadata)和业务数据(data)。其中,metadata主要包含了FlowFile的属性,如唯一标识符、名称、大小和其他一些自定义属性;data是这个FlowFile包含的ETL数据。metadata保存在内存中,可以修改。业务数据不可修改,指向一个本地文件系统的真实文件
[0004]在相关技术中,整个ETL流程处理的对象都是FlowFile。由于需要多个Processor对数据进行多次处理,所以导致要多次读取FlowFile,并生成新的FlowFile,导致整个ETL流程的处 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:将获取的流文件FlowFile中的元数据metadata拆分为一个或多个记录Record;从所述一个或多个Record中获取待处理的Record,对所述待处理的Record进行处理,并将处理后的Record保存到所述FlowFile的metadata部分。2.根据权利要求1所述的方法,其特征在于,将获取的FlowFile中的元数据拆分为一个或多个Record,包括:根据元数据的数据类型,将获取的流文件FlowFile中的元数据metadata拆分为一个或多个Record。3.根据权利要求2所述的方法,其特征在于,根据数据类型,将获取的FlowFile中的元数据metadata拆分为一个或多个Record,包括:如果所述FlowFile中的metadata的数据类型包括:逗号分隔值csv文件和/或数据库数据,则所述FlowFile中的metadata按行拆分,一行metadata拆分为一个Record;和/或,如果所述FlowFile中的metadata的数据类型为流式数据,则所述FlowFile中的metadata按流式数据中的消息message拆分,一个message拆分为一个Record。4.根据权利要求1所述的方法,其特征在于,所述Record的信息通过关键字
‑
值key
‑
value的方式存放在所述FlowFile的元数据部分。5.根据权利要求1所述的方法,其特征在于,从所述一个或多个Record中获取待处理的Record,对所述待处理的Record进行处理,并将处理后的Record保存到所述FlowFile的metadata部分,包括:从所述一个或多个Record中获取待过滤的Record,对所述待过滤的Record进行过滤处理,并将过滤处理得到的Record保存到所述FlowFile的metadata部分。6.根据权利要求5所述的方法,其特征在于,从所述一个或多个Record中获取待处理的Record,对所述待处理的Record进行处理,并将处理后的Record保存到所述FlowFile的metadata部分,还包括:从所述一个或多个Record中获取待转换的Record,对所述待转换的Record进行转换处理,并将转换处理得到的Record保存到所述FlowFile的metadata部分。7.根据权利要求5或6所述的方法,其特征在于,从所述一个或多个Record中获取待处理的Record,对所述待处理的Record进行处理,并将处理后的Record保存到所述FlowFile的metadata部分,还包括:从所述一个或多个Record中获取待计算的Record,对所述待计算的Record进行计算处理,并将计算处理得到的Record保存到所述FlowFile的metadata部分。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述FlowFile的...
【专利技术属性】
技术研发人员:蔺东东,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。