一种NiFi同步数据量统计方法技术

技术编号:28295396 阅读:19 留言:0更新日期:2021-04-30 16:19
本发明专利技术特别涉及一种NiFi同步数据量统计方法。该NiFi同步数据量统计方法,基于NiFi数据文件批次标识,数据文件编码以及数据文件数据量标识属性实现对同步数量的统计。该NiFi同步数据量统计方法,不仅能够在使用NiFi进行大数据量数据同步操作时对同步数据量进行统计,而且易于实现,开发成本低,灵活多样,具有很高的可扩展性,具有广泛的适用场景,适于推广应用。

【技术实现步骤摘要】
一种NiFi同步数据量统计方法
本专利技术涉及数据统计
,特别涉及一种NiFi同步数据量统计方法。
技术介绍
现代社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。大数据是如此重要,以至于其数据采集、储存、搜索、共享、分析,乃至可视化地呈现,都成为了当前重要的研究课题,而数据采集是一切大数据应用的开始和前提。在很多项目开发和实施过程中,客户与研发人员开始往往更关注数据的治理、挖掘与分析应用等,但在随着项目的实施,技术人员发现数据采集才是最大的难点和最耗时耗力的工作。能够及时、快速、准确、完整的将外部数据抽取到大数据平台是很多开发人员面临的难题。基于此,本专利技术提出了一种NiFi同步数据量统计方法。
技术实现思路
本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的NiFi同步数据量统计方法。本专利技术是通过如下技术方案实现的:一种NiFi同步数据量统计方法,其特征在于:基于NiFi数据文件批次标识,数据文件编码以及数据文件数据量标识属性实现对同步数量的统计;具体包括以下步骤:第一步,生成NiFi数据文件批次标识;第二步,对数据文件进行编码,并生成数据文件数据量标识属性;第三步,将数据文件进行分块处理当数据进入到NiFi集群后存在数据处理场景(比如过滤空值,行列拆分等)时,在数据处理过程中将一个带有current.index变量的数据文件拆分成多个数据文件;第四步,将数据文件进行重新排序;第五步,数据入库根据数据类型和目标库不同,选用不同的数据加载组件,对数据进行加载;第六步,数据完整性判断及数据量统计判断同一批次的所有数据文件是否全部接收完毕,若全部接收完毕,则统计数据该批次同步数据文件的数量。所述第一步中,通过StartFlow(起始流动节点)组件来生成NiFi数据文件批次标识;所述NiFi数据文件批次标识对应的数据文件属性为flowFlag(流动标志),相同的批次标识对应同一个批次的NiFi数据文件。所述第二步中,具体获取数据的组件对每个批次的所有数据文件都进行编码,并将每个数据文件都增加current.index和next.index属性,从而生成数据文件序号标识,用于标识数据文件的顺序,以便在多线程并发处理后重新排序。所述第二步中,根据数据的类别不同添加不同的属性,生成所述数据文件数据量标识属性,用于标识数据文件中数据的量。数据量结构化数据添加resultCount属性,二进制数据,如文件,则添加file.size属性。所述第三步中,在数据文件中增加拆分序号标识FragmentNumber(分块序号)和NextFragmentNumber(下一个分块序号),并更新数据文件FlowFile(数据文件)的数据量标识属性resultCount。数据文件经过并发处理或者进行分块之后,数据文件FlowFile顺序会有变动,所述第四步中,针对对数据顺序敏感的增量数据流程,需要将乱序的FlowFile数据文件根据数据文件序号标识和分块标识值进行重新排序。所述第六步中,使用BitMap(位映射)方式存储同一批次数据文件所有接收到的FlowFileIndex(数据文件顺序索引)和Fragment(分块)相关属性值;根据同一批次数据文件的flowFlag标识值,判断该批次的所有数据文件是否全部接收完毕;若全部接收完毕,则利用EndFlow(流动末端节点)组件统计数据该批次同步数据文件的数量。本专利技术的有益效果是:该NiFi同步数据量统计方法,不仅能够在使用NiFi进行大数据量数据同步操作时对同步数据量进行统计,而且易于实现,开发成本低,灵活多样,具有很高的可扩展性,具有广泛的适用场景,适于推广应用。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图1为本专利技术StartFlow组件配置示意图。附图2为本专利技术数据文件属性flowFlag示意图。附图3为本专利技术数据文件序号标识属性示意图。附图4为本专利技术数据文件数据量标识属性示意图。附图5为本专利技术数据文件分块顺序标识属性示意图。附图6为本专利技术数据文件重排序组件配置示意图。具体实施方式为了使本
的人员更好的理解本专利技术中的技术方案,下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。当前,在数据采集、同步过程中,存在各种问题。比如由于数据量大,数据会被分成多个批次进行采集和同步,每个批次同步结果如何,数据量有多少都需要单独统计。此外,对于同一个批次,可能会因为业务需要对数据进行进一步分块细分,同一个批次的不同分块数据是否全部同步成功,以及同步的数据量的总数为多少等等,这些问题都是必须要考虑和解决的。该NiFi同步数据量统计方法,基于NiFi数据文件批次标识,数据文件编码以及数据文件数据量标识属性实现对同步数量的统计;具体包括以下步骤:第一步,生成NiFi数据文件批次标识;第二步,对数据文件进行编码,并生成数据文件数据量标识属性;第三步,将数据文件进行分块处理当数据进入到NiFi集群后存在数据处理场景(比如过滤空值,行列拆分等)时,在数据处理过程中将一个带有current.index变量的数据文件拆分成多个数据文件;第四步,将数据文件进行重新排序;第五步,数据入库根据数据类型和目标库不同,选用不同的数据加载组件,对数据进行加载;第六步,数据完整性判断及数据量统计判断同一批次的所有数据文件是否全部接收完毕,若全部接收完毕,则统计数据该批次同步数据文件的数量。所述第一步中,通过StartFlow(起始流动节点)组件来生成NiFi数据文件批次标识;所述NiFi数据文件批次标识对应的数据文件属性为flowFlag(流动标志),相同的批次标识对应同一个批次的NiFi数据文件。所述第二步中,具体获取数据的组件对每个批次的所有数据文件都进行编码,并将每个数据文件都增加current.index和next.index属性,从而生成数据文件序号标识,用于标识数据文件的顺序,以便在多线程并发处理后重新排序。所述第二步中,根据数据的类别不同添加不同的属性,生成所述数据文件数据量标识属性,用于标识数据文件中数据的量。数据量结构化数据添加res本文档来自技高网
...

【技术保护点】
1.一种NiFi同步数据量统计方法,其特征在于:基于NiFi数据文件批次标识,数据文件编码以及数据文件数据量标识属性实现对同步数量的统计;/n具体包括以下步骤:/n第一步,生成NiFi数据文件批次标识;/n第二步,对数据文件进行编码,并生成数据文件数据量标识属性;/n第三步,将数据文件进行分块处理/n当数据进入到NiFi集群后存在数据处理场景时,在数据处理过程中将一个带有current.index变量的数据文件拆分成多个数据文件;/n第四步,将数据文件进行重新排序;/n第五步,数据入库/n根据数据类型和目标库不同,选用不同的数据加载组件,对数据进行加载;/n第六步,数据完整性判断及数据量统计/n判断同一批次的所有数据文件是否全部接收完毕,若全部接收完毕,则统计数据该批次同步数据文件的数量。/n

【技术特征摘要】
1.一种NiFi同步数据量统计方法,其特征在于:基于NiFi数据文件批次标识,数据文件编码以及数据文件数据量标识属性实现对同步数量的统计;
具体包括以下步骤:
第一步,生成NiFi数据文件批次标识;
第二步,对数据文件进行编码,并生成数据文件数据量标识属性;
第三步,将数据文件进行分块处理
当数据进入到NiFi集群后存在数据处理场景时,在数据处理过程中将一个带有current.index变量的数据文件拆分成多个数据文件;
第四步,将数据文件进行重新排序;
第五步,数据入库
根据数据类型和目标库不同,选用不同的数据加载组件,对数据进行加载;
第六步,数据完整性判断及数据量统计
判断同一批次的所有数据文件是否全部接收完毕,若全部接收完毕,则统计数据该批次同步数据文件的数量。


2.根据权利要求1所述的NiFi同步数据量统计方法,其特征在于:所述第一步中,通过StartFlow组件来生成NiFi数据文件批次标识;所述NiFi数据文件批次标识对应的数据文件属性为flowFlag,相同的批次标识对应同一个批次的NiFi数据文件。


3.根据权利要求1所述的NiFi同步数据量统计方法,其特征在于:所述第二步中,具体获取数据的组件对每个批次的所有数据文件都进行编码,并将每个数据文件都增加current.index和next.index属性,从而生成数据文件序号标识,用于标识数据文件的顺序,以便在多线程并发处理后重新排...

【专利技术属性】
技术研发人员:翟建峰胡清李国涛
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1