一种kafka流处理平台的数据导入方法、装置及设备制造方法及图纸

技术编号:31319677 阅读:15 留言:0更新日期:2021-12-13 00:02
本发明专利技术公开了一种kafka流处理平台的数据导入方法,该方法包括以下步骤:通过对待导入kafka流处理平台的目标数据流进行字段拆分,分别获取拆分得到的各初始字段的字段类型,预先设置包含各字段类型与各数据格式转换规则之间对应关系的配置文件,利用预设配置文件进行格式转换规则匹配,根据各数据格式转换规则对各初始字段进行格式转换,得到统一格式的各目标字段,将各目标字段导入至kafka流处理平台。应用本发明专利技术所提供的kafka流处理平台的数据导入方法,较大地节省了人力,节省了时间成本,较大地提高了数据导入效率。本发明专利技术还公开了一种kafka流处理平台的数据导入装置、设备及存储介质,具有相应技术效果。具有相应技术效果。具有相应技术效果。

【技术实现步骤摘要】
一种kafka流处理平台的数据导入方法、装置及设备


[0001]本专利技术涉及存储
,特别是涉及一种kafka流处理平台的数据导入方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]Kafka流处理平台是一个开源流处理平台,是一种高吞吐量的分布式发布订阅消息系统,它可以处理用户在网站中的所有动作流数据,如网页浏览、搜索等用户的行动。
[0003]现有的kafka流处理平台的数据导入方式为将数据集(DataSet)使用collect函数转成列表(List),再把列表中的数据发送至kafka流处理平台。但是,针对不同的数据集,开发人员均需要重新编写一段程序实现,使用小规模数据集可行,大规模数据不可行。在企业开发中有很多需要将文件数据导入到kakfa流处理平台中的场景,浪费了人力和时间成本,数据导入效率低。
[0004]综上所述,如何有效地解决现有的kafka流处理平台的数据导入方式,浪费了人力和时间成本,数据导入效率低等问题,是目前本领域技术人员急需解决的问题。

技术实现思路

[0005]本专利技术的目的是提供一种kafka流处理平台的数据导入方法,该方法较大地节省了人力,节省了时间成本,较大地提高了数据导入效率;本专利技术的另一目的是提供一种kafka流处理平台的数据导入装置、设备及计算机可读存储介质。
[0006]为解决上述技术问题,本专利技术提供如下技术方案:
[0007]一种kafka流处理平台的数据导入方法,包括:
[0008]获取待导入的目标数据流;
[0009]对所述目标数据流进行字段拆分操作,得到各初始字段;
[0010]分别获取各所述初始字段的字段类型;
[0011]利用预设配置文件对各所述字段类型分别进行格式转换规则匹配,得到各数据格式转换规则;
[0012]根据各所述数据格式转换规则对各所述初始字段进行格式转换,得到统一格式的各目标字段;
[0013]将各所述目标字段导入至kafka流处理平台。
[0014]在本专利技术的一种具体实施方式中,根据各所述数据格式转换规则对各所述初始字段进行格式转换,得到统一格式的各目标字段,包括:
[0015]根据各所述数据格式转换规则将各所述初始字段转换为各avro格式字段;
[0016]将各所述目标字段导入至kafka流处理平台,包括:
[0017]将各所述avro格式字段导入至所述kafka流处理平台。
[0018]在本专利技术的一种具体实施方式中,将各所述目标字段导入至kafka流处理平台,包括:
[0019]从所述预设配置文件中读取预设导入并行度;
[0020]按照所述预设导入并行度将各所述目标字段并行导入至所述kafka流处理平台。
[0021]在本专利技术的一种具体实施方式中,分别获取各所述初始字段的字段类型,包括:
[0022]分别获取各所述初始字段的字段名称和字段类型;
[0023]利用预设配置文件对各所述字段类型分别进行格式转换规则匹配,包括:
[0024]判断各所述字段名称对应的字段类型是否均合法;
[0025]若是,则利用预设配置文件对各所述字段类型分别进行格式转换规则匹配;
[0026]若否,则对字段类型不合法的初始字段进行数量统计,并利用预设配置文件对合法的各所述字段类型分别进行格式转换规则匹配。
[0027]在本专利技术的一种具体实施方式中,在对字段类型不合法的初始字段进行数量统计之后,还包括:
[0028]获取不合法的初始字段的数量统计结果;
[0029]将所述数量统计结果打印到日志中。
[0030]在本专利技术的一种具体实施方式中,将各所述目标字段导入至kafka流处理平台,包括:
[0031]从所述预设配置文件中读取预设kafka地址;
[0032]将各所述目标字段导入至所述kafka流处理平台的预设kafka地址。
[0033]在本专利技术的一种具体实施方式中,将各所述目标字段导入至所述kafka流处理平台的预设kafka地址,包括:
[0034]从所述预设配置文件中读取预设存储主题;
[0035]按照所述预设存储主题将各所述目标字段导入至所述kafka流处理平台的预设kafka地址。
[0036]一种kafka流处理平台的数据导入装置,包括:
[0037]数据流获取模块,用于获取待导入的目标数据流;
[0038]字段拆分模块,用于对所述目标数据流进行字段拆分操作,得到各初始字段;
[0039]字段类型获取模块,用于分别获取各所述初始字段的字段类型;
[0040]转换规则匹配模块,用于利用预设配置文件对各所述字段类型分别进行格式转换规则匹配,得到各数据格式转换规则;
[0041]格式转换模块,用于根据各所述数据格式转换规则对各所述初始字段进行格式转换,得到统一格式的各目标字段;
[0042]字段导入模块,用于将各所述目标字段导入至kafka流处理平台。
[0043]一种kafka流处理平台的数据导入设备,包括:
[0044]存储器,用于存储计算机程序;
[0045]处理器,用于执行所述计算机程序时实现如前所述kafka流处理平台的数据导入方法的步骤。
[0046]一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述kafka流处理平台的数据导入方法的步骤。
[0047]本专利技术所提供的kafka流处理平台的数据导入方法,通过对待导入kafka流处理平台的目标数据流进行字段拆分,分别获取拆分得到的各初始字段的字段类型,预先设置包
含各字段类型与各数据格式转换规则之间对应关系的配置文件,利用预设配置文件进行格式转换规则匹配,根据各数据格式转换规则对各初始字段进行格式转换,得到统一格式的各目标字段,将各目标字段导入至kafka流处理平台。实现了对各初始字段进行格式转换规则的自动匹配,从而将各初始字段转换为统一格式的各目标字段,进而将各目标字段导入至kafka流处理平台,避免了重复编程,较大地节省了人力,节省了时间成本,较大地提高了数据导入效率。
[0048]相应的,本专利技术还提供了与上述kafka流处理平台的数据导入方法相对应的kafka流处理平台的数据导入装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
[0049]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0050]图1为本专利技术实施例中kafka流处理平台的数据导入方法的一种实施流程图;
[0051]图2为本专利技术实施例中kafka流处理平台的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种kafka流处理平台的数据导入方法,其特征在于,包括:获取待导入的目标数据流;对所述目标数据流进行字段拆分操作,得到各初始字段;分别获取各所述初始字段的字段类型;利用预设配置文件对各所述字段类型分别进行格式转换规则匹配,得到各数据格式转换规则;根据各所述数据格式转换规则对各所述初始字段进行格式转换,得到统一格式的各目标字段;将各所述目标字段导入至kafka流处理平台。2.根据权利要求1所述的kafka流处理平台的数据导入方法,其特征在于,根据各所述数据格式转换规则对各所述初始字段进行格式转换,得到统一格式的各目标字段,包括:根据各所述数据格式转换规则将各所述初始字段转换为各avro格式字段;将各所述目标字段导入至kafka流处理平台,包括:将各所述avro格式字段导入至所述kafka流处理平台。3.根据权利要求1所述的kafka流处理平台的数据导入方法,其特征在于,将各所述目标字段导入至kafka流处理平台,包括:从所述预设配置文件中读取预设导入并行度;按照所述预设导入并行度将各所述目标字段并行导入至所述kafka流处理平台。4.根据权利要求1至3任一项所述的kafka流处理平台的数据导入方法,其特征在于,分别获取各所述初始字段的字段类型,包括:分别获取各所述初始字段的字段名称和字段类型;利用预设配置文件对各所述字段类型分别进行格式转换规则匹配,包括:判断各所述字段名称对应的字段类型是否均合法;若是,则利用预设配置文件对各所述字段类型分别进行格式转换规则匹配;若否,则对字段类型不合法的初始字段进行数量统计,并利用预设配置文件对合法的各所述字段类型分别进行格式转换规则匹配。5.根据权利要求4所述的kafka流处理平台的数据导入方法,其特征在于,在对字段类型不合法的初始字段...

【专利技术属性】
技术研发人员:孙雪永汤乐奇范渊刘博
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1