一种基于ktr文件的数据处理方法、装置、设备和介质制造方法及图纸

技术编号:34804610 阅读:15 留言:0更新日期:2022-09-03 20:11
本发明专利技术公开了一种基于ktr文件的数据处理方法,所述方法包括:接收数据处理任务;确定所述数据处理任务的任务类型以及所述数据处理任务所指向的资源文件地址和资源文件标签;获取与所述任务类型和所述资源文件标签相匹配的目标ktr文件;根据所述目标ktr文件中存储的数据处理流程处理所述资源文件地址下的目标资源文件。资源文件。资源文件。

【技术实现步骤摘要】
一种基于ktr文件的数据处理方法、装置、设备和介质


[0001]本专利技术涉及数据处理
,具体涉及一种基于ktr文件的数据处理方法、装置、计算机设备和计算机可读存储介质。

技术介绍

[0002]随着大数据时代的来临,数据的重要性日益凸显,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来,然而如何快速高准确率的获取有效的数据成了亟待解决的问题。
[0003]传统的数据抽取、过滤、清洗依靠人工研发,涉及到一些复杂的业务逻辑还容易出现各种bug。尤其不同的业务逻辑需要研发不同的脚本导致开发量巨大,而有些情况下,业务逻辑稍有修改也需要重新研发脚本,导致代码冗余,脚本频繁上线也会导致服务不稳定。再者,运行脚本依靠人工去点,很容易漏执行任务因而破坏数据完整性和多样性。另外,数据交换场景下,数据交换双方网络不通,需要通过第三方机器约定数据结构,把应用上的数据按照标准推送到第三方机器上,这类场景的研发工作量同样很大。
[0004]针对现有的数据处理过程存在人工依赖性大、脚本研发效率低以及数据遗漏风险高的缺陷,目前尚未存在有效的解决方案。

技术实现思路

[0005]本专利技术的目的在于提供了一种基于ktr文件的数据处理方法、装置、计算机设备和计算机可读存储介质,能够现有技术中数据处理过程存在的人工依赖性大、脚本研发效率低以及数据遗漏风险高的技术问题。
[0006]本专利技术的一个方面提供了一种基于ktr文件的数据处理方法,所述方法包括:接收数据处理任务;确定所述数据处理任务的任务类型以及所述数据处理任务所指向的资源文件地址和资源文件标签;获取与所述任务类型和所述资源文件标签相匹配的目标ktr文件;根据所述目标ktr文件中存储的数据处理流程处理所述资源文件地址下的目标资源文件。
[0007]可选地,所述获取与所述任务类型和所述资源文件标签相匹配的目标ktr文件,包括:获取预存储的每个ktr文件的ktr文件标签;其中,所述ktr文件标签用于表征所述ktr文件的用途;从获取到的ktr文件标签中筛选出与所述任务类型和所述资源文件标签相匹配的目标ktr文件标签;根据所述目标ktr文件标签所指向的ktr文件确定所述目标ktr文件。
[0008]可选地,所述根据所述目标ktr文件标签所指向的ktr文件确定所述目标ktr文件,包括:从所述目标ktr文件标签所指向的每个ktr文件中提取出环境适配参数;从提取到的环境适配参数中筛选出包含所述数据处理任务所指向的处理环境参数的目标环境适配参数;从所述目标ktr文件标签所指向的ktr文件中筛选出包含所述目标环境适配参数的目标ktr文件。
[0009]可选地,所述根据所述目标ktr文件中存储的数据处理流程处理所述资源文件地址下的目标资源文件,包括:从所述目标ktr文件中解析出用于表征所述数据处理流程的元
数据;将所述元数据传送至kettle集群中,并通过所述kettle集群基于所述元数据处理所述资源文件地址下的目标资源文件。
[0010]可选地,所述将所述元数据传送至kettle集群中,并通过所述kettle集群基于所述元数据处理所述资源文件地址下的目标资源文件,包括:通过所述kettle集群确定出目标kettle节点;通过所述目标kettle节点提取所述资源文件地址下的所有待处理资源文件;通过所述目标kettle节点从提取到的待处理资源文件中筛选出与所述资源文件标签相匹配的目标资源文件;通过所述目标kettle节点基于所述元数据处理所述目标资源文件。
[0011]可选地,当所述任务类型为数据清洗类型时,所述数据处理流程为数据清洗流程;当所述任务类型为数据转换类型时,所述数据处理流程为数据转换流程;当所述任务类型为数据清洗类型时,所述方法还包括:在所述获取与所述任务类型和所述资源文件标签相匹配的目标ktr文件之后,将所述数据处理任务的任务标签添加至所述目标ktr文件中。
[0012]可选地,所述确定所述数据处理任务所指向的资源文件地址和资源文件标签,包括:确定本地剩余的可支配流量额度;判断所述本地剩余的可支配流量额度是否大于等于第一流量阈值,其中,所述第一流量阈值可用于处理完所述数据处理任务;当所述本地剩余的可支配流量额度小于所述第一流量阈值时,向流量额度存储节点申请流量额度;根据所述本地剩余的可支配流量额度和所述流量额度存储节点返回的流量额度,确定所述数据处理任务所指向的资源文件地址和资源文件标签。
[0013]可选地,所述根据所述本地剩余的可支配流量额度和所述流量额度存储节点返回的流量额度,确定所述数据处理任务所指向的资源文件地址和资源文件标签,包括:计算所述本地剩余的可支配流量额度和所述流量额度存储节点返回的流量额度的总和,记为更新后的可支配流量额度;判断所述更新后的可支配流量额度是否大于等于所述第一流量阈值;若大于等于所述第一流量阈值,则根据所述更新后的可支配流量额度确定所述数据处理任务所指向的资源文件地址和资源文件标签;若小于所述第一流量阈值,则继续判断所述更新后的可支配流量额度是否大于等于第二流量阈值;若大于等于所述第二流量阈值,则继续向所述流量额度存储节点申请流量额度;若小于所述第二流量阈值,则丢弃所述数据处理任务。
[0014]本专利技术的另一个方面提供了一种基于ktr文件的数据处理装置,所述装置包括:接收模块,用于接收数据处理任务;确定模块,用于确定所述数据处理任务的任务类型以及所述数据处理任务所指向的资源文件地址和资源文件标签;获取模块,用于获取与所述任务类型和所述资源文件标签相匹配的目标ktr文件;处理模块,用于根据所述目标ktr文件中存储的数据处理流程处理所述资源文件地址下的目标资源文件。
[0015]本专利技术的再一个方面提供了一种计算机设备,所述计算机设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的基于ktr文件的数据处理方法。
[0016]本专利技术的又一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现上述任一实施例所述的基于ktr文件的数据处理方法。
[0017]本专利技术提供的基于ktr文件的数据处理方法,基于kettle图形界面制定数据处理流程并保存为ktr文件,相较于脚本研发节省大量时间,修改也更加方便,流程清晰明了,降
低数据处理门槛,非研发人员也可以进行数据处理。用户提前为ktr文件打上标签,对于相同处理逻辑的文件,系统会根据标签自动归类,之后的流程无需用户参与。对于逻辑相似的需求可以复制原来的ktr文件,再改动其中的一小部分即可,不会破环其他的逻辑,减少代码改动导致的错误。不会频繁上线,有新的需求只需上传ktr文件,服务稳定。
附图说明
[0018]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ktr文件的数据处理方法,其特征在于,所述方法包括:接收数据处理任务;确定所述数据处理任务的任务类型以及所述数据处理任务所指向的资源文件地址和资源文件标签;获取与所述任务类型和所述资源文件标签相匹配的目标ktr文件;根据所述目标ktr文件中存储的数据处理流程处理所述资源文件地址下的目标资源文件。2.根据权利要求1所述的方法,其特征在于,所述获取与所述任务类型和所述资源文件标签相匹配的目标ktr文件,包括:获取预存储的每个ktr文件的ktr文件标签;其中,所述ktr文件标签用于表征所述ktr文件的用途;从获取到的ktr文件标签中筛选出与所述任务类型和所述资源文件标签相匹配的目标ktr文件标签;根据所述目标ktr文件标签所指向的ktr文件确定所述目标ktr文件。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标ktr文件标签所指向的ktr文件确定所述目标ktr文件,包括:从所述目标ktr文件标签所指向的每个ktr文件中提取出环境适配参数;从提取到的环境适配参数中筛选出包含所述数据处理任务所指向的处理环境参数的目标环境适配参数;从所述目标ktr文件标签所指向的ktr文件中筛选出包含所述目标环境适配参数的目标ktr文件。4.根据权利要求1所述的方法,其特征在于,所述根据所述目标ktr文件中存储的数据处理流程处理所述资源文件地址下的目标资源文件,包括:从所述目标ktr文件中解析出用于表征所述数据处理流程的元数据;将所述元数据传送至kettle集群中,并通过所述kettle集群基于所述元数据处理所述资源文件地址下的目标资源文件。5.根据权利要求4所述的方法,其特征在于,所述将所述元数据传送至kettle集群中,并通过所述kettle集群基于所述元数据处理所述资源文件地址下的目标资源文件,包括:通过所述kettle集群确定出目标kettle节点;通过所述目标kettle节点提取所述资源文件地址下的所有待处理资源文件;通过所述目标kettle节点从提取到的待处理资源文件中筛选出与所述资源文件标签相匹配的目标资源文件;通过所述目标kettle节点基于所述元数据处理所述目标资源文件。6.根据权利要求1所述的方法,其特征在于,当所述任务类型为数据清洗类型时,所述数据处...

【专利技术属性】
技术研发人员:朱嘉玲刘剑蔡丰令季小闯
申请(专利权)人:平安资产管理有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1