数据处理方法、装置及存储介质制造方法及图纸

技术编号:31164965 阅读:20 留言:0更新日期:2021-12-04 10:39
本发明专利技术提供一种数据处理方法、装置及存储介质,包括:从数据源中获取原始数据;定义所述原始数据和目标数据的映射关系;基于所述映射关系生成转换规则;根据预设转换工具和所述转换规则将所述原始数据转换为目标数据。本发明专利技术提供的技术方案,只需要定义所述原始数据和目标数据的映射关系,就可以进行数据映射或者数据清洗,不需要学习相关编程技术,学习成本低;根据预先生成的转换规则通过Jolt工具可以直接端对端进行数据映射或者数据清洗,不会因为数据源或者需求变更带来影响,无需修改代码。无需修改代码。无需修改代码。

【技术实现步骤摘要】
数据处理方法、装置及存储介质


[0001]本申请涉及数据处理领域,具体而言,涉及一种数据处理方法、装置及存储介质、电子设备。

技术介绍

[0002]在传统数据清洗、数据映射当中通常采用Hive SQL、Spark SQL、Spark Core的方式通过编码对数据进行清洗、映射。
[0003]使用Spark、Hive进行数据清洗学习门槛较高且依赖的jar包较多、较为笨重。采用hard code的方式进行数据清洗、数据映射,若有新格式的数据源或者数据源有变动时就需要修改代码,可扩展性较差。
[0004]因此,亟需一种可以同时解决数据清洗、映射学习门槛高和拓展性差的问题的数据处理方法、装置及存储介质。

技术实现思路

[0005]本专利技术实施例提供一种数据处理方法、装置及存储介质,用以解决现有技术中数据清洗学习门槛较高且较为笨重,以及可扩展性较差的问题。
[0006]本专利技术实施例的第一方面,提供一种数据处理方法,包括:
[0007]从数据源中获取原始数据;
[0008]定义所述原始数据和目标数据的映射关系;
[0009]基于所述映射关系生成转换规则;
[0010]根据预设转换工具和所述转换规则将所述原始数据转换为目标数据。
[0011]可选地,在第一方面的一种可能实现方式中,所述从数据源中获取原始数据,包括:
[0012]将一个原始数据或者多个原始数据的组合作为基础数据,所述基础数据用于定义所述原始数据和目标数据的映射关系。
>[0013]可选地,在第一方面的一种可能实现方式中,所述定义所述原始数据和目标数据的映射关系,包括:
[0014]采用手动制定映射方式或者页面拖拽方式将每条原始数据与目标数据中的每个字段进行关联,以产生映射关系。
[0015]可选地,在第一方面的一种可能实现方式中,所述数据源包括:关系型数据库、非关系型数据库。
[0016]可选地,在第一方面的一种可能实现方式中,所述从数据源中获取原始数据,包括:在多个原始数据进行组合的过程中,预先对不同类型的原始数据分别设置相应的权重值,并根据权重值的大小关系将原始数据进行优先级的排序。
[0017]可选地,在第一方面,提供了另一种数据处理方法,包括:
[0018]从数据源中获取原始数据;
[0019]定义协议标准,并将所述协议保存至数据库中;
[0020]从数据库中查询协议并通过代码方式生成转换规则;
[0021]根据预设转换工具和所述转换规则将所述原始数据转换为目标数据。
[0022]本专利技术实施例的第二方面,提供一种数据处理装置,包括:
[0023]获取模块,用于从数据源中获取原始数据;
[0024]定义模块,用于定义所述原始数据和目标数据的映射关系;
[0025]生成模块,用于基于所述映射关系生成转换规则;
[0026]转换模块,用于根据预设转换工具和所述转换规则将所述原始数据转换为目标数据。
[0027]可选地,在第二方面的一种可能实现方式中,所述定义模块还用于执行以下步骤,包括:
[0028]采用手动制定映射方式或者页面拖拽方式将每条原始数据与目标数据中的每个字段进行关联,以产生映射关系。
[0029]可选地,在第二方面的一种可能实现方式中,所述获取模块还用于执行以下步骤,包括:
[0030]将一个原始数据或者多个原始数据的组合作为基础数据,所述基础数据用于定义所述原始数据和目标数据的映射关系。
[0031]可选地,在第二方面的一种可能实现方式中,所述数据源包括:关系型数据库、非关系型数据库。
[0032]可选地,在第二方面的一种可能实现方式中,所述获取模块还用于执行以下步骤,包括:
[0033]在多个原始数据进行组合的过程中,预先对不同类型的原始数据分别设置相应的权重值,并根据权重值的大小关系将原始数据进行优先级的排序。
[0034]本专利技术实施例的第三方面,提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本专利技术第一方面及第一方面各种可能设计的所述方法。
[0035]本专利技术实施例的第四方面,提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以用于实现本专利技术第一方面及第一方面各种可能设计的所述方法。
[0036]本专利技术提供的数据处理方法、装置、存储介质及电子设备,通过从数据源中获取原始数据的方式,定义所述原始数据和目标数据的映射关系;基于所述映射关系生成转换规则;根据预设转换工具和所述转换规则将所述原始数据转换为目标数据。实现了只需要定义所述原始数据和目标数据的映射关系,就可以进行数据映射或者数据清洗,不需要学习相关编程技术,学习成本低;根据预先生成的转换规则通过Jolt工具可以直接端对端进行数据映射或者数据清洗,不会因为数据源或者需求变更带来影响,无需修改代码。
附图说明
[0037]图1为数据处理方法的第一种实施方式的流程图;
[0038]图2为数据处理方法的第一种实施方式的一对一转换的示意图;
[0039]图3为数据处理方法的第一种实施方式的多对一转换的示意图;
[0040]图4为数据处理方法的第二种实施方式的流程图;
[0041]图5为数据处理装置的第一种实施方式的结构图。
具体实施方式
[0042]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0043]本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
[0044]应当理解,在本专利技术的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本专利技术实施例的实施过程构成任何限定。
[0045]应当理解,在本专利技术中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0046]应当理解,在本专利技术中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:从数据源中获取原始数据;定义所述原始数据和目标数据的映射关系;基于所述映射关系生成转换规则;根据预设转换工具和所述转换规则将所述原始数据转换为目标数据。2.根据权利要求1所述的数据处理方法,其特征在于,所述从数据源中获取原始数据,包括:将一个原始数据或者多个原始数据的组合作为基础数据,所述基础数据用于定义所述原始数据和目标数据的映射关系。3.根据权利要求1所述的数据处理方法,其特征在于,所述定义所述原始数据和目标数据的映射关系,包括:采用手动制定映射方式或者页面拖拽方式将每条原始数据与目标数据中的每个字段进行关联,以产生映射关系。4.根据权利要求1所述的数据处理方法,其特征在于,所述数据源包括:关系型数据库、非关系型数据库。5.根据权利要求2所述的数据处理方法,其特征在于,所述从数据源中获取原始数据,包括:在多个原始数据进行组合的过程中,预先对不同类型的原始数据分别设置相应的权重值,并根据权重值的大小关系将原始数据进行优先级的排序。6.一种数据处理方法,其特征在于,包括:从数据源中获取原始数据;定义协议标准,并将所述协议保存至数据库...

【专利技术属性】
技术研发人员:周波杨旋张君王哲蔡浴泓
申请(专利权)人:浙江惠瀜网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1