一种数据湖的数据写入方法及装置制造方法及图纸

技术编号:39192975 阅读:7 留言:0更新日期:2023-10-27 08:40
本发明专利技术公开了一种数据湖的数据写入方法及装置,涉及计算机技术领域,主要目的在于实现在传入一条新数据的字段数量以及字段名与已有的表字段中的字段数量以及字段名不一致时,可以将该条数据成功写入数据湖,以提升对数据的处理效率。本发明专利技术主要的技术方案为:获取待写入数据的表字段信息;判断所述表字段信息与数据湖的预设表字段信息是否一致;若不一致,根据表字段信息的差异确定对所述待写入数据的修改策略;根据所述修改策略修改所述待写入数据,并写入所述数据湖。本发明专利技术用于数据湖的数据写入。的数据写入。的数据写入。

【技术实现步骤摘要】
一种数据湖的数据写入方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种数据湖的数据写入方法及装置。

技术介绍

[0002]随着科学的发展,计算机技术的不断进步,由于数据湖具有存储海量的原始数据以及较好的分析能力等优势,越来越多的企业为了更智能、便捷地处理多个系统的数据,采用了以数据湖作为支撑的软件系统。
[0003]但在将数据写入数据湖的过程中,由于数据湖中已有的表字段是确定的不能发生修改,所以当传入一条新数据,若新数据的字段数量以及字段名与已有的表字段中的字段数量以及字段名不一致时,则会导致数据写入失败,最终大大降低数据的处理效率。

技术实现思路

[0004]鉴于上述问题,本专利技术提供一种数据湖的数据写入方法及装置,主要目的是为了实现在传入一条新数据的字段数量以及字段名与已有的表字段中的字段数量以及字段名不一致时,可以将该条数据成功写入数据湖,以提升对数据的处理效率。
[0005]为解决上述技术问题,本专利技术提出以下方案:
[0006]第一方面,本专利技术提供了一种数据湖的数据写入方法,所述方法包括:
[0007]获取待写入数据的表字段信息;
[0008]判断所述表字段信息与数据湖的预设表字段信息是否一致;
[0009]若不一致,根据表字段信息的差异确定对所述待写入数据的修改策略;
[0010]根据所述修改策略修改所述待写入数据,并写入所述数据湖。
[0011]第二方面,本专利技术提供了一种数据湖的数据写入装置,所述装置包括:
[0012]获取单元,用于获取待写入数据的表字段信息;
[0013]第一判断单元,用于判断所述表字段信息与数据湖的预设表字段信息是否一致;
[0014]确定单元,用于若不一致,根据表字段信息的差异确定对所述待写入数据的修改策略;
[0015]修改单元,用于根据所述修改策略修改所述待写入数据,并写入所述数据湖。
[0016]为了实现上述目的,根据本专利技术的第三方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述第一方面的数据湖的数据写入方法。
[0017]为了实现上述目的,根据本专利技术的第四方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述第一方面的数据湖的数据写入方法。
[0018]借由上述技术方案,本专利技术提供的一种数据湖的数据写入方法及装置,是在传入一条待写入数据湖的数据之后,获取待写入数据的表字段信息,然后判断所述表字段信息与数据湖的预设表字段信息是否一致,若不一致,根据表字段信息的差异确定对所述待写入数据的修改策略,进而根据所述修改策略修改所述待写入数据,最终成功将待写入数据
写入所述数据湖,通过本专利技术提供的数据湖的数据写入方案,可以实现根据判断出的所述表字段信息与数据湖的预设表字段信息之间的差异结果确定对所述待写入数据的修改策略,进而根据所述修改策略对所述待写入数据进行修改,解决了在待写入数据的表字段信息与数据湖中预设表字段信息不一致的情况下导致的数据写入失败的情况,从而大大提升对数据的处理效率。
[0019]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0020]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0021]图1示出了本专利技术实施例提供的一种数据湖的数据写入方法流程图;
[0022]图2示出了本专利技术实施例提供的另一种数据湖的数据写入方法流程图;
[0023]图3示出了本专利技术实施例提供的一种数据湖的数据写入装置的组成框图;
[0024]图4示出了本专利技术实施例提供的另一种数据湖的数据写入装置的组成框图。
具体实施方式
[0025]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0026]随着科学的发展,计算机技术的不断进步,由于数据湖具有存储海量的原始数据以及较好的分析能力等优势,越来越多的企业为了更智能、便捷地处理多个系统的数据,采用了以数据湖作为支撑的软件系统,但在将数据写入数据湖的过程中,通常采用的是不支持变更的方式,即数据湖中已有的表字段是确定的不能进行修改,所以在将一条新数据写入数据湖之前,可以判断新数据中的表字段信息与数据湖中预先确定好的表字段之间的差别,但在判断出其差别之后,将新数据最终写入数据湖时,由于其差别,无法成功写入,从而导致了对数据处理效率的降低。为此,本专利技术实施例提供了一种数据湖的数据写入方法,可以实现在传入一条新数据时,其新数据的表字段信息中的字段数量以及字段名与数据湖中预设的表字段信息中的字段数量以及字段名不一致时,依然可以将该条数据成功写入数据湖,以提升对数据的处理效率。其具体执行步骤如图1所示,包括:
[0027]101、获取待写入数据的表字段信息。
[0028]该步骤中,在需要将数据写入数据湖时,可以先接收待写入数据湖的数据,在接收到所述待写入数据之后,可以在所述待写入数据中获取待写入数据的表字段信息。
[0029]其中,所述待写入数据的表字段信息中包括至少一个字段名称,以及所述字段名称对应的字段值。
[0030]其中,所述字段名称和所述字段名称对应的字段值之间可以是一一对应的关系。
[0031]示例性的,所述字段名称可以是姓名、年龄、地址等,所述字段名称对应的字段值可以是张三、23岁、北京等。
[0032]102、判断表字段信息与数据湖的预设表字段信息是否一致。
[0033]该步骤中,在获取到所述待写入数据的表字段信息之后,可以从数据湖中获取到预设的表字段信息,为了确定所述待写入数据能否成功写入,可以通过对所述表字段信息和所述预设表字段信息之间的字段数量和属性等信息进行对比和匹配等方式,判断所述表字段信息与数据湖的预设表字段信息是否一致。若一致,则将数据直接写入数据湖,若不一致,则执行步骤103。
[0034]其中,所述数据湖是一个集中式存储库,其可以存储海量的原始数据、能够支持任意的数据格式、有较好的分析和处理能力。
[0035]其中,所述数据湖的预设表字段信息是预先设定好的,其不能发生修改。
[0036]103、根据表字段信息的差异确定对待写入数据的修改策略。
[0037]该步骤中,在确定出所述表字段信息与数据湖的预设表字段信息不一致的情况下,为了让本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据湖的数据写入方法,其特征在于,所述方法包括:获取待写入数据的表字段信息;判断所述表字段信息与数据湖的预设表字段信息是否一致;若不一致,根据表字段信息的差异确定对所述待写入数据的修改策略;根据所述修改策略修改所述待写入数据,并写入所述数据湖。2.根据权利要求1所述的方法,其特征在于,所述判断所述表字段信息与数据湖的预设表字段信息是否一致,包括:判断表字段信息中的字段数量是否一致;若字段数量不一致,则确定表字段信息与预设表字段信息不一致;若字段数量一致,判断所述表字段信息中的字段名称是否一致,若字段名称不一致则确定表字段信息与预设表字段信息不一致。3.根据权利要求2所述的方法,其特征在于,根据表字段信息的差异确定对所述待写入数据的修改策略,包括:基于所述字段数量与字段名称的差异,确定表字段信息的差异类型;根据所述差异类型确定对所述待写入数据的修改策略。4.根据权利要求3所述的方法,其特征在于,根据所述差异类型确定对所述待写入数据的修改策略,包括:所述差异类型为字段数量不同,字段名称相同时,确定所述修改策略为对所述待写入数据中的字段数量进行修改;所述差异类型为字段数量相同,字段名称不同时,确定所述修改策略为对所述待写入数据中的字段名称进行修改;所述差异类型为字段数量不同且字段名称不同时,确定所述修改策略为基于预设表字段信息中的字段数量以及字段名称对所述待写入数据中的字段数量以及字段名称进行修改。5.根据权利要求1

4中任一项所述的方法,其特征在于,在根据所述修改策略修改所述待写入数据,并写入所述数据湖之前,所述方法还包括:提取所述待写入数据中主键字段对应的字段信息;判断所述数据湖中数据的主键字段是否存在与所述字段...

【专利技术属性】
技术研发人员:刘向前
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1