列式存储文件的数据更新方法及装置制造方法及图纸

技术编号:30523331 阅读:19 留言:0更新日期:2021-10-27 23:07
本发明专利技术提供一种列式存储文件的数据更新方法及装置,方法包括:获取待更新的目标数据和目标数据的数据信息;根据数据信息,对目标数据进行更新;其中,数据信息至少包括目标数据所在列式存储文件的文件名、目标文件、目标数据所在列式存储文件的列数、目标数据所在列式存储文件的行数和目标数据所在列式存储文件的元数据。所述装置用于执行上述方法。本发明专利技术通过利用目标数据在列式存储文件的数据信息,能够实现对列式存储文件的数据的更新。能够实现对列式存储文件的数据的更新。能够实现对列式存储文件的数据的更新。

【技术实现步骤摘要】
列式存储文件的数据更新方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种列式存储文件的数据更新方法及装置。

技术介绍

[0002]在大数据时代,一个常见分析型场景的查询很多时候是计算某个属性上的聚合值,比如计算一个地区的平均身高,所有人的平均年龄等。列式存储通常将不同数据的同一个属性值存在一起,在查询时只遍历需要的数据,更适合分析型场景,因此分析型数据库多选用列式存储文件格式,进行数据存储。
[0003]批量入库,批量分析是分析型数据库的基本能力。在这个过程中,对数据文件的读写能力是分析型数据库的基本功能,列存文件格式基于按照列存储、按照列查询的思想是此场景下最好的选择。
[0004]在实际应用场景中,对数据的更新也是数据加工环节不可少的一部分,如何在列式存储的基础上,实现对数据的更新,是目前亟需解决的问题。

技术实现思路

[0005]本专利技术提供的列式存储文件的数据更新方法,用于克服现有技术中存在的上述问题,通过利用目标数据在列式存储文件的数据信息,能够实现对列式存储文件的数据的更新。
[0006]本专利技术提供一种列式存储文件的数据更新方法,包括:
[0007]获取待更新的目标数据和所述目标数据的数据信息;
[0008]根据所述数据信息,对所述目标数据进行更新;
[0009]其中,所述数据信息至少包括所述目标数据所在所述列式存储文件的文件名、目标文件、所述目标数据所在所述列式存储文件的列数、所述目标数据所在所述列式存储文件的行数和所述目标数据所在所述列式存储文件的元数据。
[0010]根据本专利技术提供的一种列式存储文件的数据更新方法,所述根据所述数据信息,对所述目标数据进行更新,包括:
[0011]根据所述数据信息,对所述目标数据进行修改;或
[0012]根据所述数据信息,对所述目标数据进行删除。
[0013]根据本专利技术提供的一种列式存储文件的数据更新方法,所述根据所述数据信息,对所述目标数据进行修改,包括:
[0014]根据所述数据信息,获取第预设列的列数据;
[0015]对所述第预设列的列数据中第第一预设行的所述目标数据进行修改;
[0016]对所述第预设列的元数据进行修改,并将修改后的元数据和更新后的列式存储文件的列数据写入第一目标文件;
[0017]其中,所述预设列是根据所述目标数据所在所述列式存储文件的列数确定的;
[0018]所述第一预设行是根据所述目标数据所在所述列式存储文件的行数确定的;
[0019]所述目标文件包括所述第一目标文件。
[0020]根据本专利技术提供的一种列式存储文件的数据更新方法,所述对所述第预设列的元数据进行修改,包括:
[0021]将所述第预设列的元数据的有效文件路径修改为所述第一目标文件的文件名。
[0022]根据本专利技术提供的一种列式存储文件的数据更新方法,所述第一目标文件的文件名,包括:
[0023]版本号。
[0024]根据本专利技术提供的一种列式存储文件的数据更新方法,所述根据所述数据信息,对所述目标数据进行删除,包括:
[0025]根据所述数据信息,确定目标行数的比特数组;
[0026]将第第二预设行的所述比特数组的比特值修改为预设比特值,以对所述比特数组进行修改;
[0027]将修改后的比特数组保存到所述元数据中,以对所述元数据进行修改;
[0028]将修改后的元数据写入第二目标文件;
[0029]其中,所述目标行数是根据所述列式存储文件的总数据行数确定的;
[0030]所述第二预设行是根据所述目标数据的所在所述列式存储文件的行数确定的;
[0031]所述目标文件包括所述第二目标文件。
[0032]本专利技术还提供一种列式存储文件的数据更新装置,数据获取模块和数据更新模块;
[0033]所述数据获取模块,用于获取待更新的目标数据和所述目标数据的数据信息;
[0034]所述数据更新模块,用于根据所述数据信息,对所述目标数据进行更新;
[0035]其中,所述数据信息至少包括所述目标数据所在所述列式存储文件的文件名、目标文件、所述目标数据所在所述列式存储文件的列数、所述目标数据所在所述列式存储文件的行数和所述目标数据所在所述列式存储文件的元数据。
[0036]根据本专利技术提供的一种列式存储文件的数据更新装置,所述数据更新模块,还用于:
[0037]根据所述数据信息,对所述目标数据进行修改;或
[0038]根据所述数据信息,对所述目标数据进行删除。
[0039]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述列式存储文件的数据更新方法的步骤。
[0040]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述列式存储文件的数据更新方法的步骤。
[0041]本专利技术提供的列式存储文件的数据更新方法及装置,通过利用目标数据在列式存储文件的数据信息,能够实现对列式存储文件的数据的更新。
附图说明
[0042]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术
描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0043]图1是本专利技术提供的列式存储文件的数据更新方法的流程示意图;
[0044]图2是本专利技术提供的列式存储文件的数据更新装置的结构示意图;
[0045]图3是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0046]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0047]本专利技术提供的列式存储文件的数据更新方法在批量数据加载后通过列式文件存储,对数据进行批量更新删除操作,方案中涉及的文件格式皆为列式存储,更新后不影响列式存储数据整体的查询特性,具体实现如下:
[0048]图1是本专利技术提供的列式存储文件的数据更新方法的流程示意图,如图1所示,方法包括:
[0049]S1、获取待更新的目标数据和目标数据的数据信息;
[0050]S2、根据数据信息,对目标数据进行更新;
[0051]其中,数据信息至少包括目标数据所在列式存储文件的文件名、目标文件、目标数据所在列式存储文件的列数、目标数据所在列式存储文件的行数和目标数据所在列式存储文件的元数据。
[0052]需要说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种列式存储文件的数据更新方法,其特征在于,包括:获取待更新的目标数据和所述目标数据的数据信息;根据所述数据信息,对所述目标数据进行更新;其中,所述数据信息至少包括所述目标数据所在所述列式存储文件的文件名、目标文件、所述目标数据所在所述列式存储文件的列数、所述目标数据所在所述列式存储文件的行数和所述目标数据所在所述列式存储文件的元数据。2.根据权利要求1所述的列式存储文件的数据更新方法,其特征在于,所述根据所述数据信息,对所述目标数据进行更新,包括:根据所述数据信息,对所述目标数据进行修改;或根据所述数据信息,对所述目标数据进行删除。3.根据权利要求2所述的列式存储文件的数据更新方法,其特征在于,所述根据所述数据信息,对所述目标数据进行修改,包括:根据所述数据信息,获取第预设列的列数据;对所述第预设列的列数据中第第一预设行的所述目标数据进行修改;对所述第预设列的元数据进行修改,并将修改后的元数据和更新后的列式存储文件的列数据写入第一目标文件;其中,所述预设列是根据所述目标数据所在所述列式存储文件的列数确定的;所述第一预设行是根据所述目标数据所在所述列式存储文件的行数确定的;所述目标文件包括所述第一目标文件。4.根据权利要求3所述的列式存储文件的数据更新方法,其特征在于,所述对所述第预设列的元数据进行修改,包括:将所述第预设列的元数据的有效文件路径修改为所述第一目标文件的文件名。5.根据权利要求4所述的列式存储文件的数据更新方法,其特征在于,所述第一目标文件的文件名,包括:版本号。6.根据权利要求3所述的列式存储文件的数据更新方法,其特征在于,所述根据所述数据信息...

【专利技术属性】
技术研发人员:徐微张烨冀家玮
申请(专利权)人:北京东方国信科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1