数据文件处理方法、装置、设备、介质和程序产品制造方法及图纸

技术编号:38343242 阅读:15 留言:0更新日期:2023-08-02 09:23
本公开提供了一种数据文件处理方法、装置、设备、介质和程序产品,可以应用于计算机技术领域。数据文件处理方法包括数据文件存储和数据文件读取。本公开设计了特殊的数据索引结构,根据特殊的数据索引结构,对哈希表和红黑树中的数据文件内容进行读取,大大提高了数据文件的读取效率,并且组合条件查询的方法,使得数据文件内容的读取既快速又准确全面,满足了海量数据的快速读取需求。了海量数据的快速读取需求。了海量数据的快速读取需求。

【技术实现步骤摘要】
数据文件处理方法、装置、设备、介质和程序产品


[0001]本公开涉及计算机
,尤其涉及一种数据文件处理方法、装置、设备、介质和程序产品。

技术介绍

[0002]近年来,由于消费增长和为拓展价值而进行的产业转型,数据每年呈几何级增长,物联网和大数据的迅猛发展,为计算机存储以及读取海量的数据文件带来了新的挑战。
[0003]传统的文件存取方法存在读取效率低,查询耗时时间长的缺点,依靠传统的数据存储和处理工具,很难实现对海量数据的高效处理,因此急需一种更加高效快速的数据文件存储、读取方法以满足海量数据文件的存取需求。

技术实现思路

[0004]鉴于上述问题,本公开提供了一种数据文件处理方法、装置、设备、介质和程序产品,以解决现有技术中数据文件读取效率低的问题,实现对海量数据的高效处理。
[0005]本公开的第一方面提供了一种数据文件处理方法,包括:
[0006]写入数据文件内容;
[0007]提取所述数据文件内容的存储关键字;
[0008]创建所述存储关键字对应的索引信息文件,所述索引信息文件包括索引信息文件内容块和索引信息文件内容;
[0009]生成存储关键字哈希值,将所述索引信息文件内容块存储于哈希表结构中,所述索引信息文件内容块以所述存储关键字哈希值为键;
[0010]以所述存储关键字为键,以所述索引信息文件内容为值构建红黑树,所述存储关键字对应红黑树的根;
[0011]完成数据文件存储。
[0012]根据本公开的实施例,所述索引信息文件内容块包括所述存储关键字哈希值、存储关键字内容、内容位置ID和内容详情;
[0013]所述内容详情包括数据文件名、内容偏移量和内容大小。
[0014]根据本公开的实施例,在所述以所述存储关键字内容为键,以所述索引信息文件内容为值构建红黑树,所述存储关键字内容对应红黑树的根之后,还包括:
[0015]生成所述内容位置ID;
[0016]以所述内容位置ID为键,以所述内容详情为值,构建红黑树子树。
[0017]根据本公开的实施例,所述内容位置ID是根据所述内容详情生成的;
[0018]所述内容位置ID,是对应所述数据文件内容的唯一标识符。
[0019]根据本公开的实施例,所述数据文件处理方法还包括:
[0020]生成待检索内容的检索关键字;
[0021]计算所述检索关键字的哈希值,以所述检索关键字哈希值为键,在哈希表中找到
对应的索引信息文件内容块;
[0022]查找到所述索引信息文件内容块对应的存储了索引信息文件内容的红黑树;
[0023]以检索关键字为键,按照红黑树查询方法,查找到红黑树子树;
[0024]读取所述红黑树子树的值,获得数据文件内容。
[0025]根据本公开的实施例,所述以检索关键字为键,按照红黑树查询方法,查找到红黑树子树,包括单一条件检索和组合条件检索;
[0026]当所述检索关键字为单一条件检索,则以所述检索关键字为键,按照红黑树查询方法,查找到对应的存储了内容详情的所述红黑树子树,读取所有所述红黑树子树的值,得到待获取的所述数据文件内容;
[0027]当所述检索关键字为组合条件检索,则分别依次以所述组合条件的各个所述检索关键字为键,按照红黑树查询方法,查找到对应的存储了内容详情的所述红黑树子树,再按照所述内容位置ID对所有所述红黑树子树进行并集计算,得到的并集结果作为组合条件查询的结果集,读取所述结果集,得到待获取的所述数据文件内容。
[0028]本公开的第二方面提供了一种数据文件处理装置,包括:
[0029]写入模块,用于写入数据文件内容;
[0030]提取模块,用于提取所述数据文件内容的存储关键字;
[0031]创建模块,用于创建所述存储关键字对应的索引信息文件,所述索引信息文件包括索引信息文件内容块和索引信息文件内容;
[0032]存储模块,用于生成存储关键字哈希值,将所述索引信息文件内容块存储于哈希表结构中,所述索引信息文件内容块以所述存储关键字哈希值为键;
[0033]构建模块,用于以所述存储关键字为键,以所述索引信息文件内容为值构建红黑树,所述存储关键字对应红黑树的根。
[0034]本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
[0035]本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
[0036]本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法。
[0037]根据本公开提供的数据文件存储、读取方法、装置、设备、介质和程序产品,通过结合哈希表和红黑树,设计特殊的数据索引结构,大大提高了数据文件的读取效率,满足了海量数据的快速存取需求。
附图说明
[0038]通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
[0039]图1示意性示出了根据本公开实施例的数据文件存储方法的流程图;
[0040]图2示意性示出了根据本公开实施例的数据文件读取方法的流程图;
[0041]图3示意性示出了根据本公开实施例的数据文件存储、读取装置的结构框图;以
及,
[0042]图4示意性示出了根据本公开实施例的电子设备的示意图。
具体实施方式
[0043]以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
[0044]在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
[0045]在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
[0046]图1示意性示出了根据本公开实施例的数据文件存储方法的流程图,如图1所示,该实施例的数据文件存储方法具体包括操作S101

S106:
[0047]在操作S101,写入数据文件内容;
[0048]在操作S102,提取该数据文件内容的存储关键字;
[0049]在操作S10本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据文件处理方法,其特征在于,包括:写入数据文件内容;提取所述数据文件内容的存储关键字;创建所述存储关键字对应的索引信息文件,所述索引信息文件包括索引信息文件内容块和索引信息文件内容;生成存储关键字哈希值,将所述索引信息文件内容块存储于哈希表结构中,所述索引信息文件内容块以所述存储关键字哈希值为键;以所述存储关键字为键,以所述索引信息文件内容为值构建红黑树,所述存储关键字对应红黑树的根;完成数据文件存储。2.根据权利要求1所述的文件处理方法,其特征在于,所述索引信息文件内容块包括所述存储关键字哈希值、存储关键字内容、内容位置ID和内容详情;所述内容详情包括数据文件名、内容偏移量和内容大小。3.根据权利要求2所述的文件处理方法,其特征在于,在所述以所述存储关键字内容为键,以所述索引信息文件内容为值构建红黑树,所述存储关键字内容对应红黑树的根之后,还包括:生成所述内容位置ID;以所述内容位置ID为键,以所述内容详情为值,构建红黑树子树。4.根据权利要求3所述的文件处理方法,其特征在于,所述内容位置ID是根据所述内容详情生成的;所述内容位置ID,是对应所述数据文件内容的唯一标识符。5.根据权利要求1所述的数据文件处理方法,其特征在于,所述数据文件处理方法还包括:生成待检索内容的检索关键字;计算所述检索关键字的哈希值,以所述检索关键字哈希值为键,在哈希表中找到对应的索引信息文件内容块;查找到所述索引信息文件内容块对应的存储了索引信息文件内容的红黑树;以检索关键字为键,按照红黑树查询方法,查找到红黑树子树;读取所述红黑树子树的值,获得数据文件内容。6.根据权利要求5所述的一种数据文件处理方法,其特征在于,所述以检索关键字为键,...

【专利技术属性】
技术研发人员:李朴李星吴建平刘知刚郝子剑黄有根
申请(专利权)人:赛尔网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1