数据湖索引创建方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:37721657 阅读:11 留言:0更新日期:2023-06-02 00:21
本申请公开了一种数据湖索引创建方法、装置、电子设备及计算机存储介质,在数据湖获取到目标数据的情况下,获取目标数据的数据动态变化信息,再根据目标数据的数据动态变化信息,提取目标数据的数据特征。最后根据提取到的目标数据的数据特征,创建数据湖索引。如此,在数据动态入湖过程中,对目标数据变更记录进行实时采集探查,构建生成目标数据的数据特征,进而触发索引管理服务进行索引的自动创建,提高了数据湖索引创建的灵活性,并且由于是根据入湖数据自身的数据特征针对性地进行索引创建,以此基于创建的数据湖索引进行数据查询时可提高数据检索性能。查询时可提高数据检索性能。查询时可提高数据检索性能。

【技术实现步骤摘要】
数据湖索引创建方法、装置、电子设备及计算机存储介质


[0001]本申请属于大数据
,尤其涉及一种数据湖索引创建方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]数据湖的定义为高度可扩展的数据存储区域,以原始格式存储大量原始数据,直到需要使用为止。数据湖可以存储所有类型的数据,对帐户大小或文件没有固定限制,也没有定义特定用途。数据来自不同的来源,可以是结构化的、半结构化的,甚至是非结构化的,数据可按需查询。
[0003]为了获得较优的数据查询和处理性能,现有的数据湖索引一般是在代码层面选择固定的索引或者用户自定义固定索引,需要预先设置索引,使得目前的数据湖索引创建缺乏灵活性。

技术实现思路

[0004]本申请实施例提供一种数据湖索引创建方法、装置、电子设备及计算机存储介质,能够根据海量数据的数据分布和数据值特征,自动对索引进行触发创建,提高数据湖索引创建的灵活性。
[0005]第一方面,本申请实施例提供一种数据湖索引创建方法,该方法可以包括:
[0006]在数据湖获取到目标数据的情况下,获取目标数据的数据动态变化信息,数据动态变化信息用于映射目标数据在进入数据湖的过程中的事务动作;
[0007]根据目标数据的数据动态变化信息,提取目标数据的数据特征;
[0008]根据提取到的目标数据的数据特征,创建数据湖索引。
[0009]在其中一个实施例中,上述涉及到的根据目标数据的数据动态变化信息,提取目标数据的数据特征,包括:
[0010]根据目标数据的数据动态变化信息,生成数据变更记录文件;
[0011]根据数据变更记录文件,提取得到目标数据的数据特征。在其中一个实施例中,上述涉及到的根据目标数据的数据动态变化信息,生成数据变更记录文件,包括:
[0012]记录数据动态变化信息中的目标数据的动作类变更信息和数据统计类变更信息,生成数据变更记录文件,动作类变更信息用于指示对目标数据进行插入、删除或更新的变更动作,数据统计类变更信息用于指示对目标数据进行统计的变更动作。
[0013]在其中一个实施例中,上述涉及到的数据变更记录文件包括目标数据的至少一条数据变更记录;
[0014]根据数据变更记录文件,提取得到目标数据的数据特征,包括:
[0015]解析数据变更记录文件,得到至少一条数据变更记录;
[0016]根据至少一条数据变更记录和目标数据的类型,通过自动特征工程对目标数据进行特征构建,得到目标数据的数据特征,目标数据的类型包括文本类型、数据类型、类别类
型、地理空间类型、日期和时间类型以及维度类型中的任一种。
[0017]在其中一个实施例中,上述涉及到的自动特征工程包括至少一个特征基元;
[0018]根据至少一条数据变更记录和目标数据的类型,通过自动特征工程对目标数据进行特征构建,得到目标数据的数据特征,包括:
[0019]根据至少一条数据变更记录,针对目标数据的类型,通过自动特征工程中的至少一个特征基元,对目标数据进行叠加特征构建,提取得到目标数据的数据特征。
[0020]在其中一个实施例中,上述涉及到的根据提取到的目标数据的数据特征,创建数据湖索引之后,还包括:
[0021]在获取到查询请求的情况下,基于数据湖索引计算多个预设查询路径中各预设查询路径的查询代价,选择查询代价满足预设条件的预设查询路径作为目标查询路径;
[0022]根据目标查询路径,对查询请求对应的数据进行查找。
[0023]在其中一个实施例中,上述涉及到的根据提取到的目标数据的数据特征,创建数据湖索引之后,还包括:
[0024]对目标数据进行数据特征分析,得到数据特征分析结果;
[0025]根据目标数据的数据特征分析结果,对预设的数据湖索引进行更新,预设的数据湖索引为数据湖被设置的初始索引。
[0026]第二方面,本申请实施例提供一种数据湖索引创建装置,该装置可以包括:
[0027]获取模块,用于在数据湖获取到目标数据的情况下,获取目标数据的数据动态变化信息,数据动态变化信息用于映射目标数据在进入数据湖的过程中的事务动作;
[0028]提取模块,用于根据目标数据的数据动态变化信息,提取目标数据的数据特征;
[0029]创建模块,用于根据提取到的目标数据的数据特征,创建数据湖索引。
[0030]第三方面,本申请实施例提供了一种电子设备,设备包括:
[0031]处理器;
[0032]用于存储处理器可执行指令的存储器;
[0033]其中,处理器被配置为执行指令,以实现如第一方面的任一项实施例中所示的数据湖索引创建方法。
[0034]第四方面,本申请实施例提供了一种计算机存储介质,该计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如第一方面的任一项实施例中所示的数据湖索引创建方法。
[0035]第五方面,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在可读存储介质中,设备的至少一个处理器从存储介质读取并执行计算机程序,使得设备执行第一方面的任一项实施例中所示的数据湖索引创建方法。
[0036]本申请实施例提供了一种数据湖索引创建方法、装置、电子设备及计算机存储介质,相较于现有技术,本申请具有以下有益效果:
[0037]本申请实施例的一种数据湖索引创建方法、装置、电子设备及计算机存储介质,在数据湖获取到目标数据的情况下,获取目标数据的数据动态变化信息,再根据目标数据的数据动态变化信息,提取目标数据的数据特征。最后根据提取到的目标数据的数据特征,创建数据湖索引。
[0038]如此,在数据动态入湖过程中,对目标数据变更记录进行实时采集探查,构建生成目标数据的数据特征,进而触发索引管理服务进行索引的自动创建,提高了数据湖索引创建的灵活性,并且由于是根据入湖数据自身的数据特征针对性地进行索引创建,以此基于创建的数据湖索引进行数据查询时可提高数据检索性能。
附图说明
[0039]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1是本申请实施例提供的一种数据湖索引创建方法的流程示意图;
[0041]图2是本申请实施例提供的另一种数据湖索引创建方法的流程示意图;
[0042]图3是本申请实施例提供的一种数据湖索引创建系统的架构示意图;
[0043]图4是本申请实施例提供的一种数据湖索引创建装置的结构示意图;
[0044]图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0045]下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据湖索引创建方法,其特征在于,包括:在数据湖获取到目标数据的情况下,获取所述目标数据的数据动态变化信息,所述数据动态变化信息用于映射所述目标数据在进入所述数据湖的过程中的事务动作;根据所述目标数据的所述数据动态变化信息,提取所述目标数据的数据特征;根据提取到的所述目标数据的所述数据特征,创建数据湖索引。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据的所述数据动态变化信息,提取所述目标数据的数据特征,包括:根据所述目标数据的所述数据动态变化信息,生成数据变更记录文件;根据所述数据变更记录文件,提取得到所述目标数据的所述数据特征。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标数据的所述数据动态变化信息,生成数据变更记录文件,包括:记录所述数据动态变化信息中的所述目标数据的动作类变更信息和数据统计类变更信息,生成所述数据变更记录文件,所述动作类变更信息用于指示对所述目标数据进行插入、删除或更新的变更动作,所述数据统计类变更信息用于指示对所述目标数据进行统计的变更动作。4.根据权利要求2所述的方法,其特征在于,所述数据变更记录文件包括所述目标数据的至少一条数据变更记录;所述根据所述数据变更记录文件,提取得到所述目标数据的数据特征,包括:解析所述数据变更记录文件,得到所述至少一条数据变更记录;根据所述至少一条数据变更记录和所述目标数据的类型,通过自动特征工程对所述目标数据进行特征构建,得到所述目标数据的所述数据特征,所述目标数据的类型包括文本类型、数据类型、类别类型、地理空间类型、日期和时间类型以及维度类型中的任一种。5.根据权利要求4所述的方法,其特征在于,所述自动特征工程包括至少一个特征基元;所述根据所述至少一条数据变更记录和所述目标数据的类型,通过自动特征工程对所述目标数据进行特征构建,得到所述目标数据的所述数据特...

【专利技术属性】
技术研发人员:代莎陈卓陈乐周衡陶涛杨志勇傅茗萱段怡婷
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1