【技术实现步骤摘要】
数据湖索引创建方法、装置、电子设备及计算机存储介质
[0001]本申请属于大数据
,尤其涉及一种数据湖索引创建方法、装置、电子设备及计算机存储介质。
技术介绍
[0002]数据湖的定义为高度可扩展的数据存储区域,以原始格式存储大量原始数据,直到需要使用为止。数据湖可以存储所有类型的数据,对帐户大小或文件没有固定限制,也没有定义特定用途。数据来自不同的来源,可以是结构化的、半结构化的,甚至是非结构化的,数据可按需查询。
[0003]为了获得较优的数据查询和处理性能,现有的数据湖索引一般是在代码层面选择固定的索引或者用户自定义固定索引,需要预先设置索引,使得目前的数据湖索引创建缺乏灵活性。
技术实现思路
[0004]本申请实施例提供一种数据湖索引创建方法、装置、电子设备及计算机存储介质,能够根据海量数据的数据分布和数据值特征,自动对索引进行触发创建,提高数据湖索引创建的灵活性。
[0005]第一方面,本申请实施例提供一种数据湖索引创建方法,该方法可以包括:
[0006]在数据湖获取到 ...
【技术保护点】
【技术特征摘要】
1.一种数据湖索引创建方法,其特征在于,包括:在数据湖获取到目标数据的情况下,获取所述目标数据的数据动态变化信息,所述数据动态变化信息用于映射所述目标数据在进入所述数据湖的过程中的事务动作;根据所述目标数据的所述数据动态变化信息,提取所述目标数据的数据特征;根据提取到的所述目标数据的所述数据特征,创建数据湖索引。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据的所述数据动态变化信息,提取所述目标数据的数据特征,包括:根据所述目标数据的所述数据动态变化信息,生成数据变更记录文件;根据所述数据变更记录文件,提取得到所述目标数据的所述数据特征。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标数据的所述数据动态变化信息,生成数据变更记录文件,包括:记录所述数据动态变化信息中的所述目标数据的动作类变更信息和数据统计类变更信息,生成所述数据变更记录文件,所述动作类变更信息用于指示对所述目标数据进行插入、删除或更新的变更动作,所述数据统计类变更信息用于指示对所述目标数据进行统计的变更动作。4.根据权利要求2所述的方法,其特征在于,所述数据变更记录文件包括所述目标数据的至少一条数据变更记录;所述根据所述数据变更记录文件,提取得到所述目标数据的数据特征,包括:解析所述数据变更记录文件,得到所述至少一条数据变更记录;根据所述至少一条数据变更记录和所述目标数据的类型,通过自动特征工程对所述目标数据进行特征构建,得到所述目标数据的所述数据特征,所述目标数据的类型包括文本类型、数据类型、类别类型、地理空间类型、日期和时间类型以及维度类型中的任一种。5.根据权利要求4所述的方法,其特征在于,所述自动特征工程包括至少一个特征基元;所述根据所述至少一条数据变更记录和所述目标数据的类型,通过自动特征工程对所述目标数据进行特征构建,得到所述目标数据的所述数据特...
【专利技术属性】
技术研发人员:代莎,陈卓,陈乐,周衡,陶涛,杨志勇,傅茗萱,段怡婷,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。