【技术实现步骤摘要】
一种数据处理方法、装置及设备
本申请涉及互联网
,尤其涉及一种数据处理方法、装置及设备。
技术介绍
数据湖分析(DataLakeAnalytics)用于为用户提供无服务器化(Serverless)的查询分析服务,能够对海量的数据进行任意维度的分析和查询,并可以支持高并发、低延时(毫秒级响应)、实时在线分析、海量数据查询等功能。在传统的关系型数据库中,如果用户需要使用数据库进行查询和分析,则进行如下操作:创建数据库;创建Table(数据表),Table是指关联和维护所有同构记录的集合;将数据导入到Table;基于Table中的数据进行查询和分析。在数据湖分析系统中,其提供的是云关系型数据库,与传统的关系型数据库不同的是,如果用户需要使用数据库进行查询和分析,则进行如下操作:创建Table,将Table映射到当前所属数据源的部分数据集;基于Table进行查询和分析。综上可以看出,在传统的关系型数据库中,是先创建Table,然后,将数据导入到Table;在云关系型数据库中,是在已有数据的基础上,创建Table,但是,不需要将数据导入到Table,只需要将Table与数据进行映射即可。显然,在云关系型数据库中,核心工作之一就是如何实现映射。在传统方式中,为了实现映射,则可以采用如下方式:由用户指定Table与数据的映射关系,也就是说,由用户给出数据的元信息,并将该元信息与Table绑定。但是,由用户给出元信息时,用户的工作量很大,而且容易出错,用户体验较差。
技术实现思路
本 ...
【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n获取数据处理请求,所述数据处理请求包括数据源的位置信息;/n根据所述位置信息从所述数据源的数据集中获取属性信息;其中,所述数据源包括多个数据集,且所述数据集包括所述数据集的属性信息;/n根据所述属性信息创建数据表,所述数据表对应至少一个数据集,并将所述至少一个数据集对应的元信息与所述数据表进行关联;/n利用所述数据表和所述数据表关联的元信息进行数据处理。/n
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
获取数据处理请求,所述数据处理请求包括数据源的位置信息;
根据所述位置信息从所述数据源的数据集中获取属性信息;其中,所述数据源包括多个数据集,且所述数据集包括所述数据集的属性信息;
根据所述属性信息创建数据表,所述数据表对应至少一个数据集,并将所述至少一个数据集对应的元信息与所述数据表进行关联;
利用所述数据表和所述数据表关联的元信息进行数据处理。
2.根据权利要求1所述的方法,其特征在于,
根据所述属性信息创建数据表,所述数据表对应至少一个数据集,包括:
根据所述多个数据集分别对应的属性信息,对所述多个数据集进行聚类,得到聚类集合,其中,所述聚类集合包括至少一个数据集;
为所述聚类集合创建数据表,所述数据表对应所述至少一个数据集。
3.根据权利要求2所述的方法,其特征在于,根据所述多个数据集分别对应的属性信息,对所述多个数据集进行聚类,得到聚类集合,包括:
获取聚类指示信息,所述聚类指示信息用于指示聚类子属性;
基于所述多个数据集分别对应的属性信息,根据所述聚类指示信息确定所述多个数据集分别对应的聚类子属性,并根据所述多个数据集分别对应的聚类子属性,对所述多个数据集进行聚类,得到聚类集合。
4.根据权利要求3所述的方法,其特征在于,根据所述多个数据集分别对应的聚类子属性,对所述多个数据集进行聚类,得到聚类集合,包括:
基于所述多个数据集分别对应的聚类子属性,将聚类子属性相同的数据集聚类到同一聚类集合,将聚类子属性不同的数据集聚类到不同的聚类集合。
5.根据权利要求3所述的方法,其特征在于,获取聚类指示信息,包括:
若所述数据处理请求还包括聚类指示信息,则从所述数据处理请求中获取所述聚类指示信息;或者,获取预先配置的聚类指示信息。
6.根据权利要求2所述的方法,其特征在于,根据所述多个数据集分别对应的属性信息,对所述多个数据集进行聚类,得到聚类集合,包括:
若所述数据处理请求还包括过滤指示信息,则根据所述过滤指示信息对所述多个数据集进行过滤,得到目标数据集;基于所述目标数据集对应的属性信息,对所述目标数据集进行聚类,得到聚类集合。
7.根据权利要求1所述的方法,其特征在于,
根据所述位置信息从所述数据源的数据集中获取属性信息,包括:
判断是否为所述数据处理请求使能数据表发现功能;
如果是,则根据所述位置信息从所述数据源的数据集中获取属性信息。
8.根据权利要求7所述的方法,其特征在于,
所述判断是否为所述数据处理请求使能数据表发现功能,包括:
若所述数据处理请求还包括自动发现指示信息,则根据所述自动发现指示信息判断是否为所述数据处理请求使能数据表发现功能。
9.根据权利要求1所述的方法,其特征在于,
所述根据所述属性信息创建数据表之后,还包括:若所述数据处理请求还包括命名指示信息,则根据所述命名指示信息对所述数据表进行命名。
10.根据权利要求1所述的方法,其特征在于,
所述将所述至少一个数据集对应的元信息与所述数据表进行关联,包括:
根据所述至少一个数据集对应的属性信息,确定所述至少一个数据集对应的元信息,并将所述元信息与所述数据表进行关联。
11.一种数据处理方法,其特征在于,应用于数据湖分析平台,所述数据湖分析平台用于为用户提供无服务器化的数据处理服务,所述方法包括:
获取数据处理请求,所述数据处理请求包括数据源的位置信息;
根据所述位置信息从所述数据源的数据集中获取属性信息;其中,所述数据源包括多个数据集,且所述数据集包括所述数据集的属性信息;
根据所述属性信息创建数据表,所述数据表对应至...
【专利技术属性】
技术研发人员:王烨,周祥,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。