一种数据处理方法、装置及设备制造方法及图纸

技术编号:25802559 阅读:34 留言:0更新日期:2020-09-29 18:36
本申请提供一种数据处理方法、装置及设备,该方法包括:获取数据处理请求,所述数据处理请求包括数据源的位置信息;根据所述位置信息从数据源的数据集中获取属性信息;所述数据源包括多个数据集,所述数据集包括所述数据集的属性信息;根据所述属性信息创建数据表,所述数据表对应至少一个数据集,将所述至少一个数据集对应的元信息与所述数据表进行关联;利用所述数据表和所述数据表关联的元信息进行数据处理。通过本申请的技术方案,可以自动关联元信息与数据表,从而减少用户的工作量,提高用户体验。

【技术实现步骤摘要】
一种数据处理方法、装置及设备
本申请涉及互联网
,尤其涉及一种数据处理方法、装置及设备。
技术介绍
数据湖分析(DataLakeAnalytics)用于为用户提供无服务器化(Serverless)的查询分析服务,能够对海量的数据进行任意维度的分析和查询,并可以支持高并发、低延时(毫秒级响应)、实时在线分析、海量数据查询等功能。在传统的关系型数据库中,如果用户需要使用数据库进行查询和分析,则进行如下操作:创建数据库;创建Table(数据表),Table是指关联和维护所有同构记录的集合;将数据导入到Table;基于Table中的数据进行查询和分析。在数据湖分析系统中,其提供的是云关系型数据库,与传统的关系型数据库不同的是,如果用户需要使用数据库进行查询和分析,则进行如下操作:创建Table,将Table映射到当前所属数据源的部分数据集;基于Table进行查询和分析。综上可以看出,在传统的关系型数据库中,是先创建Table,然后,将数据导入到Table;在云关系型数据库中,是在已有数据的基础上,创建Table,但是,不需要将数据导入到Table,只需要将Table与数据进行映射即可。显然,在云关系型数据库中,核心工作之一就是如何实现映射。在传统方式中,为了实现映射,则可以采用如下方式:由用户指定Table与数据的映射关系,也就是说,由用户给出数据的元信息,并将该元信息与Table绑定。但是,由用户给出元信息时,用户的工作量很大,而且容易出错,用户体验较差。
技术实现思路
申请提供一种数据处理方法,所述方法包括:获取数据处理请求,所述数据处理请求包括数据源的位置信息;根据所述位置信息从所述数据源的数据集中获取属性信息;其中,所述数据源包括多个数据集,且所述数据集包括所述数据集的属性信息;根据所述属性信息创建数据表,所述数据表对应至少一个数据集,并将所述至少一个数据集对应的元信息与所述数据表进行关联;利用所述数据表和所述数据表关联的元信息进行数据处理。本申请提供一种数据处理方法,应用于数据湖分析平台,所述数据湖分析平台用于为用户提供无服务器化的数据处理服务,所述方法包括:获取数据处理请求,所述数据处理请求包括数据源的位置信息;根据所述位置信息从所述数据源的数据集中获取属性信息;其中,所述数据源包括多个数据集,且所述数据集包括所述数据集的属性信息;根据所述属性信息创建数据表,所述数据表对应至少一个数据集,并将所述至少一个数据集对应的元信息与所述数据表进行关联;利用所述数据表和所述数据表关联的元信息进行数据处理;其中,所述数据源包括所述数据湖分析平台提供的云数据库。本申请提供一种数据处理方法,所述方法包括:获取数据处理请求,所述数据处理请求包括数据源的位置信息;根据所述位置信息从所述数据源的数据集中获取属性信息;根据所述属性信息创建数据表,所述数据表对应所述数据源的至少一个数据集,并将所述至少一个数据集对应的元信息与所述数据表进行关联;其中,所述数据表与所述元信息的关联关系用于进行数据处理。本申请提供一种数据处理方法,所述方法包括:获取数据处理请求,所述数据处理请求包括数据源的位置信息;根据所述位置信息从所述数据源的数据集中获取属性信息;其中,所述数据源包括多个数据集,且所述数据集包括所述数据集的属性信息;根据所述多个数据集分别对应的属性信息,对所述多个数据集进行聚类,得到聚类集合,其中,所述聚类集合包括至少一个数据集;为所述聚类集合创建数据表,所述数据表对应所述至少一个数据集;将所述至少一个数据集对应的元信息与所述数据表进行关联;利用所述数据表和所述数据表关联的元信息进行数据处理。本申请提供一种数据处理方法,所述方法包括:获取数据查询请求,所述数据查询请求包括数据表信息;获取与所述数据表信息对应的数据表、与所述数据表关联的元信息;其中,所述数据表是根据数据源中数据集的属性信息创建的,与所述数据表关联的元信息包括所述数据源的至少一个数据集对应的元信息;利用所述数据表和所述数据表关联的元信息对所述查询请求进行处理。本申请提供一种数据处理装置,所述装置包括:获取模块,用于获取数据处理请求,所述数据处理请求包括数据源的位置信息;根据所述位置信息从所述数据源的数据集中获取属性信息;其中,所述数据源包括多个数据集,且所述数据集包括所述数据集的属性信息;关联模块,用于根据所述属性信息创建数据表,所述数据表对应至少一个数据集,并将所述至少一个数据集对应的元信息与所述数据表进行关联;处理模块,用于利用所述数据表和所述数据表关联的元信息进行数据处理。本申请提供一种数据处理设备,包括:处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:获取数据处理请求,所述数据处理请求包括数据源的位置信息;根据所述位置信息从所述数据源的数据集中获取属性信息;其中,所述数据源包括多个数据集,且所述数据集包括所述数据集的属性信息;根据所述属性信息创建数据表,所述数据表对应至少一个数据集,并将所述至少一个数据集对应的元信息与所述数据表进行关联;利用所述数据表和所述数据表关联的元信息进行数据处理。基于上述技术方案,本申请实施例中,可以从数据源的数据集中获取属性信息,并根据所述属性信息创建数据表,并将数据集对应的元信息与数据表进行关联,也就是说,可以自动关联元信息与数据表,而不需要用户给出元信息,并将元信息与数据表关联,从而减少用户的工作量,提高用户体验,可以大幅提高元信息的构建效率,提升数据湖分析系统整体的使用效率和体验。附图说明为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本申请实施例的这些附图获得其它的附图。图1是本申请一种实施方式中的数据处理方法的流程示意图;图2是本申请一种实施方式中的数据湖分析系统的结构示意图;图3是本申请一种实施方式中的数据源信息的获取示意图;图4是本申请一种实施方式中的数据处理方法的流程示意图;图5是本申请一种实施方式中的数据处理装置的结构示意图;图6是本申请一种实施方式中的数据处理设备的结构示意图。具体实施方式在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n获取数据处理请求,所述数据处理请求包括数据源的位置信息;/n根据所述位置信息从所述数据源的数据集中获取属性信息;其中,所述数据源包括多个数据集,且所述数据集包括所述数据集的属性信息;/n根据所述属性信息创建数据表,所述数据表对应至少一个数据集,并将所述至少一个数据集对应的元信息与所述数据表进行关联;/n利用所述数据表和所述数据表关联的元信息进行数据处理。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
获取数据处理请求,所述数据处理请求包括数据源的位置信息;
根据所述位置信息从所述数据源的数据集中获取属性信息;其中,所述数据源包括多个数据集,且所述数据集包括所述数据集的属性信息;
根据所述属性信息创建数据表,所述数据表对应至少一个数据集,并将所述至少一个数据集对应的元信息与所述数据表进行关联;
利用所述数据表和所述数据表关联的元信息进行数据处理。


2.根据权利要求1所述的方法,其特征在于,
根据所述属性信息创建数据表,所述数据表对应至少一个数据集,包括:
根据所述多个数据集分别对应的属性信息,对所述多个数据集进行聚类,得到聚类集合,其中,所述聚类集合包括至少一个数据集;
为所述聚类集合创建数据表,所述数据表对应所述至少一个数据集。


3.根据权利要求2所述的方法,其特征在于,根据所述多个数据集分别对应的属性信息,对所述多个数据集进行聚类,得到聚类集合,包括:
获取聚类指示信息,所述聚类指示信息用于指示聚类子属性;
基于所述多个数据集分别对应的属性信息,根据所述聚类指示信息确定所述多个数据集分别对应的聚类子属性,并根据所述多个数据集分别对应的聚类子属性,对所述多个数据集进行聚类,得到聚类集合。


4.根据权利要求3所述的方法,其特征在于,根据所述多个数据集分别对应的聚类子属性,对所述多个数据集进行聚类,得到聚类集合,包括:
基于所述多个数据集分别对应的聚类子属性,将聚类子属性相同的数据集聚类到同一聚类集合,将聚类子属性不同的数据集聚类到不同的聚类集合。


5.根据权利要求3所述的方法,其特征在于,获取聚类指示信息,包括:
若所述数据处理请求还包括聚类指示信息,则从所述数据处理请求中获取所述聚类指示信息;或者,获取预先配置的聚类指示信息。


6.根据权利要求2所述的方法,其特征在于,根据所述多个数据集分别对应的属性信息,对所述多个数据集进行聚类,得到聚类集合,包括:
若所述数据处理请求还包括过滤指示信息,则根据所述过滤指示信息对所述多个数据集进行过滤,得到目标数据集;基于所述目标数据集对应的属性信息,对所述目标数据集进行聚类,得到聚类集合。


7.根据权利要求1所述的方法,其特征在于,
根据所述位置信息从所述数据源的数据集中获取属性信息,包括:
判断是否为所述数据处理请求使能数据表发现功能;
如果是,则根据所述位置信息从所述数据源的数据集中获取属性信息。


8.根据权利要求7所述的方法,其特征在于,
所述判断是否为所述数据处理请求使能数据表发现功能,包括:
若所述数据处理请求还包括自动发现指示信息,则根据所述自动发现指示信息判断是否为所述数据处理请求使能数据表发现功能。


9.根据权利要求1所述的方法,其特征在于,
所述根据所述属性信息创建数据表之后,还包括:若所述数据处理请求还包括命名指示信息,则根据所述命名指示信息对所述数据表进行命名。


10.根据权利要求1所述的方法,其特征在于,
所述将所述至少一个数据集对应的元信息与所述数据表进行关联,包括:
根据所述至少一个数据集对应的属性信息,确定所述至少一个数据集对应的元信息,并将所述元信息与所述数据表进行关联。


11.一种数据处理方法,其特征在于,应用于数据湖分析平台,所述数据湖分析平台用于为用户提供无服务器化的数据处理服务,所述方法包括:
获取数据处理请求,所述数据处理请求包括数据源的位置信息;
根据所述位置信息从所述数据源的数据集中获取属性信息;其中,所述数据源包括多个数据集,且所述数据集包括所述数据集的属性信息;
根据所述属性信息创建数据表,所述数据表对应至...

【专利技术属性】
技术研发人员:王烨周祥
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1