一种数据处理方法、装置及设备制造方法及图纸

技术编号:26065629 阅读:34 留言:0更新日期:2020-10-28 16:38
本申请提供一种数据处理方法、装置及设备,该方法包括:获取数据处理请求,所述数据处理请求包括第一输入格式和第二输出格式;获取目标处理单元,所述目标处理单元的目标转换信息为第一转换信息,所述第一转换信息用于实现所述第一输入格式与所述第二输出格式的转换;根据所述数据处理请求从数据源获取第一输入格式的第一数据,并将所述第一数据输出给所述目标处理单元,以使所述目标处理单元利用第一转换信息将第一数据转换为第二输出格式的第二数据;从目标处理单元获取第二数据,并输出第二数据。通过本申请的技术方案,可以节省数据湖分析系统的计算资源,并提高处理性能。

【技术实现步骤摘要】
一种数据处理方法、装置及设备
本申请涉及互联网
,尤其涉及一种数据处理方法、装置及设备。
技术介绍
数据湖分析(DataLakeAnalytics)用于为用户提供无服务器化(Serverless)的查询分析服务,能够对海量的数据进行任意维度的分析和查询,并可以支持高并发、低延时(毫秒级响应)、实时在线分析、海量数据查询等功能。在数据湖分析系统中,包括存储集群和计算集群,存储集群包括不同类型的数据源,这些数据源采用不同的数据格式。计算集群包括多个计算节点,不同计算节点可以采用不同的数据格式。通常情况下,数据源采用的数据格式与计算节点采用的数据格式不同,因此,就需要对数据格式进行转换。例如,从数据源读取数据格式A1的数据,将数据格式A1的数据转换为数据格式B1的数据,将数据格式B1的数据输出给计算节点,由计算节点利用数据格式B1的数据进行处理。由于不同类型的数据源采用不同的数据格式,不同计算节点也采用不同的数据格式,因此,数据湖分析系统需要支持各种数据格式的转换,数据湖分析系统需要提供大量计算资源,由这些计算资源实现数据格式的本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n获取数据处理请求,所述数据处理请求包括第一输入格式和第二输出格式;/n获取目标处理单元,所述目标处理单元的目标转换信息为第一转换信息,所述第一转换信息用于实现所述第一输入格式与所述第二输出格式的转换;/n根据所述数据处理请求从数据源获取第一输入格式的第一数据,并将所述第一数据输出给所述目标处理单元,以使所述目标处理单元利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据;/n从所述目标处理单元获取所述第二数据,并输出所述第二数据。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
获取数据处理请求,所述数据处理请求包括第一输入格式和第二输出格式;
获取目标处理单元,所述目标处理单元的目标转换信息为第一转换信息,所述第一转换信息用于实现所述第一输入格式与所述第二输出格式的转换;
根据所述数据处理请求从数据源获取第一输入格式的第一数据,并将所述第一数据输出给所述目标处理单元,以使所述目标处理单元利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据;
从所述目标处理单元获取所述第二数据,并输出所述第二数据。


2.根据权利要求1所述的方法,其特征在于,
所述获取目标处理单元,包括:
获取数据湖分析系统的多个处理单元的目标转换信息,并利用所述目标转换信息从所述多个处理单元中选择处理单元作为目标处理单元。


3.根据权利要求2所述的方法,其特征在于,所述利用所述目标转换信息从所述多个处理单元中选择处理单元作为目标处理单元,包括:
若存在目标转换信息为第一转换信息的处理单元,则将目标转换信息为第一转换信息的处理单元确定为所述目标处理单元;或者,
若不存在目标转换信息为第一转换信息的处理单元,则从所述多个处理单元中选择处理单元,将选择的处理单元确定为所述目标处理单元。


4.根据权利要求1所述的方法,其特征在于,
所述获取目标处理单元之后,所述方法还包括:
若目标处理单元的目标转换信息为第一转换信息,则根据第一输入格式和第二输出格式保持所述目标处理单元的目标转换信息不变;或者,
若目标处理单元的目标转换信息为第二转换信息,则根据第一输入格式和第二输出格式将所述目标处理单元的目标转换信息修改为第一转换信息。


5.根据权利要求1所述的方法,其特征在于,
所述获取目标处理单元,包括:
判断数据湖分析系统是否支持第一输入格式与第二输出格式的转换;
如果是,则从数据湖分析系统的多个处理单元中获取目标处理单元。


6.根据权利要求1所述的方法,其特征在于,
所述数据处理请求还包括分片数量,所述获取目标处理单元,包括:
根据所述分片数量确定目标处理单元的数量;
获取所述数量个目标处理单元。


7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述数据处理请求还包括服务模式,若所述服务模式为流量模式,则获取数据总量,并根据所述数据总量确定虚拟资源信息,并输出所述虚拟资源信息;
若所述服务模式为实例模式,则获取目标处理单元数量,并根据所述目标处理单元数量确定虚拟资源信息,并输出所述虚拟资源信息。


8.一种数据处理方法,其特征在于,应用于数据湖分析系统,所述数据湖分析系统用于为用户提供无服务器化的数据处理服务,所述方法包括:
获取数据处理请求,所述数据处理请求包括第一输入格式和第二输出格式;
从所述数据湖分析系统的多个处理单元中获取目标处理单元;其中,所述目标处理单元的目标转换信息为第一转换信息,所述第一转换信息用于实现所述第一输入格式与所述第二输出格式的转换;
根据所述数据处理请求从数据源获取第一输入格式的第一数据,并将所述第一数据输出给所述目标处理单元,以使所述目标处理单元利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据;
从所述目标处理单元获取所述第二数据,并输出所述第二数据;
其中,所述数据源包括所述数据湖分析系统提供的云数据库。


9.根据权利要求8所述的方法,其特征在于,
所述数据湖分析系统具体为:存储与计算分离的数据湖分析系统;所述数据湖分析系统包括存储集群和计算集群,所述存储集群包括采用不同输入格式的多个数据源,所述计算集群包括采用不同输出格式的多...

【专利技术属性】
技术研发人员:周祥王烨李鸣翔
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1