数据处理方法、装置和系统制造方法及图纸

技术编号:23238994 阅读:14 留言:0更新日期:2020-02-04 18:24
本申请公开了一种数据处理方法、装置和系统。其中,该方法包括:获取大数据平台的执行作业和执行作业的性能指标,其中,执行作业为对大数据平台中存储的数据进行处理的操作;分析执行作业,得到执行作业的功能分类;对执行作业的性能指标和执行作业的功能分类进行分析,得到大数据平台的功能分布和性能趋势。本申请解决了现有技术中数据处理方法准确度低且效率低的技术问题。

Data processing methods, devices and systems

【技术实现步骤摘要】
数据处理方法、装置和系统
本申请涉及大数据平台领域,具体而言,涉及一种数据处理方法、装置和系统。
技术介绍
目前,业界大数据平台随着业务的增长和数据的积累,数据规模和计算类型、计算复杂度都在快速增加。例如,大数据平台的数据量达到EB(艾字节,全称为Exabyte)级别,日处理作业数达到千万级、涉及运算的任务达数百万之多;作业类型包括:分布式sql、MapReduce、机器学习、深度学习、图计算、流计算、数据合并等;而开源的spark平台也含sparksql、streaming、mllib、graph等作业类型;每类作业根据处理方式又分为批处理和准实时等多种模式。同时越来越多的客户和项目的加入,大数据平台也存在多集群计算、跨级群存储、多模式多版本共存、多入口提交作业等现状;另外线上集群计算性能也受到从底层硬件到操作系统到分布式平台等各层软硬件以及执行计划、执行引擎、编译引擎、优化组件等多方面的影响和制约,关键指标分类众多各异。如何在保障用户数据安全的前提下快速获得大数据计算平台线上作业功能实况分布和全方位性能趋势,多维度多层次勾勒大数据平台功能分布全景和性能趋势是大数据平台建设运维的迫切需求。传统的数据处理方法为了获取线上作业功能分布是间断的利用人工去采样获取,而获取性能趋势一般是多天跟踪少量的作业来获取性能趋势;在某些必需的情况下,为获取更精确的数据是线下搭建一个对等测试集群并且用脱敏的方式从生产集群拖数据到测试集群里执行获取性能结果或分析功能分布。但是,大数据平台传统的数据处理方法有以下几个缺点:统计结果数据质量比较低,验证覆盖率低,结论片面;传统方法统计性能指标和功能分类粗粒度,延迟长。无论是勾勒线上功能分布全景还是性能趋势分析,传统利用人工去采样统计或者多天跟踪少量的作业来获取性能趋势的方法分析的作业规模有限制,一般只跟踪数百个作业,用少量作业的性能趋势和功能分布来描述复杂的多集群大数据平台整体,验证覆盖率低,结论片面。数据安全得不到保障。传统方式通过线下搭建一个对等测试集群并且用人为方式脱敏的方式从生产集群拖数据到测试集群里获取性能结果或分析功能分布。脱敏处理容易有人为疏忽,造成数据泄露风险,同时脱敏数据不等于用户数据,可能违背用户程序的期望,从而造成用户程序崩溃,从而达不到模拟线上实况的目的。另外线下环境、机器配置、执行场景各种复杂度不一致,要完整还原线上真正执行场景尤其性能问题可能行很小。要模拟线上真实运行状况,往往会根据用户提交的真实请求构建测试用例,从而需要分析用户请求,这可能会造成用户知识产权的泄漏。开销大、浪费严重、测试集过时、可用性差,传统方式统计者和分析者分离,定制化生成指标和多维查询操作成本高,延时过长;同时为了测试集群调度或者扩展性scalability,传统方式模拟生产环境搭建一个跟线上集群对等的测试集群。维护一个规模庞大的集群成本非常高,而且大规模的测试集群绝大部分时间的使用率都很低,造成严重浪费。另外线上的任务和用户作业也在不断增加和更新中,线下搭建的测试集合会随着时间过时,存在兼容性不够、代表性差、成本高等问题。效率低,使用率低,效果差;传统方式只统计无分析,只监控无性能预警,需要人工再次去线上测试及定位问题。传统人工在采集用户执行信息到元仓等数据仓库后,编写sql(结构化查询语言,全称为StructuredQueryLanguage)语句的方式来统计,这种方式对一些功能类型抓取有较大难度,一般再每次需要数据时写一套脚本去获取数据,获取数据方式比较低效,并且每次要获取较长时间浪费计算资源,结果没有校验对比机制,效果比较差。另外如果以脱敏数据的从生产集群上抓数据和迁移执行作业到线下执行人为脱敏来分析,从搭建测试环境到拷贝脱敏后的数据到测试环境中测试,整个流程过程冗长,容易引起问题,严重影响整个开发测试的效率。针对现有技术中数据处理方法准确度低且效率低的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种数据处理方法、装置和系统,以至少解决现有技术中数据处理方法准确度低且效率低的技术问题。根据本申请实施例的一个方面,提供了一种数据处理方法,包括:获取大数据平台的执行作业和执行作业的性能指标,其中,执行作业为对大数据平台中存储的数据进行处理的操作;分析执行作业,得到执行作业的功能分类;对执行作业的性能指标和执行作业的功能分类进行分析,得到大数据平台的功能分布和性能趋势。根据本申请实施例的另一方面,还提供了一种数据处理装置,包括:获取模块,用于获取大数据平台的执行作业和执行作业的性能指标;第一处理模块,用于分析执行作业,得到执行作业的功能分类;第二处理模块,用于对执行作业的性能指标和执行作业的功能分类进行分析,得到大数据平台的功能分布和性能趋势。根据本申请实施例的另一方面,还提供了一种数据处理系统,包括:性能统计模块,用于获取大数据平台的执行作业和执行作业的性能指标;业务分析模块,用于分析执行作业,得到执行作业的功能分类;数据集成模块,与性能统计模块和业务分析模块连接,用于对执行作业的性能指标和执行作业的功能分类进行分析,得到大数据平台的功能分布和性能趋势。根据本申请实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行如下步骤:获取大数据平台的执行作业和执行作业的性能指标;分析执行作业,得到执行作业的功能分类;对执行作业的性能指标和执行作业的功能分类进行分析,得到大数据平台的功能分布和性能趋势。根据本申请实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行如下步骤:获取大数据平台的执行作业和执行作业的性能指标;分析执行作业,得到执行作业的功能分类;对执行作业的性能指标和执行作业的功能分类进行分析,得到大数据平台的功能分布和性能趋势。根据本申请实施例的另一方面,还提供了一种数据处理系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取大数据平台的执行作业和执行作业的性能指标;分析执行作业,得到执行作业的功能分类;对执行作业的性能指标和执行作业的功能分类进行分析,得到大数据平台的功能分布和性能趋势。在本申请实施例中,在获取到大数据平台的执行作业和执行作业的性能指标之后,可以分析执行作业,得到执行作业的功能分类,进一步地对执行作业的性能指标和执行作业的功能分类进行分析,得到大数据平台的功能分布和性能趋势,从而实现实时勾勒大数据平台功能全景和多维性能趋势的目的。容易注意到的是,通过对大数据平台的执行作业和执行作业的性能指标进行分析,从而得到功能分布和性能趋势,与现有技术相比,可以自动获取大数据平台的真实数据,无需人工干预进行数据脱敏,最大程度利用真实数据和真实场景,能够可靠地、完成全面地勾勒大数据平台的功能全貌和性能趋势走向,达到提高数据处理效率和准确度,提升数据处理可靠性的技术效果。由此,本申请实施例提供的方案解决了现有技术中数据处理方法准本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,包括:/n获取大数据平台的执行作业和所述执行作业的性能指标,其中,所述执行作业为对所述大数据平台中存储的数据进行处理的操作;/n分析所述执行作业,得到所述执行作业的功能分类;/n对所述执行作业的性能指标和所述执行作业的功能分类进行分析,得到所述大数据平台的功能分布和性能趋势。/n

【技术特征摘要】
1.一种数据处理方法,包括:
获取大数据平台的执行作业和所述执行作业的性能指标,其中,所述执行作业为对所述大数据平台中存储的数据进行处理的操作;
分析所述执行作业,得到所述执行作业的功能分类;
对所述执行作业的性能指标和所述执行作业的功能分类进行分析,得到所述大数据平台的功能分布和性能趋势。


2.根据权利要求1所述的方法,其中,获取大数据平台的执行作业,包括:
实时获取第一元数据仓库中存储的第一执行作业,并按照离线采集方式获取第二元数据仓库中存储的第二执行作业,其中,所述大数据平台的执行作业至少包括:所述第一执行作业和/或所述第二执行作业,所述第一元数据仓库和所述第二元数据仓库在逻辑上相互独立。


3.根据权利要求2所述的方法,其中,所述第一元数据仓库和/或所述第二元数据仓库的数据源包括如下至少一种:分布式结构化表格存储系统、分布式存储系统和日志系统。


4.根据权利要求3所述的方法,其中,所述分布式结构化表格存储系统中存储的数据包括如下至少一种:表的结构的元数据、所述表的实例的元数据、所述表的作业的元数据;所述分布式存储系统存储的数据包括如下至少一种:分布式调度作业产生的文件和内部事件产生的数据;所述分布式调度作业产生的文件包括如下至少一种:作业状态的状态文件、作业计划的状态文件、大数据平台中任务的状态文件;所述内部事件产生的数据包括如下至少一种:表的大小、表的文件数量、列的大小、列的文件数量;所述日志系统存储的日志包括:设备使用日志和所述大数据平台的日志。


5.根据权利要求1所述的方法,其中,获取所述执行作业的性能指标,包括:
获取所述大数据平台的日志;
通过流计算对所述大数据平台的日志进行分析,得到所述执行作业的性能指标。


6.根据权利要求1所述的方法,其中,分析所述执行作业,得到所述执行作业的功能分类,包括:
利用用户自定义函数中的编译器对所述执行作业进行编译,生成逻辑计划,其中,所述逻辑计划包括:与所述执行作业对应的查询任务的标识信息、表的标识信息、列的标识信息和表达式的标识信息;
通过并行分析有向无环图对所述逻辑计划进行优化,得到所述执行作业的功能分类。


7.根据权利要求6所述的方法,其中,所述编译器采用抽象语法树模型。

【专利技术属性】
技术研发人员:李瑞盛侯震宇吴金朋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1