数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:40968302 阅读:18 留言:0更新日期:2024-04-18 20:49
本申请提供一种数据处理方法、装置、设备及存储介质,首先根据Spark应用程序的事件日志目录获取目标事件日志文件的路径,然后加载目标事件日志文件以回放目标事件日志文件中的所有事件,并根据所有事件中的特定事件确定Spark应用程序的资源指标,再根据资源指标得到Spark应用程序的资源使用量,进而根据资源使用量确定Spark应用程序的运行成本。基于Spark应用程序的事件日志得到其资源使用量以精确地评估单个的Spark应用程序的运行成本,提供了单个应用程序的成本分析解决方案,为满足应用程序优化和成本控制需求提供数据支撑。并且可以实现运行成本的实时分析以及保证应用程序的正常性能。

【技术实现步骤摘要】

本申请涉及通信,尤其涉及一种数据处理方法、装置、设备及存储介质


技术介绍

1、spark是一个强大的分布式计算框架,用于处理大规模数据集的高性能计算,被广泛应用于各个行业例如金融、电信、医疗、零售、媒体等处理和分析大数据,从而提高业务效率、洞察潜在机会并进行智能决策。

2、通过计算spark应用程序的运行成本,可以实现成本控制、性能优化、资源规划和决策支持等方面目标,从而提高spark应用程序的效率和经济效益。此外,对于企业和组织而言,计算运行成本是可持续发展的管理实践的重要组成部分。然而,如何计算spark应用程序的运行成本面临很多挑战。

3、目前已有解决方案计算spark集群的整体成本,以综合评估整个集群的资源利用率和成本效益,进而支持集群规模和配置的优化。但是还未有解决方案针对单个spark应用程序进行运行成本分析,因而可能无法满足特定spark应用程序的优化和成本控制需求。


技术实现思路

1、本申请提供一种数据处理方法、装置、设备及存储介质,用于解决针对单个spark应用程序本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的数据处理方法,其特征在于,所述根据Spark应用程序的事件日志目录获取目标事件日志文件的路径,包括:

3.根据权利要求2所述的数据处理方法,其特征在于,所述根据预设条件从所述事件日志目录中获取每个待处理事件日志文件的路径,包括:

4.根据权利要求1-3任一项所述的数据处理方法,其特征在于,根据所述所有事件中的特定事件确定所述Spark应用程序的资源指标,包括:

5.根据权利要求4所述的数据处理方法,其特征在于,所述根据所述资源指标得到所述Spark应用程序的资源使用量,包括:...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的数据处理方法,其特征在于,所述根据spark应用程序的事件日志目录获取目标事件日志文件的路径,包括:

3.根据权利要求2所述的数据处理方法,其特征在于,所述根据预设条件从所述事件日志目录中获取每个待处理事件日志文件的路径,包括:

4.根据权利要求1-3任一项所述的数据处理方法,其特征在于,根据所述所有事件中的特定事件确定所述spark应用程序的资源指标,包括:

5.根据权利要求4所述的数据处理方法,其特征在于,所述根据所述资源指标得到所述spark应用程序的资源使用量,包括:

6.根据权利要求5所述的数据处...

【专利技术属性】
技术研发人员:杨建丹胡博文杨波黄兴如闫龙李大中宋雨伦
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1