报表数据处理的方法、装置、设备及可读存储介质制造方法及图纸

技术编号:26530780 阅读:42 留言:0更新日期:2020-12-01 14:10
本申请公开了一种报表数据处理的方法、装置、设备及可读存储介质,涉及大数据、数据分析领域,具体应用于用户行为分析、用户画像、浏览器应用场景的数据分析。具体实现方案为:通过根据各报表的访问数据,确定待下线的目标表,自动识别和发现待下线的报表;通过根据所述目标表的依赖链路信息,确定所述目标表所依赖的计算任务,自动识别出待下线的报表所依赖的计算任务;通过对所述目标表及其所依赖的计算任务进行下线处理,在下线报表时自动进行下线报表所依赖的计算任务的下线,能够节省大量的存储资源和计算资源,提高资源利用率。

【技术实现步骤摘要】
报表数据处理的方法、装置、设备及可读存储介质
本申请涉及数据处理中的大数据、数据分析领域,尤其涉及一种报表数据处理的方法、装置、设备及可读存储介质。
技术介绍
在各种业务系统中,很多场景需要有专门的报表结果产出,比如活跃作者监控、竞对指标监控等,报表分析承担着非常重要的内容运营决策任务。报表的产出通常依赖于许多大数据分析的计算任务,会占用一定的存储和计算资源。随着时间的推移与业务的调整,有很多报表不再被需要,这些报表依赖的计算任务仍然在生产环境定时运行着,对存储和计算资源都会是一种浪费。目前通过人工确定下线报表,只能人工分析代码确定报表依赖的计算任务,费时费力,并且会有遗漏,仍然存在存储和计算资源的浪费。
技术实现思路
本申请提供了一种报表数据处理的方法、装置、设备及可读存储介质。根据本申请的一方面,提供了一种报表数据处理的方法,包括:根据各报表的访问数据,确定待下线的目标表;根据所述目标表的依赖链路信息,确定所述目标表所依赖的计算任务;对所述目标表及其所依赖的计算任务进行下线处理。根据本申请的另一方面,提供了一种报表数据处理的装置,包括:下线分析模块,用于根据各报表的访问数据,确定待下线的目标表;所述下线分析模块还用于根据所述目标表的依赖链路信息,确定所述目标表所依赖的计算任务;下线处理模块,用于对所述目标表及其所依赖的计算任务进行下线处理。根据本申请的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的方法。根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述所述的方法。根据本申请的另一方面,提供了一种报表数据处理的方法,包括:根据各报表的访问数据,确定待下线的目标报表;确定所述目标报表所依赖的计算任务;下线所述目标报表及所依赖的计算任务。根据本申请的技术节省了存储资源和计算资源,提高了资源利用率。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是本申请实施例提供的报表访问的人工评估与下线流程的示意图;图2是本申请第一实施例提供的报表数据处理的方法流程图;图3是本申请第二实施例提供的报表数据处理的方法流程图;图4是本申请第二实施例提供的日志预处理的流程的示意图;图5是本申请第二实施例提供的依赖链路信息的确定流程示意图;图6是本申请第二实施例提供的数据分析的流程示意图;图7为本申请第二实施例提供的报表数据处理的系统框图;图8是本申请第三实施例提供的报表数据处理的装置示意图;图9是本申请第四实施例提供的报表数据处理的装置示意图;图10是用来实现本申请实施例的报表数据处理的方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。本申请提供一种报表数据处理的方法、装置、设备及可读存储介质与应用于数据处理领域中的大数据、数据分析领域,具体可以应用于用户行为分析、用户画像、浏览器应用场景的数据分析,以达到自动识别和发现需要下线的报表,自动下线报表及其依赖的计算任务,释放无用的计算任务,节约存储和计算资源的技术效果。本申请实施例的具体应用场景如下:在各种业务系统中,存在很多访问频率很低甚至零访问的报表,需要及时下线。图1是本申请实施例提供的报表访问的人工评估与下线流程的示意图。如图1所示,下线报表可以由报表负责人(一般为报表开发人员)人工评估、主动提出下线某些报表的计算任务,并经相关产品和运营人员确认之后,将报表对应的计算任务下线,但是对应报表不一定被主动下线,会导致报表访问出错,系统可用性差。因此,在业务系统运营过程中,通常由产品和运营人员进行人工评估,看哪些报表是已经不再需要维护的,然后由相关产品负责人发送邮件通知给报表负责人,报表负责人确认后,直接将对应报表删除或者移入回收站。通过人工评估的方式费时费力,报表数量众多的时候,会有遗漏;无法直接快速的定位在过去某段时间内哪些报表访问低频,如果想了解具体信息,只能给相关人员提需求进行分析,一般需要几天的时间才能出来结果,效率很低;已下线的报表所依赖的计算任务并没有下线,仍然在不断地执行,占用很多的存储资源和计算资源。本申请实施例提供的报表数据处理的方法,旨在解决上述技术问题,通过大数据技术,将用户访问报表的行为日志进行综合分析,系统化的快速定位哪些是近期访问低频的报表,然后通过分析报表与计算任务之间的依赖关系,进一步构建出报表的依赖链路信息,从而能够智能化识别哪些计算任务是可以下线的,可以迅速缩短低频访问报表的下线周期,节省人工与时间成本,同时可以节省存储资源和计算组员,为资源的合理化利用给出可靠的决策建议。下面以具体地实施例对本申请实施例的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请实施例的实施例进行描述。图2是本申请第一实施例提供的报表数据处理的方法流程图。本实施例的执行主体可以应用于大数据平台,例如spark计算集群等。本实施例中以大数据平台为例进行示例性地说明,在其他实施例中,还可以由其他设备执行,本实施例此处不做具体限定。如图2所示,该方法具体步骤如下:步骤S101、根据各报表的访问数据,确定待下线的目标表。本实施例中,可以获取各个报表的访问数据,根据各个报表的访问数据可以获知一个时间段内各个报表的访问路径、访问频次等信息,并可以进一步确定哪些报表是需要下线的目标表,实现待下线的报表的自动识别和发现。其中,一个时间段内报表的访问路径包括该段时间内哪些用户访问了哪些报表的信息。例如,该段时间内被访问的报表及其访问用户;或者,该段时间内访问了报表的用户及每个用户所访问的报表。另外,访问路径也可以包括被访问报表的访问频次信息或其他相关统计信息,本实施例此处不做具体限定。访问频次信息包括以下至少一种:访问量(PageView,简称PV)、独立访客数(UniqueVisitor,简称UV)。该步骤中,确定的待下线的目标表可以是近本文档来自技高网...

【技术保护点】
1.一种报表数据处理的方法,包括:/n根据各报表的访问数据,确定待下线的目标表;/n根据所述目标表的依赖链路信息,确定所述目标表所依赖的计算任务;/n对所述目标表及其所依赖的计算任务进行下线处理。/n

【技术特征摘要】
1.一种报表数据处理的方法,包括:
根据各报表的访问数据,确定待下线的目标表;
根据所述目标表的依赖链路信息,确定所述目标表所依赖的计算任务;
对所述目标表及其所依赖的计算任务进行下线处理。


2.根据权利要求1所述的方法,其中,所述根据所述目标表的依赖链路信息,确定所述目标表所依赖的计算任务之前,还包括:
根据各报表对应的报表生成模型,确定各报表的依赖链路信息,其中报表的依赖链路信息包含报表与计算任务依赖关系信息。


3.根据权利要求2所述的方法,其中,所述根据各报表对应的报表生成模型,确定各报表的依赖链路信息,包括:
通过解析所述报表对应的报表生成模型,确定所述报表生成模型所依赖的数据表,得到所述报表所依赖的数据表;
通过解析各计算任务对应程序代码中包含的数据表信息,确定各数据表所依赖的计算任务,其中数据表所依赖的计算任务是指对应程序代码中包含该数据表的计算任务。


4.根据权利要求2所述的方法,其中,所述根据各报表对应的报表生成模型,确定各报表的依赖链路信息之后,还包括:
将所述各报表的依赖链路信息存储到报表元信息数仓表中。


5.根据权利要求1所述的方法,其中,所述根据各报表的访问数据,确定待下线的目标表之前,还包括:
获取各报表的访问行为日志;
根据所述各报表的访问行为日志,确定所述各报表的访问数据。


6.根据权利要求5所述的方法,其中,所述获取各报表的访问行为日志,包括:
通过埋点技术获取将各报表的访问行为日志写入到日志文件;
定时地从所述日志文件中拉取所述访问行为日志。


7.根据权利要求5所述的方法,其中,所述根据所述各报表的访问行为日志,确定所述各报表的访问数据,包括:
根据所述访问行为日志,将每条所述访问行为日志转换为弹性分布式数据集RDD中一个数据元素,得到RDD;
将所述RDD存储到数据仓库中,得到所述各报表的访问数据。


8.根据权利要求7所述的方法,其中,一条访问行为日志对应的数据元素至少包括:用户标识,报表标识和访问时间。


9.根据权利要求1-8中任一项所述的方法,其中,所述根据各报表的访问数据,确定待下线的目标表,包括:
根据所述访问数据,确定所述各报表的访问指标数据;
确定访问指标数据满足下线条件的报表,作为目标表。


10.一种报表数据处理的装置,包括:
下线分析模块,用于根据各报表的访问数据,确定待下线的目标表;
所述下线分析模块还用于根据所述目标表的依赖链路信息,确定所述目标表所依赖的计算任务;
下线处理模块,用于对...

【专利技术属性】
技术研发人员:巴铁凯
申请(专利权)人:百度时代网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1