System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据处理方法、装置、存储介质和计算设备制造方法及图纸_技高网

数据处理方法、装置、存储介质和计算设备制造方法及图纸

技术编号:40114551 阅读:11 留言:0更新日期:2024-01-23 19:41
本公开提供了一种数据处理方法、装置、存储介质和计算设备。包括:获取ETL过程中生成的实验实时数据流和指标实时数据流;将实验实时数据流中的实验数据按照键值对的存储格式存储到实验桶列表;其中,键值对中的键为实验数据中包含的用户标识,键值对的值为实验数据中包含的实验桶数据;将指标实时数据流中的指标数据按照指标标识,生成与指标标识关联的实验列表;其中,实验列表中包括具有关联的指标标识的指标数据;遍历实验列表并在实验桶列表中查询实验列表中实验对应的实验桶数据,得到由查询到的实验桶数据构成的交集实验桶列表;将交集实验桶列表中的实验桶数据,按照用户标识进行划分后进行存储。

【技术实现步骤摘要】

本公开的实施方式涉及计算机,更具体地,本公开的实施方式涉及一种数据处理方法、装置、存储介质和计算设备


技术介绍

1、本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、etl(extract-transform-load)是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,其目的是将用户、企业或组织中分散、凌乱、标准不统一的数据整合到一起,从而为决策提供分析数据。

3、在一些需要使用etl的场景中,需要对etl过程中产生的指标数据和实验数据进行处理,从而方便后续数据查询使用。例如,基于纯日志etl的数据处理方案、基于双流join的数据处理方案、基于存储类join的数据处理方案等。

4、然而,上述几种方案只适合一些数据量不大的简单业务,一旦涉及到复杂业务,由于复杂业务需要处理更多的数据量,且可以源源不断地产生越来越多的数据,因此会导致上述几种方案出现资源不足的问题。


技术实现思路

1、在本公开实施方式的第一方面中,提供了一种数据处理方法。所述方法包括:

2、获取etl过程中生成的实验实时数据流和指标实时数据流;

3、将所述实验实时数据流中的实验数据按照键值对的存储格式存储到实验桶列表;其中,所述键值对中的键为实验数据中包含的用户标识,所述键值对的值为实验数据中包含的实验桶数据;

4、将所述指标实时数据流中的指标数据按照指标标识,生成与所述指标标识关联的实验列表;其中,所述实验列表中包括具有关联的指标标识的指标数据;

5、遍历所述实验列表并在所述实验桶列表中查询所述实验列表中实验对应的实验桶数据,得到由所述查询到的实验桶数据构成的交集实验桶列表;

6、将所述交集实验桶列表中的实验桶数据,按照用户标识进行划分后进行存储。

7、可选的,所述键值对中的键还包括实验数据中包含的用户标识和时间分片的组合。

8、可选的,所述实验桶数据包括实验标识、实验桶标识、切流时间戳、打点时间戳;

9、其中,所述切流时间戳为不同实验生成的实验桶数据之间的分界时刻;所述打点时间戳为用户开始实验的时刻。

10、可选的,所述遍历所述实验列表并在所述实验桶列表中查询所述实验列表中实验对应的实验桶数据,包括:

11、遍历所述实验列表,查询离最近一次实验的切流时间戳;

12、以所述最近一次实验的实验标识和所述切流时间戳为查询条件,在所述实验桶列表中查询对应的实验桶数据。

13、可选的,所述将所述指标实时数据流中的指标数据按照指标标识,生成与所述指标标识关联的实验列表,包括:

14、利用分布式处理引擎消费etl过程中生成的指标实时数据流,将所述指标实时数据流中的指标数据按照指标标识,生成与所述指标标识关联的实验列表;

15、所述将所述交集实验桶列表中的实验桶数据,按照用户标识进行划分后进行存储,包括:

16、将所述交集实验桶列表中的实验桶数据,按照用户标识进行划分后写入列式存储系统。

17、可选的,在所述写入列式存储系统之后,还包括:

18、向所述列式存储系统发起查询请求,以使所述列式存储系统按照所述查询请求中指定的用户标识聚合本地具有与所述用户标识关联的实验桶数据,并进一步基于聚合的实验桶数据计算所述查询请求中指定的指标类型的指标值。

19、可选的,还包括:

20、响应于未从所述实验桶列表中查询到对应的实验桶数据,创建空的交集实验桶列表;

21、将当前的实验列表作为离线实验列表存储到预设数据仓库,并启动定时的调度任务;其中,所述调度任务用于周期性拉取存储到所述预设数据仓库中的离线实验列表,并在实时存储的实验桶列表中查询是否存在与所述离线实验列表中实验对应的实验桶数据;

22、响应于查询到与所述离线实验列表中实验对应的实验桶数据,结束所述调度任务的部署,并将所述查询到的实验桶数据写入所述空的交集实验桶列表,以得到由所述查询到的实验桶数据构成的交集实验桶列表;

23、将所述交集实验桶列表中的实验桶数据,按照预设时长进行划分后写入列式存储系统。

24、在本公开实施方式的第二方面中,提供了一种数据处理装置,所述装置包括:

25、获取单元,获取etl过程中生成的实验实时数据流和指标实时数据流;

26、第一存储单元,将所述实验实时数据流中的实验数据按照键值对的存储格式存储到实验桶列表;其中,所述键值对中的键为实验数据中包含的用户标识,所述键值对的值为实验数据中包含的实验桶数据;

27、生成单元,将所述指标实时数据流中的指标数据按照指标标识,生成与所述指标标识关联的实验列表;其中,所述实验列表中包括具有关联的指标标识的指标数据;

28、遍历单元,遍历所述实验列表并在所述实验桶列表中查询所述实验列表中实验对应的实验桶数据,得到由所述查询到的实验桶数据构成的交集实验桶列表;

29、第二存储单元,将所述交集实验桶列表中的实验桶数据,按照用户标识进行划分后进行存储。

30、可选的,所述键值对中的键还包括实验数据中包含的用户标识和时间分片的组合。

31、可选的,所述实验桶数据包括实验标识、实验桶标识、切流时间戳、打点时间戳;

32、其中,所述切流时间戳为不同实验生成的实验桶数据之间的分界时刻;所述打点时间戳为用户开始实验的时刻。

33、可选的,所述遍历单元,包括:

34、遍历子单元,遍历所述实验列表,查询离最近一次实验的切流时间戳;

35、查询子单元,以所述最近一次实验的实验标识和所述切流时间戳为查询条件,在所述实验桶列表中查询对应的实验桶数据。

36、可选的,所述生成单元,进一步用于利用分布式处理引擎消费etl过程中生成的指标实时数据流,将所述指标实时数据流中的指标数据按照指标标识,生成与所述指标标识关联的实验列表;

37、所述第二存储单元,进一步用于将所述交集实验桶列表中的实验桶数据,按照用户标识进行划分后写入列式存储系统。

38、可选的,所述装置还包括:

39、查询单元,向所述列式存储系统发起查询请求,以使所述列式存储系统按照所述查询请求中指定的用户标识聚合本地具有与所述用户标识关联的实验桶数据,并进一步基于聚合的实验桶数据计算所述查询请求中指定的指标类型的指标值。

40、可选的,还包括:

41、创建子单元,响应于未从所述实验桶列表中查询到对应的实验桶数据,创建空的交集实验桶列表;

42、调度子单元,将当前的实验列表作为离线实验列表存储到预设数据仓库,并启动定时的调度任务;其中,所述调度任务用于周期性拉取存储到所述预设数据仓库中的离线实验列表,并在实时存储的实验桶列表中查询是否存在与所述离线本文档来自技高网...

【技术保护点】

1.一种数据处理方法,包括:

2.根据权利要求1所述的方法,所述键值对中的键还包括实验数据中包含的用户标识和时间分片的组合。

3.根据权利要求2所述的方法,所述实验桶数据包括实验标识、实验桶标识、切流时间戳、打点时间戳;

4.根据权利要求3所述的方法,所述遍历所述实验列表并在所述实验桶列表中查询所述实验列表中实验对应的实验桶数据,包括:

5.根据权利要求1所述的方法,所述将所述指标实时数据流中的指标数据按照指标标识,生成与所述指标标识关联的实验列表,包括:

6.根据权利要求5所述的方法,在所述写入列式存储系统之后,还包括:

7.根据权利要求4所述的方法,还包括:

8.一种数据处理装置,所述装置包括:

9.根据权利要求8所述的装置,所述键值对中的键还包括实验数据中包含的用户标识和时间分片的组合。

10.根据权利要求9所述的装置,所述实验桶数据包括实验标识、实验桶标识、切流时间戳、打点时间戳;

11.根据权利要求10所述的装置,所述遍历单元,包括:

12.根据权利要求8所述的装置,所述生成单元,进一步用于利用分布式处理引擎消费ETL过程中生成的指标实时数据流,将所述指标实时数据流中的指标数据按照指标标识,生成与所述指标标识关联的实验列表;

13.根据权利要求12所述的装置,所述装置还包括:

14.根据权利要求11所述的装置,还包括:

15.一种计算机可读存储介质,包括:

16.一种计算设备,包括:

...

【技术特征摘要】

1.一种数据处理方法,包括:

2.根据权利要求1所述的方法,所述键值对中的键还包括实验数据中包含的用户标识和时间分片的组合。

3.根据权利要求2所述的方法,所述实验桶数据包括实验标识、实验桶标识、切流时间戳、打点时间戳;

4.根据权利要求3所述的方法,所述遍历所述实验列表并在所述实验桶列表中查询所述实验列表中实验对应的实验桶数据,包括:

5.根据权利要求1所述的方法,所述将所述指标实时数据流中的指标数据按照指标标识,生成与所述指标标识关联的实验列表,包括:

6.根据权利要求5所述的方法,在所述写入列式存储系统之后,还包括:

7.根据权利要求4所述的方法,还包括:

8.一种数据处理装置,所述装置包括:

【专利技术属性】
技术研发人员:熊搏周波
申请(专利权)人:杭州网易云音乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1