【技术实现步骤摘要】
流式数据分发方法与系统
[0001]本申请实施例涉及计算机
,尤其涉及一种流式数据分发方法、装置、计算机设备以及计算机可读存储介质,以及一种流式数据分发系统。
技术介绍
[0002]数据传输链路一般由数据源、网关、数据缓冲层、数据分发层和数据存储层构成。当数据源产生新数据时,该新数据会最终落地到数据存储层。数据存储层包括ODS(操作数据存储)层、DW(数据仓库)层和ADS(应用数据存储)层等。但是,在现有技术中,在数据分发层的数据处理并发度较高的情形下,将数据分发层处理得到的数据写入到数据存储层(ODS层),容易造成IO负担过重。
技术实现思路
[0003]本申请实施例的目的是提供一种流式数据分发系统以及一种流式数据分发方法、装置、计算机设备以及计算机可读存储介质,用于解决以下问题:在数据分发层的数据处理并发度较高的情形下,将数据分发层处理得到的数据写入到数据存储层(ODS层),容易造成IO负担过重。
[0004]本申请实施例的一个方面提供了一种流式数据分发方法,所述方法包括:
[000 ...
【技术保护点】
【技术特征摘要】
1.一种流式数据分发方法,其特征在于,所述方法包括:获取上游节点提供的数据流;通过多个并发任务对所述数据流进行处理,以通过所述多个并发任务得到多个文件;对所述多个文件中的至少部分文件进行合并操作,得到一个或多个文件;将所述一个或多个文件下发到下游节点中,以将所述一个或多个文件存储到所述下游节点。2.根据权利要求1所述的流式数据分发方法,其特征在于,所述数据流包括Protobuf数据;所述方法还包括:监测所述数据流的Schema是否发生变化;及若所述数据流的Schema发生变化,则动态变更用于生成所述Protobuf数据的类。3.根据权利要求1所述的流式数据分发方法,其特征在于,对所述多个文件中的至少部分文件进行合并操作,得到一个或多个文件,包括:根据时间策略和/或文件合并大小策略,对所述多个文件中的至少部分文件进行合并操作。4.根据权利要求3所述的流式数据分发方法,其特征在于,还包括:根据所述下游节点的数据读取时效需求和/或所述下游节点的IO负载,确定所述时间策略;其中,所述时间策略用于指示以预定时间隔间执行一次合并操作。5.根据权利要求1至4任意一项所述的流式数据分发方法,其特征在于,还包括:以预设时间间隔生成对应于一个目标时间分区的分区增量索引,所述分区增量索引包括在所述目标时间分区写入到所述下游节点的一个或多个文件的索引信息。6.根据权利要求1至4任意一项所述的流式数据分发方法,其特征在于,所述将所述一个或多个文件下发到下游节点中,以将所述一个或多个文件存储到所述下游节点,包括:以Append模式将所述一个或多个文件写入到所述下游节点中,并为每个文件设置一个检查点。7.一种流式数据分发装置,其特征在于,所述装置包括:获取模块,...
【专利技术属性】
技术研发人员:白鑫,周晖栋,王翔宇,肖宇,
申请(专利权)人:上海哔哩哔哩科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。