【技术实现步骤摘要】
一种基于流数据的实时建宽表的方法
[0001]本申请涉及一种基于流数据的实时建宽表的方法,属于数据处理领域。
技术介绍
[0002]无论是传统数仓建设,还是现代数据驱动的应用业务,大部分的数据开发工作就是要构建一些新的数据表,为各种分析模型或业务模型服务。特别是互联网公司由于数据量普遍偏大,多表关联的方式通常不会被采用。这种情况下构建宽表用于支持各种业务查询是非常主流的数据开发工作。
[0003]传统的建模、建表都是基于SQL来完成的。基于SQL的方式有这些局限性:1、目标模型表和原始表数据脱节:SQL是基于一个固定数据集来进行查询计算并输出到目标表的方式,适合于定期批量运算。如果涉及到的原始表比较大,那这种操作往往会需要执行数分钟甚至数小时,这样会造成目标的数据无法反应当前真实的状态。
[0004]2、并发任务性能瓶颈:由于传统建模的全表计算模式,在数仓内同时进行的任务基本不能超过2
‑
3个。这个严重限制了传统数据平台跑批建模的能力。
技术实现思路
[0005]根据本申请的 ...
【技术保护点】
【技术特征摘要】
1.一种基于流数据的实时建宽表的方法,其特征在于,所述方法至少包括以下步骤:数据引擎采集数据,保存至数据库中;将采集到的所述数据转化为结构化数据;将所述结构化数据保存到数据缓存库;模型计算引擎接收数据更新事件,根据所述结构化数据与目标模型是否存在映射关系,提取与目标主表相关联的所述结构化数据,更新到所述目标主表中。2.根据权利要求1所述的方法,其特征在于,所述数据缓存库为MongoDB。3.根据权利要求1所述的方法,其特征在于,所述结构化数据保存在所述数据缓存库的统一数据缓冲层中。4.根据权利要求3所述的方法,其特征在于,所述统一数据缓冲层为FDM层。5.根据权利要求1所述的方法,其特征在于,所述数据引擎采集数据的同时,日志采集器形成数据日志,并将所述数据日志保存到所述数据缓存库的日志存储中心;所述日志存储中心将所述数据日志与任务采集器同步,从而实现数据日志与用户目标数据库的共享。6.根据权利要求5所述的方法,其特征在于,所述模型计算引擎接收数据更新事件,包括:所述...
【专利技术属性】
技术研发人员:唐建法,肖贝贝,黄佳钦,欧阳世雄,
申请(专利权)人:深圳钛铂数据有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。