【技术实现步骤摘要】
数据加载方法及装置
本公开涉及数据处理
,尤其涉及一种数据加载方法及装置。
技术介绍
ETL(Extract-Transform-Load,抽取-转换-加载)用来描述将数据从来源端经过抽取、转换以及加载至目的端的过程。在一些数据ETL应用场景中,新数据记录不断生成,抽取新数据后直接将其存入数据库,不再更新历史数据记录;而在另一些应用场景中,可更新的数据记录(RecSet)有一个生命周期,即,在数据记录初始写入后的T时间后还会对数据的个别属性字段进行更新,直至此数据生命周期终止(即生命周期结束),再更新其生命终止标志。图1示出了该类数据记录的一般结构,如图1所示,该数据记录结构包括:实体标识、开始时间、结束时间(生命周期结束标志,初始为空)、更新时间以及其他一些属性标识。其中,实体标识+开始时间做主键。数据记录的生命周期包括:初始:开始时间为t1,结束时间为空,相关参数为初始值。状态1:开始时间为t1,结束时间为空,相关参数x根据业务情况更新。状态2:变化过程中的状态,相关参数x根据业务情况更新。结束:开始时间为t1,结束时间为t2,相关参数x完成更新。以宾馆 ...
【技术保护点】
1.一种数据加载方法,其特征在于,包括:扫描周期到达时,从数据源读取数据记录至数据记录集合,作为所述数据记录集合中的第一数据记录;遍历所述数据记录集合中的所述第一数据记录,针对遍历到的任一第一数据记录,根据所述第一数据记录的主键在缓存数据库中进行检索;当在所述缓存数据库中未检索到与所述主键匹配的数据记录时,将所述第一数据记录添加至新增数据记录集合;当在所述缓存数据库中检索到与所述主键匹配的数据记录、且所述第一数据记录的生命周期终止时,将所述第一数据记录添加至生命周期终止数据记录集合;将所述新增数据记录集合中的数据记录插入目标数据库的全量数据表;用所述生命周期终止数据记录集合 ...
【技术特征摘要】
1.一种数据加载方法,其特征在于,包括:扫描周期到达时,从数据源读取数据记录至数据记录集合,作为所述数据记录集合中的第一数据记录;遍历所述数据记录集合中的所述第一数据记录,针对遍历到的任一第一数据记录,根据所述第一数据记录的主键在缓存数据库中进行检索;当在所述缓存数据库中未检索到与所述主键匹配的数据记录时,将所述第一数据记录添加至新增数据记录集合;当在所述缓存数据库中检索到与所述主键匹配的数据记录、且所述第一数据记录的生命周期终止时,将所述第一数据记录添加至生命周期终止数据记录集合;将所述新增数据记录集合中的数据记录插入目标数据库的全量数据表;用所述生命周期终止数据记录集合中的数据记录替换与其主键一致的所述全量数据表中的数据记录。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在首个扫描周期到达之前,将所述全量数据表中生命周期未终止的有效数据记录导入所述缓存数据库。3.根据权利要求2所述的方法,其特征在于,所述从数据源读取数据记录至数据记录集合,包括:在扫描周期达到时,根据上一个扫描周期内设置的时间变量的取值从所述数据源读取一条或多条更新时间晚于所述取值的数据记录。4.根据权利要求3所述的方法,其特征在于,所述从数据源读取一条或多条更新时间晚于所述取值的数据记录之后,该方法还包括:将所述时间变量的取值更新为本扫描周期内从数据源读取的数据记录中的最近的更新时间。5.根据权利要求3所述的方法,其特征在于,所述将所述全量数据表中生命周期未终止的有效数据记录导入所述缓存数据库时,将所述时间变量的取值设置为所述缓存数据库中所有数据记录中的最近的更新时间。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:当在所述缓存数据库中未检索到与所述主键匹配的数据记录时,将所述第一数据记录存入所述缓存数据库;当在所述缓存数据库中检索到与所述主键匹配的数据记录、且所述第一数据记录的生命周期终止时,在所述缓存数据库中删除检索到的数据记录。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述数据记录集合中的所述第一数据记录遍历完成之后,将所述数据记录集合删除;将所述新增数据记录集合中的数据记录插入目标数据库的全量数据表之后,将所述新增数据记录集合删除;用所述生命周期终止数据记录集合中的数据记录替换与其主键一致的所述全量数据表中的数据记录之后,将所述生命周期终止数据记录集合删除。8.一种数据加载装置,其特征在于,包括:读取模块,用于扫描周期到达时,从数据源读取数据记录至数据记录集合,作为...
【专利技术属性】
技术研发人员:李鹏,丁杉,
申请(专利权)人:新华三大数据技术有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。