【技术实现步骤摘要】
一种基于分支的数据处理方法、装置、设备和存储介质
[0001]本申请涉及计算机
,尤其是涉及一种基于分支的数据处理方法、装置、电子设备和存储介质。
技术介绍
[0002]大数据仓库作为企业的分析数据存储平台,提供给企业里的大量数据分析人员使用,所以数据的共享和协同操作是常见的数据处理场景。随着人工智能(Artificial Intelligence,AI)和探索性的需求越来越多,共享和协同操作经常需要基于数据进行数据实验。在实验过程中,会进行数据的修正和调整,涉及到对数据的插入、删除、更新等多种多样的操作,所以需要隔离不同实验的数据操作,避免相互影响导致结果不准确甚至是错误的。
[0003]目前基于大数据仓库的数据共享和协同工作方法有表共享、视图共享和复制数据集3种方式。其中,基于表、视图的共享方式本质上是基于事务和锁,具有排他性,隔离性差且效率较低,基于复制的数据共享,隔离性好但存储成本太高且难以相互共享数据成果。可见,传统上的基于数据共享的协同工作存在诸多不足,数据隔离性和数据存储成本之间无法均衡。本申请提 ...
【技术保护点】
【技术特征摘要】
1.一种基于分支的数据处理方法,其特征在于,包括:获取数据集中待操作的分支的分支名称;其中,对所述数据集的基线数据执行一个或多个改变后,得到的不同的数据集的分支被存储在对应的数据沙箱中,所述数据集的分支包括所述待操作的分支;根据所述分支名称,在所述数据集的分支清单中定位目标分支对象;从所述目标分支对象中获取所述待操作的分支对应的快照标识;对所述快照标识所指的快照执行数据操作。2.根据权利要求1所述的方法,其特征在于,所述根据所述分支名称,在所述数据集的分支清单中定位目标分支对象之前,所述方法包括:对所述数据集的表元数据进行字段扩展,得到扩展后的表元数据;其中,扩展后的表元数据中的第一扩展字段中保存有所述分支清单;扩展后的表元数据中的第二扩展字段中保存有所述分支清单包含的主分支对象;所述分支清单还包含基于所述主分支对象创建的新分支对象。3.根据权利要求2所述的方法,其特征在于,所述根据所述分支名称,在所述数据集的分支清单中定位目标分支对象,包括:若所述分支名称为指定的分支名称,根据所述指定的分支名称,在所述分支清单中包含的所述新分支对象中定位所述目标分支对象;若所述分支名称未指定,将所述分支清单中包含的所述主分支对象定位为所述目标分支对象。4.根据权利要求1所述的方法,其特征在于,所述数据操作包括写入数据的操作,所述对所述快照标识所指的快照执行数据操作,包括:生成新的数据文件;将所述新的数据文件附加到所述分支清单包含的主分支对象;生成新的快照,并为所述新的快照分配对应的快照标识。5.根据权利要求1所述的方法,其特征在于,所述数据操作包括读取数据的操作,所述对所述快照标识所指的快照执行数据操作,包括:确定所述快照标识所指的快照对应的数据文件;从所述快照...
【专利技术属性】
技术研发人员:尚晶,武智晖,刘辉,郭志伟,陈卓,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。