【技术实现步骤摘要】
技术介绍
1、数据处理流水线可以指将一个或多个数据制品(artifact)(例如,原始数据、数据集、从数据中推导出的分析或机器学习(ml)模型等)转换成一个或多个新的数据制品(例如,新的数据集、从数据中推导出的分析或ml模型、显示前述数据制品中的一个或多个数据的仪表板等)的一系列执行(即,处理步骤)。在许多情况下,数据处理流水线由处理阶段(processing stage)(例如,数据发现/准备阶段、ml模型准备阶段、ml模型训练阶段等)组成。给定的处理阶段可以由一个或多个执行组成。执行可以是转换一个或多个数据制品的数据处理步骤。换言之,执行可以接收一个或多个输入数据制品(即,作为对执行的输入而接收的数据制品),并且将它们转换成一个或多个输出数据制品(即,由执行产生的数据制品)。数据制品可以是来自一个执行的输出,和/或对一个或多个不同执行的输入。例如,除了是第一处理阶段的第一执行的输出之外,第一数据制品也可以是对第二处理阶段的第一执行的输入。
2、在许多情况下,数据处理流水线的多个处理阶段可以由不同的数据处理站点(例如,不
...【技术保护点】
1.一种方法,包括:
2.根据权利要求1所述的方法,还包括:将针对所述数据处理流水线的所构建的所述数据谱系表示导出至所述数据处理流水线的至少一个数据处理站点。
3.根据权利要求1所述的方法,还包括:
4.根据权利要求3所述的方法,其中针对所述数据处理流水线的、所构建的所述数据谱系表示包括所述第一数据制品与所述第二数据制品之间的线性关联。
5.根据权利要求3所述的方法,其中针对所述数据处理流水线的、所构建的所述数据谱系表示包括以下项之间的线性关联:
6.根据权利要求1所述的方法,还包括:
7.根据权
...【技术特征摘要】
1.一种方法,包括:
2.根据权利要求1所述的方法,还包括:将针对所述数据处理流水线的所构建的所述数据谱系表示导出至所述数据处理流水线的至少一个数据处理站点。
3.根据权利要求1所述的方法,还包括:
4.根据权利要求3所述的方法,其中针对所述数据处理流水线的、所构建的所述数据谱系表示包括所述第一数据制品与所述第二数据制品之间的线性关联。
5.根据权利要求3所述的方法,其中针对所述数据处理流水线的、所构建的所述数据谱系表示包括以下项之间的线性关联:
6.根据权利要求1所述的方法,还包括:
7.根据权利要求2所述的方法,其中所述第一数据制品包括第一数据集。
8.根据权利要求7所述的方法,其中所述第二数据制品包括第二数据集和机器学习模型中的至少一项。
9.根据权利要求1所述的方法,其中所述数据处理流水线的所述第一处理阶段是用于机器学习模型的训练阶段,并且所述数据处理流水线的所述第二处理阶段是用于机器学习模型的推理阶段。
10.根据权利要求1所述的方法,还包括:使用git来索引所构建的所述数据谱系表示。
11.一种存储指令的非暂态计算机可读介质,所述指令在由数据处理流水线的第二数据处理站点的一个或多个处理资源执行时,使所述一个或多个处理资源:
12.根据权利要求11所述的存储指令的非暂态计算机可读介质,还包括使所述...
【专利技术属性】
技术研发人员:A·J·库马塔纳姆,S·巴塔查里亚,A·特里帕蒂,S·谢列布里亚科夫,M·福尔坦,P·法拉伯斯基,
申请(专利权)人:慧与发展有限责任合伙企业,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。