跟踪和克隆与分布式机器学习流水线相关联的制品的方法技术

技术编号:40065104 阅读:21 留言:0更新日期:2024-01-16 23:18
本公开实施例涉及跟踪和克隆与分布式机器学习流水线相关联的制品的方法。提供了用于自动构建针对分布式数据处理流水线的数据谱系表示的系统和方法。这些数据谱系表示(其被构建并且存储在由多个数据处理站点共享的中央存储库中)可以用于克隆分布式数据处理流水线以用于质量保证或调试目的等。当前公开的技术的示例能够构建针对分布式数据处理流水线的数据谱系表示。

【技术实现步骤摘要】


技术介绍

1、数据处理流水线可以指将一个或多个数据制品(artifact)(例如,原始数据、数据集、从数据中推导出的分析或机器学习(ml)模型等)转换成一个或多个新的数据制品(例如,新的数据集、从数据中推导出的分析或ml模型、显示前述数据制品中的一个或多个数据的仪表板等)的一系列执行(即,处理步骤)。在许多情况下,数据处理流水线由处理阶段(processing stage)(例如,数据发现/准备阶段、ml模型准备阶段、ml模型训练阶段等)组成。给定的处理阶段可以由一个或多个执行组成。执行可以是转换一个或多个数据制品的数据处理步骤。换言之,执行可以接收一个或多个输入数据制品(即,作为对执行的输入而接收的数据制品),并且将它们转换成一个或多个输出数据制品(即,由执行产生的数据制品)。数据制品可以是来自一个执行的输出,和/或对一个或多个不同执行的输入。例如,除了是第一处理阶段的第一执行的输出之外,第一数据制品也可以是对第二处理阶段的第一执行的输入。

2、在许多情况下,数据处理流水线的多个处理阶段可以由不同的数据处理站点(例如,不同的数据中心、边缘计本文档来自技高网...

【技术保护点】

1.一种方法,包括:

2.根据权利要求1所述的方法,还包括:将针对所述数据处理流水线的所构建的所述数据谱系表示导出至所述数据处理流水线的至少一个数据处理站点。

3.根据权利要求1所述的方法,还包括:

4.根据权利要求3所述的方法,其中针对所述数据处理流水线的、所构建的所述数据谱系表示包括所述第一数据制品与所述第二数据制品之间的线性关联。

5.根据权利要求3所述的方法,其中针对所述数据处理流水线的、所构建的所述数据谱系表示包括以下项之间的线性关联:

6.根据权利要求1所述的方法,还包括:

7.根据权利要求2所述的方法,...

【技术特征摘要】

1.一种方法,包括:

2.根据权利要求1所述的方法,还包括:将针对所述数据处理流水线的所构建的所述数据谱系表示导出至所述数据处理流水线的至少一个数据处理站点。

3.根据权利要求1所述的方法,还包括:

4.根据权利要求3所述的方法,其中针对所述数据处理流水线的、所构建的所述数据谱系表示包括所述第一数据制品与所述第二数据制品之间的线性关联。

5.根据权利要求3所述的方法,其中针对所述数据处理流水线的、所构建的所述数据谱系表示包括以下项之间的线性关联:

6.根据权利要求1所述的方法,还包括:

7.根据权利要求2所述的方法,其中所述第一数据制品包括第一数据集。

8.根据权利要求7所述的方法,其中所述第二数据制品包括第二数据集和机器学习模型中的至少一项。

9.根据权利要求1所述的方法,其中所述数据处理流水线的所述第一处理阶段是用于机器学习模型的训练阶段,并且所述数据处理流水线的所述第二处理阶段是用于机器学习模型的推理阶段。

10.根据权利要求1所述的方法,还包括:使用git来索引所构建的所述数据谱系表示。

11.一种存储指令的非暂态计算机可读介质,所述指令在由数据处理流水线的第二数据处理站点的一个或多个处理资源执行时,使所述一个或多个处理资源:

12.根据权利要求11所述的存储指令的非暂态计算机可读介质,还包括使所述...

【专利技术属性】
技术研发人员:A·J·库马塔纳姆S·巴塔查里亚A·特里帕蒂S·谢列布里亚科夫M·福尔坦P·法拉伯斯基
申请(专利权)人:慧与发展有限责任合伙企业
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1