对机器学习工作负荷的数据处理优化进行流水线化制造技术

技术编号:36842268 阅读:17 留言:0更新日期:2023-03-15 15:48
提供了用于改良数据流水线的技术。接收序列化对象的原始文件,并且基于所述原始文件来识别包括多个变换的原始流水线。确定该多个变换中的第一变换的第一计算成本。使用预定义优化来修改第一变换,并且确定经修改的第一变换的第二成本。在确定第二成本低于第一成本时,将原始流水线中的第一变换替换为经优化的第一变换。一变换。一变换。

【技术实现步骤摘要】
【国外来华专利技术】对机器学习工作负荷的数据处理优化进行流水线化

技术介绍

[0001]本公开涉及机器学习优化,并且更具体地涉及优化机器学习流水线的改进技术。
[0002]机器学习(ML)系统通常依赖于大量数据来有效且准确地操作。例如,通常需要大量数据来充分地训练系统。类似地,在使用期间,经常期望模型处理大量数据以提供期望的推断、预测和分类。此外,在重新训练或改良过程期间,通常使用先前数据(其可包括训练数据和部署数据)来重新配置模型,这可能需要评估大量记录。
[0003]在现有系统中,数据通常经过预处理系统,以便使其准备好用作实际模型的输入。预处理系统可以涉及对原始输入数据的一个或多个评估和变换。该预处理可以导致显著的计算成本,包括计算时间(例如,处理器上的循环)和存储器要求。事实上,在许多系统中,预处理输入数据涉及比用ML模型实际评估数据更多的计算成本。出于这些和其他原因,重要的是预处理系统高效地操作,以便减少系统中的花费和等待时间。
[0004]例如,在依赖于实时推断(例如,在输入数据被接收为流的情况下)的部署中,输入数据通常是高吞吐量,并且需要快速评估。如果预处理系统不是有效的,则它充当过程中的重要瓶颈。类似地,在批量推断系统中,通常在单个时间评估大量记录。如果预处理系统效率低下,那么每一批次因此需要额外且大量的资源来摄取。在该预处理系统中的优化对于模型的整体性能是关键的。然而,现有系统依赖于大量的人工努力来识别和实现系统中的优化。这再次引入额外的成本和延迟。进一步,这些人工方法通常固有地是主观的,并且不提供智能的和系统性的技术来改良系统。

技术实现思路

[0005]根据本公开的一个实施例,提供了一种方法。该方法包括:接收序列化对象的原始文件;基于原始文件识别包括多个变换的原始流水线;确定多个变换中的第一变换的第一计算成本;使用预定义优化来修改第一变换;确定经修改的第一变换的第二成本;以及在确定第二成本低于第一成本时,在原始流水线中以经优化的第一变换来替换第一变换。有利地,这样的方法能够在处理流水线时实现显著的数据驱动的改进。
[0006]根据本公开的一些实施例,以上实施例的任何组合可进一步包含以下技术:其中识别原始流水线包括生成数据处理图,其中数据处理图中的每个相应顶点表示多个变换中的相应变换,并且其中数据处理图中的每个相应边指定原始流水线中的数据流。这样的实施例是有利的,至少因为它能够实现流水线的粒度评估和理解,以便动态地分析每个元素并识别潜在的改进。
[0007]根据本公开的一些实施例,以上实施例的任意组合可以进一步包括以下技术,其中生成数据处理图包括:基于原始文件实例化原始流水线;对样本数据执行原始流水线;基于执行来识别多个变换;以及基于执行来识别多个变换的序列。有利地,这样的实施例允许系统识别流水线中涉及的特定变换和数据流,同时允许系统监控使用中的原始流水线。这降低了复杂性并且加速了改进。
[0008]根据本公开的一些实施例,以上实施例的任何组合还可包括以下技术,其中生成
数据处理图包括评估原始文件以识别原始流水线中的多个变换和数据流,而不实例化原始流水线。这样的实施例可以是有利的,因为它允许系统通过直接查看文件来开始流水线的评估,而不需要资源使用来实例化流水线或处理实际数据。
[0009]根据本公开的一些实施例,上述实施例的任意组合还可以包括以下技术,其中确定第一变换的第一计算成本包括:对样本数据执行第一变换;以及评估执行以确定执行第一变换的等待时间。有利地,这允许系统以真实的方式动态地识别与处理数据相关联的成本,这更好地反映在运行时预期的内容。
[0010]根据本公开的一些实施方式,上述实施方式的任何组合可进一步包括以下技术,其中预定义优化包括在第一变换中增加的并行化。这样的实施例使得能够显著改进非改良的变换,因为并行性常常在减少处理延迟方面是有用的。
[0011]根据本公开的一些实施方式,上述实施方式的任何组合可进一步包括以下技术,其中预定义优化包括用于第一变换的一行优化。这样的实施例使得能够显著改进非改良的变换,因为这些一行优化通常快得多并且在数据允许它时利用更少的资源。
[0012]根据本公开的一些实施例,上述实施例的任意组合还可以包括:基于原始流水线和经优化的第一变换来生成序列化对象的经优化的文件。有利地,这样的实施例使得系统能够以容易传输和分析的有用格式将改良的流水线返回至请求实体。
[0013]根据本公开的不同实施例,上述实施例的任何组合可以由一个或多个计算机可读存储介质来实现。计算机可读存储介质共同地含有计算机程序代码,计算机程序代码在由一个或一个以上计算机处理器的操作执行时执行操作。在实施例中,所执行的操作可以对应于上述方法和实施例的任何组合。
[0014]根据本公开的又一不同实施例,上述实施例的任何组合可由系统实现。该系统包括一个或多个计算机处理器和共同包含程序的一个或多个存储器,该程序在由一个或多个计算机处理器执行时执行操作。在实施例中,所执行的操作可以对应于上述方法和实施例的任何组合。
附图说明
[0015]图1描绘了根据本文所公开的一个实施例的用于机器学习的环境,包括被配置成自动识别和替代变换修改以改善系统的功能的流水线优化器。
[0016]图2示出了根据本文所公开的一个实施例的用于流水线优化的工作流。
[0017]图3描绘了根据本文所公开的一个实施例的包括变换操作序列和备选优化变换集合的处理流水线。
[0018]图4示出根据本文所公开的一个实施例的利用数据帧中的并行性的流水线优化。
[0019]图5是示出根据本文所公开的一个实施例的用于使用备选变换进行自动化流水线优化的方法的流程图。
[0020]图6是示出根据本文所公开的一个实施例的用于自动评估和实现流水线优化的方法的流程图。
[0021]图7是示出根据本文所公开的一个实施例的经配置以自动评估优化变换流水线的流水线优化器的框图。
具体实施方式
[0022]本公开的实施例提供了通过降低数据预处理系统所需的计算成本来智能地且自动地优化数据预处理系统的技术。在一个实施例中,该系统接收数据变换流水线作为其输入,并返回经修改的/经改良的流水线,该经修改的/经改良的流水线降低了处理的计算成本。在一些实施例中,不是接收流水线本身,而是系统接收指定序列化对象集合的数据文件。即,输入可以是通过将流水线结构序列化而生成的文件。例如,在一个这样的实施例中,输入是pickle(酸洗)文件。在实施例中,设计其预处理流水线的客户端可以将其序列化并且将其传输或以其他方式提供给优化系统,优化系统对其进行评估以用于潜在的优化。
[0023]在实施例中,系统可以首先识别流水线步骤之间的关系。这可以包括例如生成用于流水线的数据预处理图,其中图中的每个顶点或节点对应于流水线中的步骤或变换,并且每个边指定操作之间的数据流,如流水线中所指示的。在一个实施例中,系统通过使用接收到的文件来实例化流水线(例如,对文件进行反序列化以构建流水线)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:接收序列化对象的原始文件;基于所述原始文件识别包括多个变换的原始流水线;确定所述多个变换中的第一变换的第一计算成本;使用预定义优化来修改所述第一变换;确定经修改的第一变换的第二成本;以及在确定所述第二成本低于所述第一成本时,在所述原始流水线中以经优化的第一变换来替换所述第一变换。2.根据权利要求1所述的方法,其中识别所述原始流水线包括生成数据处理图,其中所述数据处理图中的每个相应顶点表示所述多个变换中的相应变换,并且其中所述数据处理图中的每个相应边指定所述原始流水线中的数据流。3.根据权利要求2所述的方法,其中,生成所述数据处理图包括:基于所述原始文件实例化所述原始流水线;对样本数据执行所述原始流水线;基于所述执行来识别所述多个变换;以及基于所述执行来识别所述多个变换的序列。4.根据权利要求2所述的方法,其中,生成所述数据处理图包括评估所述原始文件以识别所述原始流水线中的所述多个变换和所述数据流,而不实例化所述原始流水线。5.根据权利要求1所述的方法,其中,确定所述第一变换的所述第一计算成本包括:对样本数据执行所述第一变换;以及评估所述执行以确定执行所述第一变换的等待时间。6.根据权利要求1所述的方法,其中,所述预定义优化包括所述第一变换中增加的并行化。7.根据权利要求1所述的方法,其中,所述预定义优化包括用于所述第一变换的一行优化。8.根据权利要求1所述的方法,所述方法进一步包括:基于所述原始流水线和经优化的第一变换来生成序列化对象的经优化的文件。9.一个或多个计算机可读存储介质,共同包含计算机程序代码,所述计算机程序代码在通过一个或多个计算机处理器的操作执行时执行操作,所述操作包括:接收序列化对象的原始文件;基于所述原始文件识别包括多个变换的原始流水线;确定所述多个变换中的第一变换的第一计算成本;使用预定义优化来修改所述第一变换;确定经修改的第一变换的第二成本;以及在确定所述第二成本低于所述第一成本时,在所述原始流水线中以经优化的第一变换来替换所述第一变换。10.根据权利要求9所述的计算机可读存储介质,其中识别所述原始流水线包括生成数据处理图,其中所述数据处理图中的每个相应顶点表示所述多个变换中的相应变换,并且其中所述数据处理图中的每个相应边指定所述原始流水线中的数据流。
11.根据权利要求10所述的计算机可读存储介质...

【专利技术属性】
技术研发人员:张琦P
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1