自动时间序列预测管线排序制造技术

技术编号:39041996 阅读:15 留言:0更新日期:2023-10-10 11:54
提供了一种用于对计算环境中的时间序列预测机器学习管线进行排序的方法和系统。可以基于时间序列数据的季节性或时间依赖性的程度,从时间序列数据集递增地分配时间序列数据以用于通过候选机器学习管线进行测试。在每个时间序列数据分配之后,可以由每个候选机器学习管线提供中间评估分数。可基于从中间评估分数生成的投影学习曲线从一个或多个候选机器学习管线的排序列表中自动选择一个或多个机器学习管线。器学习管线。器学习管线。

【技术实现步骤摘要】
【国外来华专利技术】自动时间序列预测管线排序

技术介绍

[0001]本专利技术总体上涉及计算系统,并且更具体地涉及用于使用计算处理器对计算系统中的时间序列预测机器学习管线进行排名的各种实施例。

技术实现思路

[0002]根据本专利技术的实施例,一种用于通过计算系统中的一个或多个处理器对计算环境中的时间序列预测机器学习管线进行排序的方法。可以基于时间序列数据的季节性或时间依赖性的程度,从时间序列数据集递增地分配时间序列数据,用于通过候选机器学习管线进行测试。在每个时间序列数据分配之后,可以由每个候选机器学习管线提供中间评估分数。可基于从中间评估分数生成的投影学习曲线从一个或多个候选机器学习管线的排序列表中自动选择一个或多个机器学习管线。
[0003]在另一的实施例中,时间序列数据的定义的子集可以在时间上向后分配给一个或多个候选机器学习管线中的每一个。时间序列数据的超过基于时间的阈值的部分可以被识别为历史时间序列数据。与较新的训练数据相比,历史时间序列数据是较不准确的训练数据。
[0004]在另一实施例中,可以针对时间序列数据的每次分配来训练和评估候选机器学习管线。训练数据的分配量可以基于来自训练数据的一个或多个先前分配量的中间评估分数在一个或多个候选机器学习管线中逐渐增加。可以确定或计算从中间评估分数中的每个中间评估分数生成的学习曲线。候选机器学习管线中的每一者可基于投影学习曲线来排序。
[0005]实施例包括计算机可用程序产品。计算机可用程序产品包括计算机可读存储设备,以及存储在存储设备上的程序指令。
[0006]实施例包括计算机系统。计算机系统包括处理器、计算机可读存储器和计算机可读存储设备,以及存储在存储设备上用于由处理器经由存储器执行的程序指令。
[0007]因此,除了上述示范性方法实施例之外,还提供了用于自动评估在自适应白盒对抗操作下的机器学习模型的鲁棒性的其他示范性系统和计算机产品实施例。
附图说明
[0008]图1是示出根据本专利技术的实施例的示范性云计算节点的框图;
[0009]图2描绘了根据本专利技术的实施例的云计算环境;
[0010]图3描绘了根据本专利技术的实施例的抽象模型层;
[0011]图4是描绘本专利技术的各个方面之间的示范性函数关系的附加框图;
[0012]图5描绘了根据本专利技术的实施例的计算环境中的机器学习管线;
[0013]图6是描绘用于由处理器对计算环境中的时间序列预测机器学习管线进行排序的联合优化的示范性系统和功能的框流程图,其中可以实现本专利技术的各方面;
[0014]图7是描绘用于由处理器联合优化计算环境中的自动化时间序列预测管线生成的示范性系统和功能的框图,其中可以实现本专利技术的各方面;
[0015]图8是描绘可由处理器在计算环境中实现本专利技术的各方面的联合优化得分和输出分配的曲线图;以及
[0016]图9是描绘用于由处理器对计算环境中的时间序列预测机器学习管线进行排序的附加示范性方法的附加流程图,其中可以实现本专利技术的各方面。
具体实施方式
[0017]本专利技术总体上涉及人工智能(“AI”)领域,例如像机器学习和/或深度学习。机器学习允许自动化处理系统(“机器”),如计算机系统或专门的处理电路开发关于特定数据集的概括并且使用该概括通过例如对新数据分类来解决相关的问题。一旦机器从输入或训练数据学习来自已知属性的概括(或使用已知属性来训练),则它可以将概括应用到未来数据以预测未知属性。
[0018]此外,机器学习是AI的形式,其使得系统能够从数据学习而不是通过显式编程。机器学习研究的主要焦点是自动学习识别复杂模式并基于数据做出智能决策,并且更高效地训练机器学习模型和管线。然而,机器学习不是简单的过程。随着算法摄取训练数据,然后可以基于该数据生成更精确的模型。机器学习模型是当机器学习算法用数据训练时产生的输出。在训练之后,将输入提供给机器学习模型,机器学习模型然后生成输出。例如,预测算法可以创建预测模型。然后,该预测模型被提供有数据,并且然后基于训练该模型的数据生成预测(例如,“输出”)。
[0019]机器学习允许机器学习模型在被部署之前对数据集进行训练。一些机器学习模型是在线且连续的。在线模型的这种迭代过程导致在数据元素之间关联的类型的改进。存在不同的常规技术来创建机器学习模型和神经网络模型。跨现有方法的基本先决条件包括具有数据集,以及机器学习模型合成、神经网络架构合成和编码技能的基本知识。
[0020]在一个方面,自动AI机器学习(“ML”)系统(“AutoAI系统”或自动机器学习系统“AutoML系统”)可以生成多个(例如,数百个)机器学习管线。设计机器学习管线涉及若干决策,诸如例如应当应用哪些数据准备和预处理操作、应当将哪些机器算法与哪些设置(超参数)一起使用。AI机器学习系统可自动搜索批准的或满意执行的管线。为此目的,可以选择并训练若干机器学习管线以收敛。在数据的保留集合上估计其性能。然而,对整个数据集(特别是时间序列数据集)训练机器学习模型并等待收敛是耗时的。
[0021]时间序列数据在许多系统中产生,并且通常形成用于预测和预测这些系统中的未来事件的基础。例如,在数据中心中,监视系统可以生成数十至数十万个时间序列数据,每个时间序列数据表示特定组件的状态(例如,服务器的处理器和内存利用率、网络链路的带宽利用等)。自回归积分移动平均(“ARIMA”)是用于时间序列数据进行建模并预测时间序列的未来值的一类统计模型。这样的建模和预测然后可以用于预测未来的事件并且采取主动动作和/或用于检测异常趋势。时间序列分析在不同类型的行业中是至关重要的,例如像在金融、物联网(“IoT”)、和/或技术行业中。时间序列可能是噪声和复杂的,并且如果可能的话,需要大的数据集、大量的时间和专业知识来训练有意义的模型。
[0022]因此,尤其在优化机器学习管线涉及时间序列数据时,在训练和标识优化机器学习管线方面出现挑战。在一个方面,机器学习管线可以指的是包括描绘示范性机器学习管线的一系列转换器和估计器的工作流,如图5所示。照此,标识和选择优化的机器学习管线
是用于时间序列预测的自动化机器学习系统中的关键组成部分。此外,快速识别用于时间序列机器学习管线预测的经排序的机器学习管线也是一项挑战。例如,由于1)来自极大不同的域的大数据集、2)多模和多变量时间序列的复杂性、和/或3)机器学习管线中的大量估计器和变换器,所以难以识别用于时间序列预测的优化的或“最佳性能”的机器学习管线。此外,执行具有数据分配的机器学习管线的基于评估的操作由于低效率的数据分配方案(诸如,例如,机器学习管线的性能通过简单的线性回归来预计)而在时间序列预测方面产生了额外的挑战,并且在不考虑输入时间序列特性的情况下数据在固定阶段中被分配。此外,执行机器学习管线的基于评估的操作被设计用于列表数据并且不直接适用于时间序列(“TS”)数据,因为1)时间序列数据是顺序的;其顺序不能被随机化,2)时间序列数据具有季节性和趋势(其在数据分配模式中应当被考虑),以及3)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于通过一个或多个处理器对计算环境中的时间序列预测机器学习管线进行排序的方法,包括:基于时间序列数据的季节性或时间依赖性的程度,递增地分配来自时间序列数据集的时间序列数据以用于通过一个或多个候选机器学习管线进行测试;由所述一个或多个候选机器学习管线中的每个候选机器学习管线在每个时间序列数据分配之后提供中间评估分数;以及基于从所述中间评估分数生成的投影学习曲线从所述一个或多个候选机器学习管线的排序列表中自动选择一个或多个机器学习管线。2.根据权利要求1所述的方法,进一步包括:将所述时间序列数据的定义的子集在时间上向后分配给所述一个或多个候选机器学习管线中的每一个。3.根据权利要求1所述的方法,进一步包括:将超过基于时间的阈值的所述时间序列数据的部分识别为历史时间序列数据,其中,所述历史时间序列数据是较不准确的训练数据。4.根据权利要求1所述的方法,进一步包括:针对所述时间序列数据的每次分配,训练和评估所述一个或多个候选机器学习管线。5.根据权利要求1所述的方法,进一步包括:基于来自所述训练数据的一个或多个先前分配量的中间评估分数,递增地增加所述一个或多个候选机器学习管线中的训练数据的分配量。6.根据权利要求1所述的方法,进一步包括确定从每个所述中间评估分数生成的所述学习曲线。7.根据权利要求1所述的方法,进一步包括基于所述投影学习曲线对所述一个或多个候选机器学习管线中的每一个进行排序。8.一种用于对计算环境中的时间序列预测机器学习管线进行排序的系统,包括:具有可执行指令的一个或多个计算机,所述可执行指令在被执行时使得所述系统:基于时间序列数据的季节性或时间依赖性的程度,增量地分配来自时间序列数据集的时间序列数据以用于通过一个或多个候选机器学习管线进行测试;由所述一个或多个候选机器学习管线中的每个候选机器学习管线在每个时间序列数据分配之后提供中间评估分数;以及基于从所述中间评估分数生成的投影学习曲线从所述一个或多个候选机器学习管线的排序列表中自动选择一个或多个机器学习管线。9.根据权利要求8所述的系统,其中,所述可执行指令在被执行时使所述系统将所述时间序列数据的定义的子集在时间上向后分配给所述一个或多个候选机器学习管线中的每一个。10.根据权利要求8所述的系统,其中,所述可执行指令在被执行时使所述系统将超过基于时间的阈值的所述时间序列数据的部分识别为历史时间序列数据,其中,所述历史时间序列数据是较不准确的训练数据。11.根据权利要求8...

【专利技术属性】
技术研发人员:陈蓓L
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1