执行自动机器学习的方法和装置制造方法及图纸

技术编号:19635763 阅读:23 留言:0更新日期:2018-12-01 16:23
提供了一种执行自动机器学习的方法和装置,所述方法包括:通过自动机器学习方式获取包括至少一个机器学习模型的初始机器学习模型组;持续获取预测数据;监测持续获取的预测数据中是否出现超出预设阈值的分布状态变化;在出现超出阈值的分布状态变化的情况下,自动更新初始机器学习模型组。

Methods and Devices for Implementing Automatic Machine Learning

A method and apparatus for executing automatic machine learning are provided. The methods include: acquiring an initial machine learning model group including at least one machine learning model by automatic machine learning; continuously acquiring prediction data; and monitoring whether there is a distribution state change beyond the preset threshold in the continuously acquired prediction data. When the distribution state changes beyond the threshold, the initial machine learning model group is updated automatically.

【技术实现步骤摘要】
执行自动机器学习的方法和装置
本申请总体说来涉及人工智能领域,更具体地讲,涉及一种执行自动机器学习的方法和装置。
技术介绍
随着海量数据的出现,人工智能技术迅速发展,而机器学习是人工智能发展到一定阶段的必然产物,其致力于通过计算的手段,从大量数据中挖掘有价值的潜在信息。在机器学习领域,往往通过将经验数据提供给机器学习算法来训练机器学习模型以确定构成机器学习模型的理想参数,而训练好的机器学习模型可被应用于在面对新的预测数据时提供相应的预测结果。然而,机器学习过程中所涉及的许多工作(例如,特征预处理和选择、模型算法选择、超参数调整等)往往既需要具备计算机(特别是机器学习)专业知识,也需要具备与预测场景相关的具体业务经验,因此,需要耗费大量的人力成本。为了提高机器学习效率,近年来提出了自动机器学习(AutoML)技术,其实现了从数据预处理到参数选择的一系列流程的自动化,因此,大大降低了机器学习门槛并且降低了用于机器学习的人力成本。然而,AutoML技术在进行自动机器学习时事实上始终假设用于机器学习模型训练的数据是独立同分布的,或者说,假设用于机器学习模型训练的数据的分布状态是不变的(即,静态数据),而并未考虑数据分布状态变化的情况。但是,事实上,在应用机器学习的实际场景中,随着时间的推移,数据的分布状态常常会发生变化,而如果仍然按照先前训练出的机器学习模型针对数据分布状态已经发生变化的新数据执行预测,则很难获得较准确的预测结果。鉴于此,需要更加完善的自动机器学习技术。
技术实现思路
根据本申请示例性实施例,提供了一种执行自动机器学习的方法,所述方法可包括:通过自动机器学习方式获取包括至少一个机器学习模型的初始机器学习模型组;持续获取预测数据;监测持续获取的预测数据中是否出现超出预设阈值的分布状态变化;在出现超出阈值的分布状态变化的情况下,自动更新初始机器学习模型组。可选地,在所述初始机器学习模型组中,各个机器学习模型针对预测数据提供的预测结果可被进行加权求和以作为所述初始机器学习模型组针对预测数据的预测结果,并且,监测步骤可包括:监测持续获取的预测数据的分布状态和/或初始机器学习模型组针对所述预测数据的预测效果,以确定是否出现超出预设阈值的分布状态变化。可选地,在出现超出预设阈值的分布状态变化的情况下,固定地使用或自适应地使用预定的多种更新方式之一来自动更新初始机器学习模型组。可选地,所述预定的多种更新方式可包括以下更新方式:第一更新方式,重新训练新的机器学习模型组以替代初始机器学习模型组;第二更新方式,调整初始机器学习模型组中的各个机器学习模型的权重;或者第三更新方式,训练新的机器学习模型组并将新的机器学习模型组与初始机器学习模型组组合来构成更新后的机器学习模型组。可选地,在第一更新方式中,可利用基于至少一部分预测数据及其真实结果形成的训练数据,重新训练新的机器学习模型组;在第二更新方式中,可根据初始机器学习模型组在基于至少一部分预测数据及其真实结果形成的观测数据上的预测效果来调整初始机器学习模型组中的各个机器学习模型的权重;在第三更新方式中,可利用基于至少一部分预测数据及其真实结果形成的训练数据训练新的机器学习模型组,并且,通过将新的机器学习模型组与初始机器学习模型组组合,并根据组合后的机器学习模型组在基于至少一部分预测数据及其真实结果形成的观测数据上的预测效果确定组合后的机器学习模型组中的各个机器学习模型的权重来构成更新后的机器学习模型组。可选地,在第一更新方式中,所述至少一部分预测数据可包括持续获取的全部预测数据;在第二更新方式和第三更新方式中,所述至少一部分预测数据可包括分布状态变化超出预设阈值的预测数据或者持续获取的全部预测数据。可选地,自适应地使用预定的多种更新方式之一来自动更新初始机器学习模型组的步骤可包括:至少根据与预测数据有关的信息自适应地在所述预定的多种更新方式之中选择相应的更新方式来自动更新初始机器学习模型组。可选地,与预测数据有关的信息可包括能够用于更新初始机器学习模型组的预测数据的数据量和/或与预测数据的分布状态变化相关的信息。可选地,与预测数据的分布状态变化相关的信息可包括预测数据的分布状态变化率和/或预测数据的分布状态变化的周期性。可选地,自适应地选择相应的更新方式的步骤可包括:在数据量小于第一阈值且分布状态变化率大于第二阈值的情况下,选择第三更新方式;在数据量小于第一阈值且分布状态变化率小于第二阈值的情况下,选择第一更新方式;在数据量大于第一阈值且分布状态变化率小于第二阈值的情况下,选择第二更新方式;在数据量大于第一阈值且分布状态变化呈周期性的情况下,选择第二更新方式;在数据量大于第一阈值,分布状态变化率大于第二阈值,且分布状态变化不呈周期性的情况下,选择第三更新方式。可选地,监测步骤可包括:获取初始机器学习模型组针对所述预测数据的预测结果;通过将获取的预测结果与所述预测数据的真实结果进行比较,确定初始机器学习模型组针对所述预测数据的预测效果;根据确定的预测效果,确定是否出现超出阈值的分布状态变化。根据本申请另一示例性实施例,提供了一种用于执行自动机器学习的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行如上所述的方法的计算机程序。根据本申请另一示例性实施例,提供了一种执行自动机器学习的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,促使处理器执行如上所述的方法。根据本申请另一示例性实施例,提供了一种执行自动机器学习的装置,所述装置可包括:初始机器学习模型组获取单元,被配置为通过自动机器学习方式获取包括至少一个机器学习模型的初始机器学习模型组;预测数据获取单元,被配置为持续获取预测数据;监测单元,被配置为监测持续获取的预测数据中是否出现超出预设阈值的分布状态变化;更新单元,被配置为在出现超出阈值的分布状态变化的情况下自动更新初始机器学习模型组。可选地,在所述初始机器学习模型组中,各个机器学习模型针对预测数据提供的预测结果可被进行加权求和以作为所述初始机器学习模型组针对预测数据的预测结果,并且,监测单元可监测持续获取的预测数据的分布状态和/或初始机器学习模型组针对所述预测数据的预测效果,以确定是否出现超出预设阈值的分布状态变化。可选地,在出现超出预设阈值的分布状态变化的情况下,更新单元可固定地使用或自适应地使用预定的多种更新方式之一来自动更新初始机器学习模型组。可选地,所述预定的多种更新方式可包括以下更新方式:第一更新方式,重新训练新的机器学习模型组以替代初始机器学习模型组;第二更新方式,调整初始机器学习模型组中的各个机器学习模型的权重;或者,第三更新方式,训练新的机器学习模型组并将新的机器学习模型组与初始机器学习模型组组合来构成更新后的机器学习模型组。可选地,在第一更新方式中,更新单元可利用基于至少一部分预测数据及其真实结果形成的训练数据,重新训练新的机器学习模型组;在第二更新方式中,更新单元可根据初始机器学习模型组在基于至少一部分预测数据及其真实结果形成的观测数据上的预测效果来调整初始机器学习模型组中的各个机器学习模型的权重;在第三更新方式中,更新单元可利用基于至少一部分预测数据本文档来自技高网...

【技术保护点】
1.一种执行自动机器学习的方法,包括:通过自动机器学习方式获取包括至少一个机器学习模型的初始机器学习模型组;持续获取预测数据;监测持续获取的预测数据中是否出现超出预设阈值的分布状态变化;在出现超出阈值的分布状态变化的情况下,自动更新初始机器学习模型组。

【技术特征摘要】
1.一种执行自动机器学习的方法,包括:通过自动机器学习方式获取包括至少一个机器学习模型的初始机器学习模型组;持续获取预测数据;监测持续获取的预测数据中是否出现超出预设阈值的分布状态变化;在出现超出阈值的分布状态变化的情况下,自动更新初始机器学习模型组。2.如权利要求1所述的方法,其中,在所述初始机器学习模型组中,各个机器学习模型针对预测数据提供的预测结果被进行加权求和以作为所述初始机器学习模型组针对预测数据的预测结果,并且,监测步骤包括:监测持续获取的预测数据的分布状态和/或初始机器学习模型组针对所述预测数据的预测效果,以确定是否出现超出预设阈值的分布状态变化。3.如权利要求2所述的方法,其中,在出现超出预设阈值的分布状态变化的情况下,固定地使用或自适应地使用预定的多种更新方式之一来自动更新初始机器学习模型组。4.如权利要求3所述的方法,其中,所述预定的多种更新方式包括以下更新方式:第一更新方式,重新训练新的机器学习模型组以替代初始机器学习模型组;第二更新方式,调整初始机器学习模型组中的各个机器学习模型的权重;或者第三更新方式,训练新的机器学习模型组并将新的机器学习模型组与初始机器学习模型组组合来构成更新后的机器学习模型组。5.如权利要求4所述的方法,其中,在第一更新方式中,利用基于至少一部分预测数据及其真实结果形成的训练数据,重新训练新的机器学习模型组,在第二更新方式中,根据初始机器学习模型组在基于至少一部分预测数据及其真实结果形成的观测数据上的预测效果来调整初始机器学习模型组中的各个机器学习模型的权重;在第三更新方式中,利用基于至少一部分预测数据及其真实结果形成的训练数...

【专利技术属性】
技术研发人员:涂威威李文昊陈雨强
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1