基于边缘节点处的数据输入对机器学习模型排序和更新制造技术

技术编号:23051193 阅读:22 留言:0更新日期:2020-01-07 14:56
由处理器接收用于训练新的机器学习模型的输入数据集。对于多个被训练的机器学习模型中的每一个,取得哈希函数和用于训练机器学习模型的训练数据集的草图。基于哈希函数和输入数据集计算输入数据集的草图,并计算训练数据集的草图与输入数据集的草图之间的距离。被训练的机器学习模型的计算距离从最小到最大进行排序,并且至少部分地基于该排序,从被训练的机器学习模型中选择用于输入数集的种子机器学习模型。启动使用所选择的种子机器学习模型和输入数据集的新的机器学习模型的训练过程。

Sorting and updating machine learning model based on data input at edge nodes

【技术实现步骤摘要】
基于边缘节点处的数据输入对机器学习模型排序和更新关于联邦政府资助的研究或开发的声明本专利技术是在陆军研究办公室(AR)授予的W911NF-16-3-0001的政府支持下完成的。政府对本专利技术享有一定的权利。
本专利技术一般涉及计算机系统,并且更具体地,涉及用于基于在分布式计算机系统中的边缘节点处的数据输入来对机器学习模型进行排序和更新的系统和方法。
技术介绍
机器学习是通常使用统计技术以通过向计算机馈送采用观察和现实世界交互的形式的数据和信息来给予计算机以自主方式随时间学习或逐步改进特定任务的性能的能力的人工智能的子集。机器学习模型可以根据在分布式计算机系统的边缘节点处收集的数据来构建,以实现对当前和未来事件的检测、分类和预测。深度学习是基于学习数据表示的更广泛的机器学习方法系列的一部分,而不是特定于任务的算法。深度学习模型需要大量标记的训练数据集。通常,训练作为深度学习模型的机器学习模型的第一步是识别种子模型(例如,先前训练的机器学习模型),其可被重新训练以更好地适合新的输入数据集和/或应用。识别这种种子模型的现有方法包括试错法,该方法既麻烦又是手动的,并且可能不会导致选择与其他潜在种子模型相比需要最少量训练的种子模型。用于机器学习的常见范例是机器学习模型在云中(例如,在云节点上)训练,并且被训练的机器学习模型应用或用于在分布式计算机系统的边缘节点处对实时数据进行评分。该方法的主要缺点是不能跟踪在应用了训练模型的边缘节点处看到的输入的变化,因此,该方法无法支持持续学习和对先前训练的机器学习模型的更新。因此,虽然机器学习技术适合于预期目的,但是,需要一种具有本专利技术的实施例的某些特征的系统或方法。
技术实现思路
根据本专利技术的一个或多个实施例,提供了用于基于在分布式计算机系统中的边缘节点处的数据输入来对机器学习模型进行排序和更新的计算机实现的方法。非限制性示例计算机实现的方法包括由处理器接收用于训练新的机器学习模型的输入数据集。对于多个被训练的机器学习模型中的每一个,取得哈希函数和用于训练机器学习模型的训练数据集的草图(sketch)。基于哈希函数和输入数据集来计算输入数据集的草图,并计算训练数据集的草图与输入数据集的草图之间的距离。对多个被训练的机器学习模型从最小计算距离到最大计算距离进行排序。至少部分地基于该排序,从多个被训练的机器学习模型中选择种子机器学习模型。至少部分地基于该选择,启动新的机器学习模型的训练过程。训练过程至少部分地基于所选择的种子机器学习模型和输入数据集。除了上文或下文描述的一个或多个特征之外,或者作为替代,计算机实现的方法的其他实施例可以包括:选择被排序为具有最小计算距离的被训练的机器学习模型作为种子机器学习模型。使用种子模型的技术益处和优点可包括训练新的机器学习模型所需的较少的中央处理单元(CPU)资源。使用种子模型的附加技术益处和优点可以包括由于生成新的机器学习模型所需的较少量的训练数据而需要的较少的存储容量和较少的网络/总线带宽。除了上文或下文描述的一个或多个特征之外,或作为替代,计算机实现的方法的其他实施例可以包括:响应于接收,由节点自动执行上述执行、排序、选择和启动。技术优势和优点可以包括不需要用户输入来生成新的机器学习模型。这可以节省CPU和网络资源两者。除了上文或下文描述的一个或多个特征之外,或作为替代,计算机实现的方法的其他实施例可以包括:启动对所选择的种子机器学习模型的重新训练,该重新训练至少部分地基于用于训练所选择的种子机器学习模型的训练数据集和输入数据集。技术优势和优点可以包括使机器学习模型保持最新并随时间不断调整。除了上文或下文描述的一个或多个特征之外,或者作为替代,计算机实现的方法的其他实施例可以包括:至少部分地基于训练数据集的草图和输入数据集的草图之间的距离小于阈值,启动重新训练。技术优势和优点可以包括使机器学习模型保持最新并随时间不断调整。本专利技术的其他实施例在计算机系统和计算机程序产品中实现上述方法的特征。通过本专利技术的技术实现了其他技术特征和益处。本专利技术的实施例和方面在本文予以了详细描述,并且被认为是所要求保护的主题的一部分。为了更好地理解,请参考具体实施方式和附图。附图说明保护本文描述的专有权的细节在说明书后附的权利要求中特别指出并清楚地要求。通过以下结合附图的具体实施方式,本专利技术的实施例的前述和其他特征和优点将变得显而易见,其中:图1描绘了根据本专利技术的一个或多个实施例的云计算环境;图2描绘了根据本专利技术的一个或多个实施例的抽象模型层;图3描绘了用于实现本专利技术的一个或多个实施例的处理系统;图4描绘了根据本专利技术的一个或多个实施例的系统的框图;图5描绘了根据本专利技术的一个或多个实施例的用于对机器学习模型进行排序的过程的流程图;以及图6描绘了根据本专利技术的一个或多个实施例的用于在边缘处的分布式学习的过程的流程图。在此描绘的图是说明性的。在不脱离本专利技术的精神的情况下,可以对图或其中描述的操作进行许多变化。例如,可以以不同的顺序执行动作,或者可以添加、删除或修改动作。而且,术语“耦合”及其变形描述了在两个元件之间具有通信路径,并不意味着元件之间的直接连接而在它们之间没有中间元件/连接。所有这些变化都被认为是说明书的一部分。在附图和以下对所公开实施例的详细描述中,附图中所示的各种元件具有两位或三位数字的附图标记。除了少数例外之外,每个附图标记的最左边的数字对应于首次示出元素的图。具体实施方式本文参考相关附图描述了本专利技术的各种实施例。在不脱离本专利技术的范围的情况下,可以设计出本专利技术的替代实施例。在以下描述和附图中的元件之间阐述了各种连接和位置关系(例如,上方、下方、相邻等)。除非另有说明,这些连接和/或位置关系可以是直接的或间接的,并且本专利技术并不意图在这方面进行限制。因此,实体的耦合可以指直接或间接耦合,并且实体之间的位置关系可以是直接或间接的位置关系。此外,本文描述的各种任务和处理步骤可以合并到更全面的程序或过程中,该程序或过程具有本文未详细描述的附加步骤或功能。以下定义和缩写将用于解释权利要求和说明书。如本文所使用的,术语“包括”、“包含”、“包括了”,“包含了”、“具有”、“具备”、“包含”或“包含了”或其任何其他变型旨在涵盖非排外性的包括。例如,包括元素列表的组合物、混合物、过程、方法、物品或装置不一定仅限于那些元素,而是可以包括未明确列出的其他元素或对这种组合物、混合物、过程、方法、物品或装置固有的其他元素。另外,术语“示例性”在本文中用于表示“用作示例、实例或说明”。本文中描述为“示例性”的任何实施例或设计不一定被解释为比其他实施例或者设计优选或有利。术语“至少一个”和“一个或多个”可以被理解为包括大于或等于一的任何整数,即一、二、三、四等。术语“多个”可以被理解为包括任何大于或等于二的整数,即二、三、四、五等。术语“连接”可以包括间接“连接”和直接“连接”。术语“大约”、“本文档来自技高网
...

【技术保护点】
1.一种计算机实现的方法,包括:/n由处理器接收用于训练新的机器学习模型的输入数据集;/n由所述处理器针对多个被训练的机器学习模型,执行以下操作:/n取得哈希函数和用于训练所述机器学习模型的训练数据集的草图;/n基于所述哈希函数和所述输入数据集,计算所述输入数据集的草图;以及/n计算所述训练数据集的草图与所述输入数据集的草图之间的距离;/n将所述多个被训练的机器学习模型从最小计算距离到最大计算距离进行排序;/n从所述多个机器学习模型中选择用于所述输入数据集的种子机器学习模型,所述选择至少部分地基于所述排序;以及/n至少部分地基于所述选择,启动所述新的机器学习模型的训练过程,所述训练过程至少部分地基于所选择的种子机器学习模型和所述输入数据集。/n

【技术特征摘要】
20180628 US 16/0210861.一种计算机实现的方法,包括:
由处理器接收用于训练新的机器学习模型的输入数据集;
由所述处理器针对多个被训练的机器学习模型,执行以下操作:
取得哈希函数和用于训练所述机器学习模型的训练数据集的草图;
基于所述哈希函数和所述输入数据集,计算所述输入数据集的草图;以及
计算所述训练数据集的草图与所述输入数据集的草图之间的距离;
将所述多个被训练的机器学习模型从最小计算距离到最大计算距离进行排序;
从所述多个机器学习模型中选择用于所述输入数据集的种子机器学习模型,所述选择至少部分地基于所述排序;以及
至少部分地基于所述选择,启动所述新的机器学习模型的训练过程,所述训练过程至少部分地基于所选择的种子机器学习模型和所述输入数据集。


2.根据权利要求1所述的计算机实现的方法,其中,被排序为具有最小计算距离的被训练的机器学习模型被选择作为所述种子机器学习模型。


3.根据权利要求1所述的计算机实现的方法,其中,所述执行、排序、选择和启动是由处理器响应于所述接收而自动执行的。


4.根据权利要求1所述的计算机实现的...

【专利技术属性】
技术研发人员:R·K·甘蒂M·斯里瓦萨S·莱拉帕里S·斯里兰加姆斯里德哈拉
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1