机器学习模型训练的调试和剖析制造技术

技术编号:33520981 阅读:46 留言:0更新日期:2022-05-19 01:29
本文公开了用于机器学习模型训练的调试和剖析的方法、系统和计算机可读介质。机器学习分析系统接收与机器学习模型的训练相关联的数据。所述数据由机器学习训练集群收集。所述机器学习分析系统执行对与所述机器学习模型的所述训练相关联的所述数据的分析。所述机器学习分析系统至少部分地基于所述分析来检测与所述机器学习模型的所述训练相关联的一个或多个状况。所述机器学习分析系统生成描述与所述机器学习模型的所述训练相关联的所述一个或多个状况的一个或多个警报。一个或多个状况的一个或多个警报。一个或多个状况的一个或多个警报。

【技术实现步骤摘要】
【国外来华专利技术】机器学习模型训练的调试和剖析

技术介绍

[0001]许多公司和其它组织操作互连许多计算系统以支持它们操作的计算机网络,如计算系统共处一地(例如,作为本地网络的一部分)或替代地位于多个不同的地理位置(例如,经由一个或多个私有或公共中间网络连接)。例如,容纳大量互连计算系统的分布式系统已经变得普遍。这样的分布式系统可以向与客户端交互的服务器提供后端服务。这样的分布式系统还可以包括由实体操作以向顾客提供计算资源的数据中心。一些数据中心运营商为各种顾客所拥有的硬件提供网络访问、电源和安全安装设施,而其它数据中心运营商提供“全服务”设施,所述设施还包括可以供它们的顾客使用的硬件资源。随着分布式系统的规模和范围的增加,提供、施行和管理资源的任务变得越来越复杂。
[0002]分布式系统可向远程客户端提供对各种服务的访问,所述服务主要在分布式系统内实施并且可通过如因特网的网络访问。此类系统的实例包括在线商家、因特网服务提供商、公司网络、云计算服务、基于web的托管服务等。作为另一实例,分布式系统可以使用机器学习模型,所述机器学习模型被训练、测试并且然后用于预测将来的行为。如果模本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种系统,其包含:被配置成实施机器学习训练集群的一个或多个计算装置,其中所述机器学习训练集群被配置成:收集与所述一个或多个计算装置上的机器学习模型的训练相关联的数据;以及被配置成实施机器学习分析系统的一个或多个计算装置,其中所述机器学习分析系统被配置成:执行对与所述机器学习模型的所述训练相关联的所述数据的分析;至少部分地基于聚合数据的分析来检测与所述机器学习模型的所述训练相关联的一个或多个问题;以及生成描述与所述机器学习模型的所述训练相关联的所述一个或多个问题的一个或多个警报。2.根据权利要求1所述的系统,其中与所述机器学习模型的所述训练相关联的所述一个或多个问题包含跨多个批次或跨所述机器学习训练集群的所述计算装置中的两个或更多个的数据分布的差异。3.根据权利要求1所述的系统,其中与所述机器学习模型的所述训练相关联的所述一个或多个问题包含在张量级数据中检测到的消失梯度或爆炸梯度。4.根据权利要求1所述的系统,其中所述机器学习模型的所述训练至少部分地基于与所述机器学习模型的所述训练相关联的所述一个或多个问题而中止。5.一种计算机实施的方法,其包含:由机器学习分析系统接收与机器学习模型的训练相关联的数据,其中与所述机器学习模型的所述训练相关联的所述数据由机器学习训练集群的一个或多个计算装置收集;由所述机器学习分析系统执行对与所述机器学习模型的所述训练相关联的所述数据的分析;由所述机器学习分析系统至少部分地基于所述分析来检测与所述机器学习模型的所述训练相关联的一个或多个状况;以及由所述机器学习分析系统生成描述与所述机器学习模型的所述训练相关联的所述一个或多个状况的一个或多个警报。6.根据权利要求5所述的方法,其中与所述机器学习模型的所述训练相关联的所述数据包含从所述机器学习训练集群的一个或多个图形处理单元(GPU)输出的张量数据,并且其中与所述机器学习模型的所述训练相关联的所述数据在与所述机器学习模型的所述训练相关联的所述数据的所述分析之前被聚合。7.根据权利要求5所述的方法,其中与所述机器学习模型的所述训练相关联的所述一个或多个状况包含跨多个批次的数据分布的差异。8.根据权利要求5所述的方法,其中与所述机器学习模型的所述训练相关联的所述一个或多个状况包含在张量级数据中检测到的消失梯度或爆炸梯度。9.根据权利要求5所述的...

【专利技术属性】
技术研发人员:A
申请(专利权)人:亚马逊科技公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1