预测深度学习缩放制造技术

技术编号:24458946 阅读:29 留言:0更新日期:2020-06-10 16:24
随着深度学习应用领域增长,更深入地理解训练集大小、计算规模和模型准确度改善之间的关系是非常有益的。本文呈现了随着训练集增长的误差和模型大小增长的大规模经验研究。本文介绍了用于这种测量的方法的实施方式以及用于预测诸如计算相关度量等其它度量的实施方式。本文示出了幂律可以用于表示深层模型关系,诸如误差和训练数据大小。还示出了模型大小随数据大小亚线性地缩放。这些缩放关系对深度学习研究、实践和系统具有重要影响。它们可以帮助模型调试、设置准确度目标和决定数据集增长。它们还可以引导计算系统设计并且强调持续计算缩放的重要性。

Predictive deep learning scaling

【技术实现步骤摘要】
预测深度学习缩放
本公开大体上涉及用于计算机学习的系统和方法,其可以提供改善的计算机性能、特征和用途。更明确地说,本公开涉及用于预测深度学习缩放(scaling)的系统和方法。
技术介绍
深度学习(DL)已经成为最近人工智能(AI)突破的主要驱动力。随着支持DL的产品发展,满足深度学习模型训练的未来硬件需求变得愈发重要。深度学习研究者努力改善准确度。深度学习研究者寻求改善的一种方式是通过调查模型架构变化来更好地拟合数据集并改善准确度。模型变化往往非常重要(经常需要问题重构),并且可以显著改变其计算结构。因此,很难预测将对于未来深度学习应用来说重要的模型结构。除了搜索深度学习社团已经在不同应用领域中创造有影响力的进步的改善模型架构之外,其它方式是通过创建大型训练数据集和通过缩放计算。这些途径往往有助于改善用户体验和产品采用,这推动了在现有和新兴应用领域中增加深度学习开发投资。随着数据集增长和新应用领域激增,更深入地理解这些不同因素如何协作推动有价值的产品改善将是有益的。因此,需要能够更好地帮助预测与深度学习缩放相关的一个或本文档来自技高网...

【技术保护点】
1.一种用于生成学习曲线以帮助预测深度学习模型的度量的计算机实施方法,所述方法包括:/n将数据集划分成一组分片,使得分片大小跨越多个数量级;/n在来自所述一组分片的每个分片上训练一组模型候选者,其中所述一组模型候选者内的模型在架构、超参数或两者方面不同;/n使用验证集来从所训练的一组模型候选者当中识别用于每个分片的最佳模型,其中每个最佳模型针对该分片具有对应验证准确度,所述最佳模型具有分片大小;/n使用针对所述分片选择的所述最佳模型的所述对应验证准确度和分片大小拟合幂律学习曲线模型;以及/n使用所拟合的幂律学习曲线来预测与深度学习模型相关联的度量。/n

【技术特征摘要】
20181130 US 16/206,9101.一种用于生成学习曲线以帮助预测深度学习模型的度量的计算机实施方法,所述方法包括:
将数据集划分成一组分片,使得分片大小跨越多个数量级;
在来自所述一组分片的每个分片上训练一组模型候选者,其中所述一组模型候选者内的模型在架构、超参数或两者方面不同;
使用验证集来从所训练的一组模型候选者当中识别用于每个分片的最佳模型,其中每个最佳模型针对该分片具有对应验证准确度,所述最佳模型具有分片大小;
使用针对所述分片选择的所述最佳模型的所述对应验证准确度和分片大小拟合幂律学习曲线模型;以及
使用所拟合的幂律学习曲线来预测与深度学习模型相关联的度量。


2.根据权利要求1所述的计算机实施方法,还包括随机打乱所述数据集以使所述数据集的分片具有与所述数据集相似的数据分布的可能性最大化的步骤。


3.根据权利要求1所述的计算机实施方法,其中将所述数据集划分成一组分片使得所述分片大小跨越多个数量级的步骤包括将所述数据集划分成一组分片,使得所述分片大小以大约为先前分片大小的两倍大小的步长跨越多个数量级。


4.根据权利要求1所述的计算机实施方法,其中所预测的度量是在给定训练数据集大小增加的情况下所述深度学习模型的准确度改善。


5.根据权利要求1所述的计算机实施方法,其中所预测的度量是所述深度学习模型的一个或多个计算需求。


6.根据权利要求5所述的计算机实施方法,其中所述深度学习模型的计算需求包括预测的训练数据集大小乘以所述深度学习模型的参数数目。


7.根据权利要求1所述的计算机实施方法,还包括使用所述数据集中的至少一些数据来形成所述验证集的步骤,其中所述验证集中的任何数据都不与所述分片中的任一者共享。


8.一种用于生成学习曲线以帮助预测深度学习模型的度量的系统,所述系统包括:
一个或多个处理器;
非暂态计算机可读介质或媒介,其包括一个或多个指令序列,所述指令序列在由所述一个或多个处理器中的至少一者执行时,致使执行步骤,所述步骤包括:
在来自一组分片的每个分片上训练一组模型候选者,其中来自所述一组模型候选者的所述模型在架构、超参数或两者方面不同,并且所述一组分片已经被生成为使得所述分片大小跨越多个数量级;
使用验证集来从所训练的一组模型候选者当中识别用于每个分片的最佳模型,其中每个最佳模型针对该分片具有对应验证准确度,所述最佳模型具有分片大小;
使用针对所述分片选择的所述最佳模型的所述对应验证准确度和分片大小拟合幂律学习曲线模型;以及
使用所拟合的幂律学习曲线来预测与深度学习模型相关联的度量。


9.根据权利要求8所述的系统,其中所述一组分片是从训练数据的数据集生成的,并且所述非暂态计算机可读介质或媒介还包括一个或多个指令序列,所述指令序列在由所述一个或多个处理器中的至少一者执行时,致使执行步骤,所述步骤包括:
随机打乱所述数据集以使所述数据集的分片具有与所述数据集相似的数据分布的可能性最大化;以及
将所述数...

【专利技术属性】
技术研发人员:乔尔·赫斯特尼斯格雷戈里·迪莫斯俊熙雄沙兰·纳朗纽莎·阿达拉尼MD·莫斯塔法·阿里·帕特里周彥祺
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1