当前位置: 首页 > 专利查询>谷歌公司专利>正文

训练精炼的机器学习模型制造技术

技术编号:12531087 阅读:59 留言:0更新日期:2015-12-18 02:36
一种用于训练精炼的机器学习模型的方法、系统和装置,包括编码在计算机存储媒体上的计算机程序。其中一个方法包括训练繁冗的机器学习模型,其中该繁冗的机器学习模型被配置为接收输入并生成针对多个分类中的每个的相应的分数;以及在多个训练输入上训练精炼的机器学习模型,其中该精炼的机器学习模型也被配置为接收输入并生成针对所述多个分类的分数,包括:使用繁冗的机器学习模型处理每个训练输入以生成针对该训练输入的繁冗的目标软输出;以及训练精炼的机器学习模型以针对每个训练输入生成与针对该训练输入的该繁冗的目标软输出匹配的软输出。

【技术实现步骤摘要】

本说明书涉及训练机器学习模型。
技术介绍
机器学习模型接收输入并基于所接收的输入和模型的参数值生成输出。例如,机 器学习模型可接收图像并生成针对每个分类集合的分数,针对给定分类的分数表示该图像 中包含属于该分类的对象的图像的概率。 机器学习模型可由例如线性或非线性操作的单个级别组成或者可为深度网络,即 由多个级别组成的机器学习模型,其中的一个或多个可为非线性操作的层。深度网络的一 个示例是具有一个或多个隐藏层的神经网络。
技术实现思路
总的来说,本说明书描述了用于使用繁冗的机器学习模型训练精炼的机器学习模 型的技术。 可实施本说明书中描述的主题的特定实施例以便实现一个或多个下述优点。精炼 的机器学习模型相对于繁冗的机器学习模型,更易于部署,即,因为它比繁冗的机器学习模 型需要更少的计算、存储或者两者兼有,从而在运行时间生成输出,该精炼的机器学习模型 可使用已被训练的繁冗的神经网络进行有效的训练。一旦使用繁冗的机器学习模型进行了 训练,精炼的机器学习模型能够生成精度不显著低于通过繁冗的机器学习模型生成的输出 的输出,尽管它比繁冗的机器学习模型更易于部署或者使用更少的计算资源。 包括一个或多个全机器学习模型和一个或多个专业机器学习模型的集成模型可 更精确地生成分数以对所接收的输入进行分类。特别地,通过在集成模型中包括专业机器 学习模型,可更精确地生成针对频繁地被全机器学习模型预测为在一起或者混淆的分类的 分数。 在附图和下文的描述中提出本说明书的主题的一个或多个实施例的细节。通过该 描述、附图以及权利要求,主题的其他特征、方面和优点将变得显而易见。【附图说明】 图1示出了一种精炼的机器学习模型训练系统的示例。 图2是使用已被训练的繁冗的机器学习模型训练精炼的机器学习模型的示例过 程的流程图。 图3示出了一种示例机器学习模型系统。 图4是使用包括一个或多个全机器学习模型和一个或多个专业机器学习模型的 集成机器学习模型进行输入处理的示例过程的流程图。 不同的附图中相同的附图标记和名称表示相同的元素。【具体实施方式】 图1是用于训练精炼的机器学习模型120的示例精炼的机器学习模型训练系统 100的框图。精炼的机器学习模型训练系统100是作为在一个或多个位置中的一个或多个 计算机上的计算机程序所实施的系统的示例,其中实施了下文描述的系统、组件和技术。 该精炼的机器学习模型训练系统100使用经训练的繁冗的机器学习模型110训练 精炼的机器学习模型120。一般来说,机器学习模型接收输入并基于所接收的输入和该模型 的参数值生成输出。 特别地,精炼的机器学习模型120和经训练的繁冗的机器学习模型110两者都是 已被配置为接收输入并处理所接收的输入以生成针对预定分类集合中的每一分类的相应 的分数的机器学习模型。一般来说,精炼的机器学习模型120是具有与繁冗的机器学习模 型110不同架构的模型,这使其相对于繁冗的机器学习模型110更易于部署,例如,由于精 炼的机器学习模型120比繁冗的机器学习模型110需要更少的计算、存储或两者兼有,来在 运行时间生成输出。例如,精炼的机器学习模型120可比繁冗的机器学习模型110具有更 少的层、更少的参数或者两者兼有。 经训练的繁冗的机器学习模型110已经在训练输入集合上使用传统机器学习训 练技术进行了训练,以确定繁冗的机器学习模型Iio的经训练的参数值。特别地,经训练的 繁冗的机器学习模型110已被训练,使得由经训练的繁冗的机器学习模型110针对给定输 入的给定分类所生成的分数表示该分类是该输入的精确分类的概率。 例如,如果繁冗的机器学习模型110的输入是图像,针对给定分类的分数可表示 该输入图像包含属于该分类的对象的图像的概率。作为另一示例,如果繁冗的机器学习模 型Iio的输入是文字片段,该分类可为主题,并且针对给定主题的分数可表示输入的文字 片段涉及该主题的概率。 在某些情况下,繁冗的机器学习模型110是单个机器学习模型。在某些其他情况 下,繁冗的机器学习模型110是集成机器学习模型,它是多个已分别经训练的单独机器学 习模型的汇编,其中将单独机器学习模型的输出组合从而生成该繁冗的机器学习模型110 的输出。进一步地,在某些情况下,集成机器学习模型中的模型包括生成针对每个分类的分 数的一个或多个全模型以及仅生成针对相应的分类子集的分数的一个或多个专业模型。下 文参考图3和4更具体地描述包括一个或多个全模型和一个或多个专业模型的集成机器学 习模型。 模型训练系统100在训练输入集合上训练精炼的机器学习模型120以便确定精炼 的机器学习模型120的经训练的参数值,使得由精炼的机器学习模型120针对给定输入的 给定分类生成的分数同样表示该分类是该输入的精确分类的概率。 特别地,为了训练精炼的机器学习模型120,模型训练系统100同时配置精炼的机 器学习模型120和繁冗的机器学习模型110以在精炼的机器学习模型120的训练期间从训 练的输入生成软输出。 机器学习模型针对给定输入的软输出包括由机器学习模型的最后层生成的每个 分类相应的软分数。该软分数定义了比在已经训练机器学习模型后针对该输入由机器学习 模型生成的分数更软的在分类集合上的分数分布。 特别地,在一些实施方式中,精炼的机器学习模型120和繁冗的机器学习模型110 两者的最后层是softmax层,它生成针对给定分类i的分数qi,其满足如下等式: J 其中21是由最后层所接收的针对分类i的机器学习模型的前一层的输出的加权 组合,j的范围从1到分类的总数,并且T是温度常数。在这些实施方式中,通过将T设置 为比在机器学习模型已被训练后用于生成分数的T的值更高的值,模型训练系统100同时 配置精炼的机器学习模型120和繁冗的机器学习模型110以生成软输出。例如,在训练后, 用于精炼的机器学习模型120的T的值可设置为等于1,而在训练过程中,T的值可设置为 等于20。繁冗的机器学习模型110和精炼的机器学习模型120使用相同值的T以在精炼的 机器学习模型120的训练期间生成软输出。 因此,机器学习模型的软输出是使用参数的当前值的模型的输出,只不过是该模 型的最后层的T的值被增大至比在该模型已被训练后用于生成输出的值更高的值,例如, 增大为大于1的值。 在训练期间,模型训练系统100使用繁冗的机器学习模型110处理每个训练输入, 例如,当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种由一个或多个计算机执行的方法,所述方法包括:训练繁冗的机器学习模型,其中所述繁冗的机器学习模型被配置为接收输入并生成针对多个分类中的每个的相应的分数;以及在多个训练输入上训练精炼的机器学习模型,其中所述精炼的机器学习模型也被配置为接收输入并生成针对所述多个分类的分数,包括:使用所述繁冗的机器学习模型处理每个训练输入以生成针对该训练输入的繁冗的目标软输出;以及训练所述精炼的机器学习模型以针对每个训练输入生成与针对该训练输入的繁冗的目标软输出匹配的软输出。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:奥里奥尔·温亚尔斯杰弗里·阿德盖特·迪恩杰弗里·E·欣顿
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1