具有深度学习特征的指数建模制造技术

技术编号:23344807 阅读:27 留言:0更新日期:2020-02-15 04:21
本公开的各方面使得人为指定的关系能够有助于实现映射,该映射使得能够压缩机器学习模型的输出结构。诸如最大熵模型的指数模型可以利用机器学习嵌入和映射来产生分类输出。以这种方式,可以将机器学习模型(例如,深度网络)的特征发现功能与基于人类对待解决问题的结构性质的理解而开发的关系进行协同组合,从而使得能够压缩模型输出结构,而没有明显的精度损失。这些压缩模型提高了“设备上”或其他资源受限场景的适用性。

Exponential modeling with deep learning characteristics

【技术实现步骤摘要】
具有深度学习特征的指数建模优先权要求本申请要求于2018年10月29日提交的标题为“ExponentialModelingwithDeepLearningFeatures”的美国专利申请序列号62/752,128的优先权,其全部公开内容通过引用合并于此。
本公开总体上涉及机器学习。更具体地,本公开涉及机器学习模型,包括利用输出类别和嵌入参数之间的映射以提供压缩增益的指数模型(例如,最大熵模型)。
技术介绍
各种形式的机器学习模型已经彻底改变了机器智能的许多领域。作为一个早期的示例,在过去的某个时刻,最大熵模型在自然语言处理和其他
提供了最先进的性能。最大熵模型遵循以下原则:模型应根据给定信息提供尽可能少的偏差估计;也就是说,对于丢失信息最大程度地不置可否。然而,最近,人工神经网络(“神经网络”)已为包括自然语言处理在内的许多问题领域提供了最先进的解决方案。取代最大熵建模作为学习算法的一个主要原因是最大熵模型要使用的特征是手工的,而不是自动学习的。神经网络是一类机器学习模型,特别强大、准确或高效执行各种任务。神经网络可以包括一组连接节点,也可以被称为(人工)神经元或感知器。神经网络可以被组织成一层或多层。神经网络的节点可以与边连接,并且权重可以与每个边相关联。包含多层的神经网络可以被称为“深度”网络。深度网络可以包括输入层、输出层以及位于输入层和输出层之间的一个或多个隐藏层。神经网络的节点可以完全连接或不完全连接。示例神经网络包括前馈神经网络、递归神经网络、卷积神经网络、其他形式的人工神经网络或其组合。如今,无数的应用都使用了各种机器学习模型,诸如神经网络。然而,它们的准确性部分源于具有大量参数,这些参数会导致较高的计算和内存开销。作为一个示例,典型的神经网络可能包括大量的权重(例如,一万到一千万到一亿),这些权重都可以具有唯一的值。存储和运行神经网络通常需要存储这些值中的每一个,并且使用这些值中的每一个执行数学运算,这需要大量的存储器和处理器使用。在使用机器学习模型作为分类器将输入分类为大量不同的可能类别的情况下,此问题会更加严重。特别地,用作分类器的机器学习模型通常将具有输出层(例如,softmax层)或其他输出结构,为每个可用类别提供相应输出值,对于特定任务,这可能是非常大的数量。作为一个示例,用于执行“下一个单词预测”或其他自然语言处理任务的神经网络通常会具有输出层,其包括的节点数量等于在与分类器相关的词汇表中包括的单词数量,在某些情况下可能包括大约一百万个单词。由于手机上当前不适合使用较大的词汇量,因此手机上的当前应用将词汇量减少到数万个单词。驻留在云中的服务器上的模型在应用的词汇表中可能有数百万个单词。因此,在这些情况下,超大比例的网络参数可以位于网络和相关结构的输出层中。此外,随着网络和硬件变得更好和更快,许多计算都转移到了“设备上”范式,其中机器学习模型在嵌入式设备、用户设备、边缘设备或其他形式的“资源受限”设备上被本地存储和实现,从而提供了更快的响应时间以及更好的安全性和隐私保证。特别是,如果可以在移动设备和其他资源受限的设备(诸如智能设备或嵌入式设备)上存储和运行这些网络(并因此获得其准确性益处),将是有益的。然而,由于存储和运行网络需要大量计算资源(诸如处理资源和存储器资源),它们在资源受限环境/设备中的使用受到一定程度的限制。这样,已经提出了“压缩”机器学习模型以减少其计算和存储器开销的各种技术,并取得了一些成功。然而,迄今为止,对于输出到非常大量不同可能类别的模型的输出层,实现压缩增益的有效解决方案尚未确定。
技术实现思路
本公开的实施例的各方面和优点将在以下描述中部分地阐述,或者可以从描述中获悉,或者可以通过实施例的实施而获知。本公开的一个示例方面针对一种计算机系统,包括:一个或多个处理器;以及一个或多个非暂时性计算机可读介质,共同存储机器学习分类模型,所述机器学习分类模型被配置为基于输入数据集合生成分类输出,所述分类输出包括分别对于多个离散类别的多个分类分数。每个离散类别的分类分数指示输入数据对应于离散类别的可能性。机器学习分类模型包括嵌入模型和指数模型。嵌入模型被配置为接收输入数据集合并基于输入数据集合产生嵌入。所述嵌入包括分别用于在嵌入模型的最终层中包括的多个参数的多个参数值。参数值的数量小于离散类别的数量。指数模型被配置为接收嵌入并应用映射以生成分类输出。映射描述在嵌入模型的最终层中包括的多个参数与多个离散类别之间的多个关系。在一些实现方式中,指数模型包括最大熵模型。在一些实现方式中,多个关系为多个离散类别中的每一个指定这种离散类别被映射到的多个参数中的一个或多个。在一些实现方式中,对于多个离散类别中的每一个,指数模型至少部分地基于提高到这种离散类别通过映射被映射到的参数值的第一和的幂除以所有可能输出值之和来确定其相应分类分数。在一些实现方式中,至少一个离散类别被映射到在嵌入模型的最终层中包括的两个或更多个参数。在一些实现方式中,在嵌入模型的最终层中包括的至少一个参数被映射到两个或更多个离散类别。在一些实现方式中,通过映射描述的多个关系中的至少一个是用户特定的。在一些实现方式中,确定性地分配通过映射描述的多个关系中的至少一个。在一些实现方式中,多个关系中的至少一个根据启发式生成。在一些实现方式中,多个关系中的至少一个是机器学习的。在一些实现方式中,多个离散类别包括在词汇表中包括的多个离散单词。在一些实现方式中,通过映射描述的多个关系中的至少一个基于每个离散单词中的一个或多个特定字符的存在。在一些实现方式中,通过映射描述的多个关系中的至少一个基于每个离散单词中两个或更多个字符的特定字符串的存在。在一些实现方式中,输入数据集合包括将被分类的单词周围的一个或多个单词。在一些实现方式中,多个离散类别包括可用于推荐系统选择的多个离散项。在一些实现方式中,多个离散类别包括多个对象。在一些实现方式中,通过映射描述的多个关系中的至少一个基于多个离散类别的子集之间的共享特性。在一些实现方式中,嵌入模型包括神经网络。在一些实现方式中,嵌入模型包括递归神经网络。在一些实现方式中,嵌入模型包括卷积神经网络。在一些实现方式中,嵌入模型包括结构上位于嵌入模型的最终层之前的一个或多个附加层,以使嵌入模型的最终层不直接接收输入数据集合。在一些实现方式中,嵌入模型的最终层直接接收输入数据集合,以使最终层是嵌入模型的唯一层。在一些实现方式中,嵌入模型的最后一层的多个参数是用户特定的超参数。在一些实现方式中,在给定输入数据集合的情况下,每个离散类别的分类分数指示该类别的概率。在一些实现方式中,已经使用监督学习技术在标记的训练数据集合上训练了机器学习分类模型。在一些实现方式中,监督学习技术包括根据映射通过多个参数反向传播损失函数的梯度。本公开的其他方面针本文档来自技高网
...

【技术保护点】
1.一种计算机系统,包括:/n一个或多个处理器;以及/n一个或多个非暂时性计算机可读介质,共同存储机器学习分类模型,所述机器学习分类模型被配置为基于输入数据集合生成分类输出,所述分类输出包括分别用于多个离散类别的多个分类分数,每个离散类别的分类分数指示输入数据对应于离散类别的可能性;/n其中,机器学习分类模型包括嵌入模型和指数模型;/n其中,嵌入模型被配置为接收输入数据集合并基于输入数据集合产生嵌入,其中,所述嵌入包括分别用于在嵌入模型的最终层中包括的多个参数的多个参数值,其中,参数值的数量小于离散类别的数量;以及/n其中,指数模型被配置为接收嵌入并应用映射以生成分类输出,其中,映射描述在嵌入模型的最终层中包括的多个参数与多个离散类别之间的多个关系。/n

【技术特征摘要】
20181029 US 62/752,1281.一种计算机系统,包括:
一个或多个处理器;以及
一个或多个非暂时性计算机可读介质,共同存储机器学习分类模型,所述机器学习分类模型被配置为基于输入数据集合生成分类输出,所述分类输出包括分别用于多个离散类别的多个分类分数,每个离散类别的分类分数指示输入数据对应于离散类别的可能性;
其中,机器学习分类模型包括嵌入模型和指数模型;
其中,嵌入模型被配置为接收输入数据集合并基于输入数据集合产生嵌入,其中,所述嵌入包括分别用于在嵌入模型的最终层中包括的多个参数的多个参数值,其中,参数值的数量小于离散类别的数量;以及
其中,指数模型被配置为接收嵌入并应用映射以生成分类输出,其中,映射描述在嵌入模型的最终层中包括的多个参数与多个离散类别之间的多个关系。


2.根据权利要求1所述的计算机系统,其中,指数模型包括最大熵模型。


3.根据权利要求1所述的计算机系统,其中,多个关系为多个离散类别中的每一个指定这种离散类别被映射到的多个参数中的一个或多个。


4.根据权利要求1所述的计算机系统,其中,对于多个离散类别中的每一个,指数模型至少部分地基于提高到这种离散类别通过映射被映射到的参数值的第一和的幂的第一指数除以所有可能输出值之和来确定其相应分类分数。


5.根据权利要求1所述的计算机系统,其中,至少一个离散类别被映射到在嵌入模型的最终层中包括的两个或更多个参数。


6.根据权利要求1所述的计算机系统,其中,在嵌入模型的最终层中包括的至少一个参数被映射到两个或更多个离散类别。


7.根据权利要求1所述的计算机系统,其中,通过映射描述的多个关系中的至少一个是用户特定的。


8.根据权利要求1所述的计算机系统,其中,确定性地分配通过映射描述的多个关系中的至少一个。


9.根据权利要求1所述的计算机系统,其中,多个关系中的至少一个是机器学习的。


10.根据权利要求1所述的计算机系统,其中,多个离散类别包括在词汇表中包括的多个离散单词。


11.根据权利要求10所述的计算机系统,其中,通过映...

【专利技术属性】
技术研发人员:M温特劳布AT苏雷什E瓦里亚尼
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1