有效的嵌入表存储和查找制造技术

技术编号:38478025 阅读:15 留言:0更新日期:2023-08-15 16:57
本公开提供了用于在机器学习模型中提供有效的嵌入表存储和查找的系统、方法和计算机程序产品。一种计算机实现的方法可以包括:获得包括相应地与嵌入表的对应索引相关联的多个嵌入的嵌入表,单独压缩嵌入表的每个特定嵌入以允许嵌入表的每个相应嵌入独立于嵌入表中的任何其他嵌入来被解压缩,将包括经单独压缩的嵌入的嵌入表与机器学习模型一起打包,接收用于在嵌入表中定位嵌入的输入,基于输入来确定查找值以搜索嵌入表的索引,基于针对所确定的查找值而搜索嵌入表的索引来定位嵌入,以及独立于嵌入表中的任何其他嵌入来解压缩所定位的嵌入。定位的嵌入。定位的嵌入。

【技术实现步骤摘要】
【国外来华专利技术】有效的嵌入表存储和查找
[0001]相关申请的交叉引用
[0002]本申请要求2021年1月13日提交的美国专利申请No.17/147,844的优先权和权益。美国专利申请No.17/147,844的全部内容通过引用并入本文。


[0003]本公开总体涉及机器学习。更具体地,本公开涉及在机器学习模型中提供有效的嵌入表存储和查找。

技术介绍

[0004]嵌入通常是指将对象从高维空间投影到低维空间的方式。例如,图像、视频、文本和语音数据可以在诸如二维或三维坐标系的对象空间中表示。对象空间中的每个数据点可以表示一个对象,每个对象之间的接近度指示相似度或相关度。在一个示例中,与没有关联或不相似的词相比,同义词通常可以在对象空间中更紧密地安置在一起。
[0005]机器学习模型可以利用嵌入表来存储和引用嵌入。嵌入表成为机器学习模型的一部分,并且嵌入表的尺寸可能相当大。例如,来自一种或多种语言的字典词的嵌入表可能有数十万甚至数百万个条目。特别地,嵌入表能够显著地增加运行机器学习模型所需的存储器的量和处理功率。因此,大规模地为大型模型服务变得越来越困难。此外,许多类型的计算设备,包括移动设备,通常缺乏足够的计算资源来运行大型模型。

技术实现思路

[0006]本专利技术实施例的各方面和优点将在下面的描述中部分地阐述,或者能够从描述中了解到,或者能够通过实施例的实践而了解到。
[0007]本公开的一个示例方面涉及一种为机器学习模型提供有效的嵌入表存储和查找的系统,例如,通过:接收包括相应地与嵌入表的对应索引相关联的多个嵌入的嵌入表,单独压缩嵌入表的每个特定嵌入以允许嵌入表的每个相应嵌入独立于嵌入表中的任何其他嵌入来被解压缩,将包括经单独压缩的嵌入的嵌入表与机器学习模型一起打包,接收用于在嵌入表中定位嵌入的输入,基于输入来确定查找值以搜索嵌入表的索引,基于针对所确定的查找值而搜索嵌入表的索引来定位嵌入、独立于嵌入表中的任何其他嵌入来解压缩定位的嵌入、以及结合运行机器学习模型来处理所解压缩的嵌入。
[0008]本公开的其他方面涉及各种装置、非暂时性计算机可读介质、计算机实现的方法、用户界面和电子设备。参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并构成本说明书的一部分的附图图示了本公开的实施例,并且与描述一起用于解释相关原理。
附图说明
[0009]在说明书中阐述了针对本领域普通技术人员的实施例的详细讨论,其参考了附
图,其中:
[0010]图1A描绘了根据本公开的示例实施例的用于在机器学习模型中提供有效的嵌入表存储和查找的示例系统的框图。
[0011]图1B描绘了根据本公开的示例实施例的用于在机器学习模型中提供有效的嵌入表存储和查找的示例嵌入表的框图。
[0012]图2描绘了根据本公开的示例实施例的用于为机器学习模型提供有效的嵌入表存储的示例方法的流程图。
[0013]图3描绘了根据本公开的示例实施例的用于为机器学习模型提供有效的嵌入表存储的示例的框图。
[0014]图4描绘了根据本公开的示例实施例的用于为机器学习模型提供有效的嵌入表存储和查找的示例方法的流程图。
[0015]图5描绘了根据本公开的示例实施例的用于为机器学习模型提供有效的嵌入表存储和查找的示例的框图。
[0016]图6A描绘了根据本公开的示例实施例执行有效嵌入表存储和查找的示例计算系统的框图。
[0017]图6B描绘了根据本公开的示例实施例的执行有效嵌入表存储和查找的示例计算设备的框图。
[0018]图6C描绘了根据本公开的示例实施例的执行有效嵌入表存储和查找的示例计算设备的框图。
[0019]跨多个图重复的附图标记旨在标识各个实施方式中的相同特征。
具体实施方式
[0020]概述
[0021]通常,本公开涉及为机器学习模型提供有效的嵌入表存储和查找。本公开中描述的示例能够有效地存储和检索与机器学习模型一起使用的嵌入表。这种示例实施方式提供优于现有方法的优势和改进,包括但不限于与现有方法相比改进的可扩展性、提高的性能和减少的计算要求。
[0022]嵌入表在机器学习中被用作机器学习模型的组成部分。例如,嵌入表可以被用于与自然语言处理(NLP)或其他各种实施方式相关的机器学习模型。嵌入表有助于构建对象(例如,词、短语、图像、歌曲、电影等)之间的抽象关系,并包括将这种对象从高维空间投影到较低维空间的嵌入。例如,词、短语、图像、歌曲、电影或任何其他类型的对象都可以在对象空间中表示,诸如二维或三维坐标系,其中对象之间的接近度表示对象之间的相关度。在各种示例中,对象空间可以是任意数量的维度并且不仅仅限于二维或三维。例如,对象空间可以具有多于三个维度、多于十个维度、多于一百个维度或通常任何数量的维度。此外,例如,能够在机器学习模型内训练嵌入表,并且可以跨不同的机器学习模型重复使用嵌入表。
[0023]嵌入表被存储为机器学习模型的一部分并且尺寸能够变得很大。例如,机器学习模型可以利用一个或多个嵌入表,所述一个或多个嵌入表可以包括数千、数百万或任何数量的条目。事实上,嵌入表可以表示机器学习模型尺寸的显著一部分或压倒性的一部分。此外,传统的机器学习平台和操作需要计算设备将机器学习模型的全尺寸嵌入表一次加载到
存储器中。像这样,大规模地为大型机器学习模型服务变得越来越复杂和昂贵,因为需要大量的存储器和计算资源。此外,这种存储器和处理要求通常超出许多类型的移动计算设备的有限能力,这些设备通常缺乏处理大型模型所需的计算机硬件。
[0024]为了处理和解决这些问题,本公开提供了用于机器学习模型的有效嵌入表存储和查找的示例。在本公开的一些示例中,计算系统:执行生成或以其他方式获得包括相应地与嵌入表的对应索引相关联的多个嵌入的嵌入表的操作,单独压缩嵌入表的每个特定嵌入以允许嵌入表的每个相应嵌入独立于嵌入表中的任何其他嵌入来被解压缩,将包括经单独压缩的嵌入的嵌入表与机器学习模型一起打包,获得用于在嵌入表中定位嵌入的输入,基于嵌入表的搜索索引的输入来确定查找值,基于确定的查找值搜索嵌入表的索引来定位嵌入,独立于嵌入表中的任何其他嵌入来解压缩定位的嵌入,并且将解压缩的嵌入作为运行与嵌入表相关联的机器学习模型的一部分进行处理。
[0025]本文中描述的系统、方法和计算机程序产品提供了许多技术效果和益处。例如,本公开的示例描述了专门的嵌入表数据结构和关联操作,其允许计算系统在运行机器学习模型时访问嵌入表的特定条目而不将整个嵌入表加载到存储器中。像这样,本公开中描述的示例提供了在嵌入表和关联机器学习模型中存储和检索数据的有效方式,与传统操作相比,其利用更少的计算资源(例如,更少的处理功率、更少的存储器使用、更少的功耗、更少的存储空间等)。
[0026]在本公开的示例中描述的系统、方法和计算机程序产品特别适合在与自然语言处理(NLP)相关联的机器学习模型中使用的嵌入表。尽管本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于在机器学习模型中执行有效的嵌入表存储和查找的计算机实现的方法,包括:由一个或多个处理器获得与机器学习模型相关联的嵌入表,所述嵌入表包括与所述嵌入表的对应索引相应地相关联的多个嵌入;由所述一个或多个处理器单独压缩所述嵌入表的每个特定嵌入,以允许所述嵌入表的每个相应嵌入独立于所述嵌入表中的任何其他嵌入来被解压缩;以及由所述一个或多个处理器将包括单独压缩的嵌入的所述嵌入表与所述机器学习模型一起打包。2.根据权利要求1所述的计算机实现的方法,进一步包括:由所述一个或多个处理器基于散列操作来更新所述嵌入表的相应索引。3.根据权利要求1所述的计算机实现的方法,进一步包括:由所述一个或多个处理器向一个或多个计算设备提供与所述机器学习模型一起打包的包括单独压缩的行的所述嵌入表。4.根据权利要求1所述的计算机实现的方法,其中,独立于机器学习平台来执行所述压缩。5.根据权利要求1所述的计算机实现的方法,其中,使用不能从机器学习平台获得的压缩来执行所述压缩。6.根据权利要求1所述的计算机实现的方法,其中,所述嵌入表中的相应嵌入与词汇表中包括的多个项目中的项目相关联。7.根据权利要求1所述的计算机实现的方法,其中,所述机器学习模型与神经网络的嵌入层相关联。8.一种用于在机器学习模型中执行有效的嵌入表存储和查找的计算机实现的方法,包括:由一个或多个处理器获得与机器学习模型相关联的嵌入表,所述嵌入表包括多个单独压缩的,以允许每个相应的嵌入独立于所述嵌入表中的任何其他嵌入来被解压缩;由所述一个或多个处理器接收用来在所述嵌入表中定位嵌入的输入;由所述一个或多个处理器基于所述输入来确定查找值,以用于搜索所述嵌入表的索引来定位嵌入;由所述一个或多个处理器基于针对所确定的查找值而搜索所述嵌入表的所述索引,来定位所述嵌入;以及由所述一个或多个处理器根据所述定位,独立于所述嵌入表中的任何其他嵌入来解压缩所述嵌入。9.根据权利要求8所述的计算机实现的方法,进一步包括:由所述一个或多个处理器处理与运行所述机器学习模型相关联的经解压缩的嵌入。10.根据权利要求8所述的计算机实现的方法,...

【专利技术属性】
技术研发人员:格拉瓦
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1