对鲁棒推理问题进行随机优化的系统与方法技术方案

技术编号：25645563 阅读：35 留言：0更新日期：2020-09-15 21:36

本公开提供一种使用采样设备对鲁棒推理问题进行随机优化的方法和系统。具体地，本公开的方法和系统使得能够平滑目标函数，从而使得这些函数适于通过使用采样的随机梯度方法进行计算以替代精确解决推理问题。这样的方法和系统有利地将平滑函数逼近的梯度连接到玻尔兹曼分布，其可以使用模拟过程和/或量子过程(特别是量子退火过程，经典计算机、半经典计算机或量子处理器/设备的热或绝热弛豫和/或其他物理过程)通过采样设备(例如，吉布斯采样器)进行采样。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】对鲁棒推理问题进行随机优化的系统与方法交叉引用本申请要求于2017年12月1日提交的美国临时申请号62/593,563和2018年8月8日提交的美国专利申请号62/716,041的优先权，其中每个申请通过引用而整体并入于此。
技术介绍
在各种工程领域中，即使可以存在直接的数学模型，鲁棒推理(robustinference)问题也经常过于复杂，无法直接数值求解。随机优化(stochasticoptimization)是一种用于将函数最小化或最大化的方法，它使用随机性来部分地评估组成函数，并且可以因此适用于优化非常复杂的模型。
技术实现思路
本公开的方法和系统有利地使鲁棒推理问题中的各种目标函数能够平滑化，从而使这些函数适合于使用采样通过随机梯度方法来计算以代替精确求解所述推理问题。这些方法和系统有利地将平滑化函数近似的所述梯度连接到玻尔兹曼分布，该玻尔兹曼分布可以使用模拟过程和/或量子过程(特别是经典计算机、半经典计算机或量子处理器/设备的的量子退火过程、热或绝热松弛和/或其他物理过程)由采样设备来采样。本公开提供了对鲁棒推理问题进行随机优化的系统，这可以用于学习或估计模型的参数，所述模型通过数学或统计函数以最大间隔原则和/或最大似然原则来表示，其中所学习的模型参数确定所述数学或统计函数的实例。特别是，在所述统计函数是图形模型的能量函数的情况中，例如多体系统的横场伊辛模型或其他经典或量子模型，模型参数可以确定用于预测的概率图形模型的权重。这种方法可以给许多机器学习算法和任务提供通用的框架。机器学习算法的非...

【技术保护点】
1.一种使用采样设备对鲁棒推理问题进行随机优化的计算机实现方法，包括：/na)由数字计算机接收所述鲁棒推理问题的数据，其中所述数据包括：/ni)目标函数或损失函数集，该目标函数或损失函数集分组成非重叠子集，其中所述目标函数或损失函数集中的每个目标函数或损失函数都接受第一和第二变元；/nii)用于所述目标函数或损失函数集中的每个目标函数或损失函数的容许离散向量集；/nb)由所述数字计算机设置连续向量的当前值；/nc)由所述数字计算机接收缩放参数集的调度；以及/nd)直到满足停止标准：/ni)至少部分地基于所述调度来确定所述缩放参数集的当前值；/nii)从所述非重叠子集中选择所述目标函数或损失函数的子集；/niii)对所述目标函数或损失函数的所选择的子集的每个目标函数或损失函数迭代以下步骤：/n1)由所述采样设备根据与所述目标函数或损失函数相关的所述容许离散向量集来产生离散向量的一个或多个样本：/n2)由所述数字计算机获取一个或多个梯度，其中所述一个或多个梯度的每个梯度都是所述目标函数或损失函数相对于所述第一变元而取得的；以及/n3)由所述数字计算机获取所述一个或多个梯度的平均值；/niv...

【技术特征摘要】
【国外来华专利技术】20171201 US 62/593,563;20180808 US 62/716,0411.一种使用采样设备对鲁棒推理问题进行随机优化的计算机实现方法，包括：
a)由数字计算机接收所述鲁棒推理问题的数据，其中所述数据包括：
i)目标函数或损失函数集，该目标函数或损失函数集分组成非重叠子集，其中所述目标函数或损失函数集中的每个目标函数或损失函数都接受第一和第二变元；
ii)用于所述目标函数或损失函数集中的每个目标函数或损失函数的容许离散向量集；
b)由所述数字计算机设置连续向量的当前值；
c)由所述数字计算机接收缩放参数集的调度；以及
d)直到满足停止标准：
i)至少部分地基于所述调度来确定所述缩放参数集的当前值；
ii)从所述非重叠子集中选择所述目标函数或损失函数的子集；
iii)对所述目标函数或损失函数的所选择的子集的每个目标函数或损失函数迭代以下步骤：
1)由所述采样设备根据与所述目标函数或损失函数相关的所述容许离散向量集来产生离散向量的一个或多个样本：
2)由所述数字计算机获取一个或多个梯度，其中所述一个或多个梯度的每个梯度都是所述目标函数或损失函数相对于所述第一变元而取得的；以及
3)由所述数字计算机获取所述一个或多个梯度的平均值；
iv)由所述数字计算机获取所述一个或多个梯度的所述平均值的总和或部分总和；其中所述总和是对于所述目标函数或损失函数的所选择子集中的所有目标函数或损失函数而言的，并且其中所述部分总和是对于所述目标函数或损失函数的所选择子集中的多于一个目标函数或损失函数而言的；
v)由所述数字计算机至少部分地基于以下中的一个或多个来计算搜索方向：v1)所述一个或多个梯度的所述平均值的所述总和或所述部分总和；v2)所述缩放参数集的所述当前值；v3)所述一个或多个梯度的所述平均值的所述总和或所述部分总和的历史的至少一部分；和v4)所述缩放参数集的所述值的历史的至少一部分；
vi)由所述数字计算机至少部分地基于以下中的一个或多个来计算步长：vi1)所述缩放参数集的所述当前值；vi2)所述目标函数或损失函数的所选择子集；vi3)所述缩放参数集的值的历史的至少一部分；和vi4)所述目标函数或损失函数的所选择子集的历史的至少一部分；
vii)由所述数字计算机基于所述步长和所述搜索方向来设置所述连续向量的所述当前值；以及
vii)提供所述连续向量的所述当前值。

2.如权利要求1的所述方法，其中所述目标函数或损失函数包括所述第一和第二变元的一个或多个复合函数。

3.如权利要求2的所述方法，其中由所述数字计算机获取一个或多个梯度，其中所述一个或多个梯度的每个都是所述目标函数或损失函数关于所述第一变元而取得的，包括链式法则的迭代应用。

4.如权利要求3的所述方法，其中所述链式法则的所述迭代应用使用自微分来进行。

5.如权利要求2的所述方法，其中所述复合函数的一个或多个变元函数包括可微的特征提取器。

6.如权利要求5所述的方法，其中所述可微的特征提取器包括深度神经网络。

7.如权利要求1的所述方法，其中由所述数字计算机计算搜索方向包括使用随机梯度下降法(SGD)、随机平均梯度法(SAG和SAGA)、随机方差缩减梯度法(SVRG)或随机双坐标上升法(SDCA)中的一个或多个。

8.如权利要求1的所述方法，其中由所述数字计算机计算步长包括使用所述自适应梯度下降方法中的一个或多个，并且其中所述自适应梯度下降方法包括自适应矩估计(Adam)、约简均方(RMS)、均方根传播(RMSProp)和/或自适应梯度算法(AdaGrad)。

9.如权利要求1的所述方法，其中所述采样设备包括量子处理器和量子设备控制系统，用于获取所述缩放参数集的所述调度和所述鲁棒推理问题的所述数据。

10.如权利要求9的所述方法，其中所述量子处理器耦合到所述数字计算机和所述量子设备控制系统。

11.如权利要求10的所述方法，其中所述量子处理器包括多个量子位和多个耦合器，所述多个耦合器中的每个耦合器用于在所述多个量子位中的两个量子位的交叉处提供通信耦合。

12.如权利要求11的所述方法，其中离散向量的所述一个或多个样本遵循玻尔兹曼分布。

13.如权利要求12的所述方法，其中所述采样设备是光参量振荡器网络，所述网络包括：
a)光学器件，所述光学器件被配置成接收来自光能源的能量并产生多个光参量振荡器；和
b)多个耦合设备，其中所述多个耦合设备中的每个可控制地耦合所述多个光参量振荡器中的一光参量振荡器。

14.如权利要求1的所述方法，其中所述采样设备包括中央处理单元以及耦合到所述中央处理单元的存储器单元。

15.如权利要求14的所述方法，其中所述存储器单元包括用于获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据的应用，并且其中所述应用被配置成实现马尔科夫链蒙特卡洛算法。

16.如权利要求1的所述方法，其中所述采样设备包括可重构数字硬件、中央处理单元和存储器单元，所述中央处理单元和所述存储器单元耦合到所述可重构数字硬件。

17.如权利要求16的所述方法，其中所述可重构数字硬件被配置成获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据，并且其中所述可重构数字硬件被配置成实现马尔科夫链蒙特卡洛算法。

18.如权利要求15或17的所述方法，其中所述马尔可夫链蒙特卡罗算法包括模拟量子退火。
...

【专利技术属性】
技术研发人员：迈克尔·保罗·弗里德兰德，普亚·罗纳格，贝赫鲁兹·赛佩里，
申请(专利权)人：一QB信息技术公司，
类型：发明
国别省市：加拿大;CA

全部详细技术资料下载我是这个专利的主人