对鲁棒推理问题进行随机优化的系统与方法技术方案

技术编号:25645563 阅读:35 留言:0更新日期:2020-09-15 21:36
本公开提供一种使用采样设备对鲁棒推理问题进行随机优化的方法和系统。具体地,本公开的方法和系统使得能够平滑目标函数,从而使得这些函数适于通过使用采样的随机梯度方法进行计算以替代精确解决推理问题。这样的方法和系统有利地将平滑函数逼近的梯度连接到玻尔兹曼分布,其可以使用模拟过程和/或量子过程(特别是量子退火过程,经典计算机、半经典计算机或量子处理器/设备的热或绝热弛豫和/或其他物理过程)通过采样设备(例如,吉布斯采样器)进行采样。

【技术实现步骤摘要】
【国外来华专利技术】对鲁棒推理问题进行随机优化的系统与方法交叉引用本申请要求于2017年12月1日提交的美国临时申请号62/593,563和2018年8月8日提交的美国专利申请号62/716,041的优先权,其中每个申请通过引用而整体并入于此。
技术介绍
在各种工程领域中,即使可以存在直接的数学模型,鲁棒推理(robustinference)问题也经常过于复杂,无法直接数值求解。随机优化(stochasticoptimization)是一种用于将函数最小化或最大化的方法,它使用随机性来部分地评估组成函数,并且可以因此适用于优化非常复杂的模型。
技术实现思路
本公开的方法和系统有利地使鲁棒推理问题中的各种目标函数能够平滑化,从而使这些函数适合于使用采样通过随机梯度方法来计算以代替精确求解所述推理问题。这些方法和系统有利地将平滑化函数近似的所述梯度连接到玻尔兹曼分布,该玻尔兹曼分布可以使用模拟过程和/或量子过程(特别是经典计算机、半经典计算机或量子处理器/设备的的量子退火过程、热或绝热松弛和/或其他物理过程)由采样设备来采样。本公开提供了对鲁棒推理问题进行随机优化的系统,这可以用于学习或估计模型的参数,所述模型通过数学或统计函数以最大间隔原则和/或最大似然原则来表示,其中所学习的模型参数确定所述数学或统计函数的实例。特别是,在所述统计函数是图形模型的能量函数的情况中,例如多体系统的横场伊辛模型或其他经典或量子模型,模型参数可以确定用于预测的概率图形模型的权重。这种方法可以给许多机器学习算法和任务提供通用的框架。机器学习算法的非限制性示例包括结构化支持向量机(SSVM)。本专利技术的系统和方法可以有利地改善数据科学的
,使得复杂的推理问题可以在数据科学的各种应用中被解决,如文档聚类、人群中的群体检测、推荐系统、半监督学习和主动学习。本公开的系统和方法还可以在自然语言处理中具有各种应用,如名词短语共指解析,以及计算机视觉和图像处理应用,如图像分割。在一个方面,本专利技术提供了一种使用采样设备对鲁棒推理问题进行随机优化的计算机实现方法,包括由数字计算机接收鲁棒推理问题的数据,其中所述数据包括:分组成非重叠子集的损失函数集,其中损失函数集中的每个损失函数都接受第一和第二变元(argument),其中所述第一和第二变元是独立的,并且其中所述第一变元采用连续向量作为其值,并且第二变元采用离散向量作为其值;容许离散向量集,用于所述损失函数集中的每个损失函数;和初始连续向量,用于所述损失函数集中的每个损失函数的所述第一变元;由所述数字计算机设置所述连续向量的当前值为所述初始连续向量;由所述数字计算机接收缩放参数集的调度(schedule);由所述数字计算机至少部分地基于所述调度来设置缩放参数集的初始值;和直到满足停止标准,所述停止标准包括用于确定所述鲁棒推理问题的解的准确性的规则集:确定所述缩放参数集的当前值,其中所述当前值至少部分地基于所述缩放参数集的所述调度;从所述非重叠子集选择所述损失函数的子集,其中所述选择是非重复或重复的;对所述损失函数的选择子集的每个损失函数迭代以下步骤:由所述采样设备产生离散向量的一个或多个样本,所述一个或多个样本的每个样本是根据与所述损失函数相关的所述容许离散向量集产生的,其中所述一个或多个样本的每个样本是基于至少部分地由所述缩放参数集和所述损失函数确定的概率分布产生的,其中所述损失函数的所述第一变元取得所述连续向量的所述当前值;由所述数字计算机获取一个或多个梯度,其中所述一个或多个梯度的每个都是损失函数相对于所述第一变元而取得的;其中所述损失函数的所述第一变元取得所述连续向量的所述当前值,而所述第二变元从所述一个或多个样本中取得选择的样本的值,其中所述选择的样本是非重复选择的;以及由所述数字计算机获取所述一个或多个梯度的平均值;由所述数字计算机获取所述一个或多个梯度的所述平均值的总和和/或部分总和,其中所述总和是对于所述损失函数的选择子集中的所有损失函数的,并且其中所述部分总和是对于所述损失函数的选择子集中的多于一个损失函数的;由所述数字计算机至少部分地基于以下来计算搜索方向:v1)所述一个或多个梯度的所述平均值的所述总和或所述部分总和,v2)所述缩放参数集的所述当前值,v3)所述一个或多个梯度的所述平均值的所述总和或所述部分总和的历史的至少一部分,和/或v4)所述缩放参数集的所述值的历史的至少一部分;由所述数字计算机至少部分地基于以下来计算步长:vi1)所述缩放参数集的所述当前值,vi2)所述损失函数集,vi3)所述缩放参数集的值的历史的至少一部分,和/或vi4)所述损失函数集的历史的至少一部分;由所述数字计算机使用所述步长和所述搜索方向来计算更新的当前连续向量;和由所述数字计算机设置所述连续向量的所述当前值为所述更新的当前连续向量;本专利技术有利地利用了采样设备来解决复杂的所述鲁棒推理问题。所述采样设备可以包括量子处理器和量子设备控制系统,用于获取所述缩放参数集的所述调度和所述鲁棒推理问题的所述数据。量子处理器可以耦合到数字计算机和量子设备控制系统。所述量子处理器可以包括多个量子位和多个耦合器,所述多个耦合器的每个耦合器用于在所述多个量子位的两个量子位的交叉处提供通信耦合。离散向量的所述一个或多个样本可以遵循玻尔兹曼分布。所述采样设备可以是光参量振荡器网络,所述网络可以包括:光学器件,所述光学器件被配置成接收来自光能源的能量并产生多个光参量振荡器;和多个耦合设备,其中每个可控制地耦合所述多个光参量振荡器的光参量振荡器。所述采样设备可以包括中央处理单元,例如,数字计算机或移动设备,以及耦合到所述中央处理单元的存储器单元。所述存储器单元可以包括用于获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据的应用。这种应用可以是web应用或移动应用。所述采样设备可以包括可重构数字硬件、中央处理单元和存储器单元,中央处理单元和存储器单元耦合到所述可重构数字硬件的所述中央处理单元和所述存储器单元。所述可重构数字硬件可以适用于获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据,并且其中所述可重构数字硬件适用于进行马尔科夫链蒙特卡洛算法(MarkovChainMonteCarloalgorithm)。所述马尔可夫链蒙特卡罗算法可以是模拟量子退火。所述马尔可夫链蒙特卡罗算法可以是模拟退火。所述马尔可夫链蒙特卡罗算法可以是吉布斯采样。所述损失函数集可以包括一个或多个损失函数。所述鲁棒推理问题的所述随机优化可以与训练结构支持向量机相关。损失函数的所述非重叠子集的每个子集可以仅包括两个损失函数。所述鲁棒推理问题的所述随机优化可以与图像分割相关。所述鲁棒推理问题的所述随机优化可以与来自压缩感知的基础追捕问题的对偶(dual)相关。所述鲁棒推理问题的所述随机优化可以与半监督学习相关。所述鲁棒推理问题的所述数据可以与一个或多个图像分割问题相关。所述鲁棒推理问题的所述数据可以与来自一个或多个压缩感知问题的所述基础追捕问题的对偶相关。所述鲁棒推理问题的数据可以与半监督学习相关。所述鲁棒推理问题的所述数据本文档来自技高网
...

【技术保护点】
1.一种使用采样设备对鲁棒推理问题进行随机优化的计算机实现方法,包括:/na)由数字计算机接收所述鲁棒推理问题的数据,其中所述数据包括:/ni)目标函数或损失函数集,该目标函数或损失函数集分组成非重叠子集,其中所述目标函数或损失函数集中的每个目标函数或损失函数都接受第一和第二变元;/nii)用于所述目标函数或损失函数集中的每个目标函数或损失函数的容许离散向量集;/nb)由所述数字计算机设置连续向量的当前值;/nc)由所述数字计算机接收缩放参数集的调度;以及/nd)直到满足停止标准:/ni)至少部分地基于所述调度来确定所述缩放参数集的当前值;/nii)从所述非重叠子集中选择所述目标函数或损失函数的子集;/niii)对所述目标函数或损失函数的所选择的子集的每个目标函数或损失函数迭代以下步骤:/n1)由所述采样设备根据与所述目标函数或损失函数相关的所述容许离散向量集来产生离散向量的一个或多个样本:/n2)由所述数字计算机获取一个或多个梯度,其中所述一个或多个梯度的每个梯度都是所述目标函数或损失函数相对于所述第一变元而取得的;以及/n3)由所述数字计算机获取所述一个或多个梯度的平均值;/niv)由所述数字计算机获取所述一个或多个梯度的所述平均值的总和或部分总和;其中所述总和是对于所述目标函数或损失函数的所选择子集中的所有目标函数或损失函数而言的,并且其中所述部分总和是对于所述目标函数或损失函数的所选择子集中的多于一个目标函数或损失函数而言的;/nv)由所述数字计算机至少部分地基于以下中的一个或多个来计算搜索方向:v1)所述一个或多个梯度的所述平均值的所述总和或所述部分总和;v2)所述缩放参数集的所述当前值;v3)所述一个或多个梯度的所述平均值的所述总和或所述部分总和的历史的至少一部分;和v4)所述缩放参数集的所述值的历史的至少一部分;/nvi)由所述数字计算机至少部分地基于以下中的一个或多个来计算步长:vi1)所述缩放参数集的所述当前值;vi2)所述目标函数或损失函数的所选择子集;vi3)所述缩放参数集的值的历史的至少一部分;和vi4)所述目标函数或损失函数的所选择子集的历史的至少一部分;/nvii)由所述数字计算机基于所述步长和所述搜索方向来设置所述连续向量的所述当前值;以及/nvii)提供所述连续向量的所述当前值。/n...

【技术特征摘要】
【国外来华专利技术】20171201 US 62/593,563;20180808 US 62/716,0411.一种使用采样设备对鲁棒推理问题进行随机优化的计算机实现方法,包括:
a)由数字计算机接收所述鲁棒推理问题的数据,其中所述数据包括:
i)目标函数或损失函数集,该目标函数或损失函数集分组成非重叠子集,其中所述目标函数或损失函数集中的每个目标函数或损失函数都接受第一和第二变元;
ii)用于所述目标函数或损失函数集中的每个目标函数或损失函数的容许离散向量集;
b)由所述数字计算机设置连续向量的当前值;
c)由所述数字计算机接收缩放参数集的调度;以及
d)直到满足停止标准:
i)至少部分地基于所述调度来确定所述缩放参数集的当前值;
ii)从所述非重叠子集中选择所述目标函数或损失函数的子集;
iii)对所述目标函数或损失函数的所选择的子集的每个目标函数或损失函数迭代以下步骤:
1)由所述采样设备根据与所述目标函数或损失函数相关的所述容许离散向量集来产生离散向量的一个或多个样本:
2)由所述数字计算机获取一个或多个梯度,其中所述一个或多个梯度的每个梯度都是所述目标函数或损失函数相对于所述第一变元而取得的;以及
3)由所述数字计算机获取所述一个或多个梯度的平均值;
iv)由所述数字计算机获取所述一个或多个梯度的所述平均值的总和或部分总和;其中所述总和是对于所述目标函数或损失函数的所选择子集中的所有目标函数或损失函数而言的,并且其中所述部分总和是对于所述目标函数或损失函数的所选择子集中的多于一个目标函数或损失函数而言的;
v)由所述数字计算机至少部分地基于以下中的一个或多个来计算搜索方向:v1)所述一个或多个梯度的所述平均值的所述总和或所述部分总和;v2)所述缩放参数集的所述当前值;v3)所述一个或多个梯度的所述平均值的所述总和或所述部分总和的历史的至少一部分;和v4)所述缩放参数集的所述值的历史的至少一部分;
vi)由所述数字计算机至少部分地基于以下中的一个或多个来计算步长:vi1)所述缩放参数集的所述当前值;vi2)所述目标函数或损失函数的所选择子集;vi3)所述缩放参数集的值的历史的至少一部分;和vi4)所述目标函数或损失函数的所选择子集的历史的至少一部分;
vii)由所述数字计算机基于所述步长和所述搜索方向来设置所述连续向量的所述当前值;以及
vii)提供所述连续向量的所述当前值。


2.如权利要求1的所述方法,其中所述目标函数或损失函数包括所述第一和第二变元的一个或多个复合函数。


3.如权利要求2的所述方法,其中由所述数字计算机获取一个或多个梯度,其中所述一个或多个梯度的每个都是所述目标函数或损失函数关于所述第一变元而取得的,包括链式法则的迭代应用。


4.如权利要求3的所述方法,其中所述链式法则的所述迭代应用使用自微分来进行。


5.如权利要求2的所述方法,其中所述复合函数的一个或多个变元函数包括可微的特征提取器。


6.如权利要求5所述的方法,其中所述可微的特征提取器包括深度神经网络。


7.如权利要求1的所述方法,其中由所述数字计算机计算搜索方向包括使用随机梯度下降法(SGD)、随机平均梯度法(SAG和SAGA)、随机方差缩减梯度法(SVRG)或随机双坐标上升法(SDCA)中的一个或多个。


8.如权利要求1的所述方法,其中由所述数字计算机计算步长包括使用所述自适应梯度下降方法中的一个或多个,并且其中所述自适应梯度下降方法包括自适应矩估计(Adam)、约简均方(RMS)、均方根传播(RMSProp)和/或自适应梯度算法(AdaGrad)。


9.如权利要求1的所述方法,其中所述采样设备包括量子处理器和量子设备控制系统,用于获取所述缩放参数集的所述调度和所述鲁棒推理问题的所述数据。


10.如权利要求9的所述方法,其中所述量子处理器耦合到所述数字计算机和所述量子设备控制系统。


11.如权利要求10的所述方法,其中所述量子处理器包括多个量子位和多个耦合器,所述多个耦合器中的每个耦合器用于在所述多个量子位中的两个量子位的交叉处提供通信耦合。


12.如权利要求11的所述方法,其中离散向量的所述一个或多个样本遵循玻尔兹曼分布。


13.如权利要求12的所述方法,其中所述采样设备是光参量振荡器网络,所述网络包括:
a)光学器件,所述光学器件被配置成接收来自光能源的能量并产生多个光参量振荡器;和
b)多个耦合设备,其中所述多个耦合设备中的每个可控制地耦合所述多个光参量振荡器中的一光参量振荡器。


14.如权利要求1的所述方法,其中所述采样设备包括中央处理单元以及耦合到所述中央处理单元的存储器单元。


15.如权利要求14的所述方法,其中所述存储器单元包括用于获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据的应用,并且其中所述应用被配置成实现马尔科夫链蒙特卡洛算法。


16.如权利要求1的所述方法,其中所述采样设备包括可重构数字硬件、中央处理单元和存储器单元,所述中央处理单元和所述存储器单元耦合到所述可重构数字硬件。


17.如权利要求16的所述方法,其中所述可重构数字硬件被配置成获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据,并且其中所述可重构数字硬件被配置成实现马尔科夫链蒙特卡洛算法。


18.如权利要求15或17的所述方法,其中所述马尔可夫链蒙特卡罗算法包括模拟量子退火。
...

【专利技术属性】
技术研发人员:迈克尔·保罗·弗里德兰德普亚·罗纳格贝赫鲁兹·赛佩里
申请(专利权)人:一QB信息技术公司
类型:发明
国别省市:加拿大;CA

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1