通过强化学习进行量子计算制造技术

技术编号:26181007 阅读:29 留言:0更新日期:2020-10-31 14:45
用于设计用于使用量子硬件实施量子门的量子控制轨迹的方法、系统和装置。在一个方面,一种方法包括以下动作:将量子门表示为控制动作序列,以及应用强化学习模型来迭代地调整控制动作序列中的每个控制动作,以确定实施量子门并减少量子门的泄漏、失真和总运行时间的量子控制轨迹,从而提高其在迭代调整期间对控制噪声的性能的鲁棒性。

【技术实现步骤摘要】
【国外来华专利技术】通过强化学习进行量子计算
技术介绍
本说明书涉及量子计算。大规模量子计算机有潜力为某些类别的难题提供快速解决方案。在门模型量子计算机中,计算任务是通过实施通用量子门的序列来执行的,其每个都指定量子计算机演化的轨迹。量子门执行得越快,给定量子设备所拥有的计算能力就越大。
技术实现思路
本说明书描述了用于使用强化学习设计量子控制轨迹的方法和系统。一般而言,本说明书中描述的主题的一个创新方面可以在一种用于设计用于使用量子硬件实施量子门的量子控制轨迹的方法中实施,该方法包括以下动作:将量子门表示为控制动作序列;应用强化学习模型来迭代地调整控制动作序列中的每个控制动作,以确定实施量子门并在迭代调整期间减少量子门的泄漏、失真和总运行时间的量子控制轨迹,对于每个迭代,包括:由代理基于量子硬件中包括的量子系统的当前状态来确定用于迭代的控制动作;由训练环境使用所确定的控制动作和样本控制噪声将量子系统的当前状态更新为量子系统的后续状态;由代理使用i)惩罚泄漏、失真和总的门运行时间的通用控制成本函数作为强化学习折扣未来奖励(discountedfuturereward)函数,以及ii)量子系统的更新状态来确定折扣未来奖励;以及由代理并基于所确定的折扣未来奖励来调整用于迭代的一个或多个控制轨迹参数的值。该方面的其他实施方式包括对应的经典或量子计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序,各自被配置为执行方法的动作。一个或多个计算机的系统可以被配置为借助在系统上安装软件、固件、硬件或其组合来执行特定的操作或动作,这些软件、固件、硬件或其组合在操作中使得系统执行动作。一个或多个计算机程序可以被配置为借助包括指令来执行特定的操作或动作,当指令由数据处理装置执行时,使得该装置执行这些动作。前述和其他实施方式可以各自可选地单独或组合地包括一个或多个以下特征。在一些实施方式中,代理包括第一神经网络,并且其中,基于量子硬件中包括的量子系统的当前状态来确定用于迭代的控制动作包括:提供表示量子系统的当前状态的参数值的向量作为第一神经网络的输入;以及获得表示控制动作的参数值的向量作为第一神经网络的输出。在一些实施方式中,表示控制动作的参数值包括表示控制动作的每个分量的相应概率分布的值,当被代理采样时,定义控制动作。在一些实施方式中,由代理并基于所确定的折扣未来奖励来调整一个或多个控制轨迹参数的值包括:调整第一神经网络,包括基于所确定的折扣未来奖励来调整第一神经网络参数的值;使用调整后的第一神经网络来确定调整后的用于迭代的控制动作;以及使用调整后的用于迭代的控制动作来调整用于迭代的控制轨迹参数的值。在一些实施方式中,调整第一神经网络参数的值包括应用梯度下降方法,其学习率是由所确定的折扣未来奖励来确定的。在一些实施方式中,代理包括被配置为确定折扣未来奖励的第二神经网络。在一些实施方式中,使用i)惩罚泄漏、失真和总的门运行时间的通用控制成本函数作为强化学习折扣未来奖励函数,以及ii)量子系统的更新状态来确定折扣未来奖励包括:基于更新的通用控制成本函数来评估控制动作序列中的未来位置的加权通用控制成本函数的总和。在一些实施方式中,应用强化模型还包括在每次迭代时通过以下步骤来训练第一神经网络和第二神经网络:从代理并从不同的可能控制轨迹中,对i)不同控制轨迹下的量子态的完整序列,以及ii)不同控制轨迹的通用控制成本函数值的完整序列进行采样;确定与采样的量子态和通用控制成本函数值相对应的采样的折扣未来奖励;将第二神经网络拟合到采样的折扣未来奖励;以及根据从采样中估计的、利用由对折扣未来奖励进行编码的第二神经网络所确定的学习率的梯度来拟合第一神经网络。在一些实施方式中,应用强化学习模型来调整控制动作序列中的每个控制动作以确定实施量子门的量子控制轨迹包括执行策略梯度方法。在一些实施方式中,每个迭代被重复多次,直到调整后的代理参数的值收敛到预定义的限制内。在一些实施方式中,由训练环境使用所确定的控制动作和样本控制噪声将量子系统的当前状态更新为量子系统的后续状态包括:基于随机采样的量子硬件噪声来调整表示控制动作的参数值的向量;使用调整后的参数值的向量来求解实现当前控制动作的时间相关哈密顿演化;以及使用求解的时间相关哈密顿演化来更新量子系统的状态。在一些实施方式中,基于随机采样的量子硬件噪声来调整表示控制动作的参数值的向量包括:对控制噪声进行随机采样;以及将随机采样的噪声添加到参数值的向量的每个条目。在一些实施方式中,对控制噪声进行随机采样包括根据具有预定方差的零均值高斯分布对不同控制幅度的幅度波动进行采样。在一些实施方式中,量子硬件包括一个或多个量子位,并且其中,控制噪声包括由i)量子位非谐性、ii)量子位失谐幅度、iii)微波控制幅度和iv)双量子位耦合脉冲幅度中的一个或多个引起的随机量子硬件噪声。在一些实施方式中,使用调整后的参数值的向量来求解实现当前控制动作的时间相关哈密顿演化包括使用调整后的参数值的向量来评估薛定谔方程。在一些实施方式中,第一神经网络包括多个全连接神经网络层。在一些实施方式中,第二神经网络包括多个全连接神经网络层。在一些实施方式中,该方法还包括使用设计的量子控制轨迹来实施量子门。本说明书中描述的主题可以以特定方式实施,以便实现一个或多个以下优点。如本说明书所述,通过强化学习实施量子计算的系统可以提高量子计算设备或混合经典量子计算设备的性能和计算效率。例如,执行本文描述的技术的量子计算设备可以实施的量子门针对不可避免的量子硬件控制噪声具有减少的误差和运行时间、增加的量子门保真度以及提高的鲁棒性,该量子硬件控制噪声导致计算过程的量子动力学中的未知波动。作为另一示例,可以确定量子门运行时间和保真度之间的平衡。另外,通过在缩短的门运行时间内实施高保真量子门,近期的量子计算设备可以用来解决经典计算机无法企及的难题。此外,本说明书中描述的技术的通用性提供了量子设备的提高的可控性。如本说明书中所述,通过强化学习实施量子计算的系统可以在一般的时间相关哈密顿演化期间抑制不同频率范围内的所有种类的泄漏误差,并且不限于抑制来自单个源的泄漏误差。此外,抑制了所有种类的泄漏误差,而不需要对哈密顿调制的允许形式进行硬约束,这削弱了量子控制的通用性。如本说明书中所述,通过强化学习实施量子计算的系统不限于其中环境的物理模型的完整知识为可用的设定。如本说明书所述,通过强化学习实施量子计算的系统可以实施任意的酉单量子位门和多量子位门。为方便起见,本说明书中描述的技术被描述为在一个或多个量子位上实现单个量子门。然而,所描述的系统和技术的适用性是完全可扩展的,并且可以扩展到量子门序列的实施方式,其中用于实施门序列的各个控制可以被合并为单个控制,这在计算时间方面提升了速度,同时增加了门序列保真度。本说明书的主题的一个或多个实施方式的细节在附图和下面的描述中阐述。本主题的其他特征、方面和优点将从说明书、附图本文档来自技高网...

【技术保护点】
1.一种用于设计用于使用量子硬件实施量子门的量子控制轨迹的计算机实施的方法,所述方法包括:/n将所述量子门表示为控制动作序列;/n应用强化学习模型来迭代地调整所述控制动作序列中的每个控制动作,以确定实施所述量子门并在迭代调整期间减少所述量子门的泄漏、失真和总运行时间的量子控制轨迹,对于每个迭代,包括:/n由代理基于在所述量子硬件中包括的量子系统的当前状态来确定用于迭代的控制动作;/n由训练环境使用所确定的控制动作和样本控制噪声将所述量子系统的当前状态更新为所述量子系统的后续状态;/n由所述代理使用i)惩罚泄漏、失真和总的门运行时间的通用控制成本函数作为强化学习折扣未来奖励函数,以及ii)所述量子系统的更新状态来确定折扣未来奖励;以及/n由所述代理并基于所确定的折扣未来奖励来调整用于迭代的一个或多个控制轨迹参数的值。/n

【技术特征摘要】
【国外来华专利技术】1.一种用于设计用于使用量子硬件实施量子门的量子控制轨迹的计算机实施的方法,所述方法包括:
将所述量子门表示为控制动作序列;
应用强化学习模型来迭代地调整所述控制动作序列中的每个控制动作,以确定实施所述量子门并在迭代调整期间减少所述量子门的泄漏、失真和总运行时间的量子控制轨迹,对于每个迭代,包括:
由代理基于在所述量子硬件中包括的量子系统的当前状态来确定用于迭代的控制动作;
由训练环境使用所确定的控制动作和样本控制噪声将所述量子系统的当前状态更新为所述量子系统的后续状态;
由所述代理使用i)惩罚泄漏、失真和总的门运行时间的通用控制成本函数作为强化学习折扣未来奖励函数,以及ii)所述量子系统的更新状态来确定折扣未来奖励;以及
由所述代理并基于所确定的折扣未来奖励来调整用于迭代的一个或多个控制轨迹参数的值。


2.根据权利要求1所述的方法,其中,所述代理包括第一神经网络,并且其中,基于在所述量子硬件中包括的量子系统的当前状态来确定用于迭代的控制动作包括:
提供表示所述量子系统的当前状态的参数值的向量作为第一神经网络的输入;以及
获得表示所述控制动作的参数值的向量作为第一神经网络的输出。


3.根据权利要求2所述的方法,其中,所述表示所述控制动作的参数值包括表示所述控制动作的每个分量的相应概率分布的值,当被所述代理采样时,定义所述控制动作。


4.根据权利要求2或3所述的方法,其中,由所述代理并基于所确定的折扣未来奖励来调整一个或多个控制轨迹参数的值包括:
调整第一神经网络,包括基于所确定的折扣未来奖励来调整第一神经网络参数的值;
使用调整后的第一神经网络来确定调整后的用于迭代的控制动作;以及
使用调整后的用于迭代的控制动作来调整用于迭代的控制轨迹参数的值。


5.根据权利要求4所述的方法,其中,调整第一神经网络参数的值包括应用梯度下降方法,其学习率是由所确定的折扣未来奖励来确定的。


6.根据任一前述权利要求所述的方法,其中,所述代理包括被配置为确定所述折扣未来奖励的第二神经网络。


7.根据任一前述权利要求所述的方法,其中,使用i)惩罚泄漏、失真和总的门运行时间的通用控制成本函数作为强化学习折扣未来奖励函数,以及ii)所述量子系统的更新状态来确定折扣未来奖励包括:基于更新的通用控制成本函数来评估所述控制动作序列中的未来位置的加权通用控制成本函数的总和。


8.根据权利要求6所述的方法,其中,应用所述强化模型还包括在每次迭代时通过以下步骤来训练第一神经网络和第二神经网络:
从所述代理并从不同的可能控制轨迹中对i)不同控制轨迹下的量子状态的完整序列,以及ii)不同控制轨迹的通用控制成本函数值的完整序列进行采样;...

【专利技术属性】
技术研发人员:Y牛H内文V斯梅良斯基SB卡斯特里洛
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1