通过强化学习进行量子计算制造技术

技术编号：26181007 阅读：29 留言：0更新日期：2020-10-31 14:45

用于设计用于使用量子硬件实施量子门的量子控制轨迹的方法、系统和装置。在一个方面，一种方法包括以下动作：将量子门表示为控制动作序列，以及应用强化学习模型来迭代地调整控制动作序列中的每个控制动作，以确定实施量子门并减少量子门的泄漏、失真和总运行时间的量子控制轨迹，从而提高其在迭代调整期间对控制噪声的性能的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】通过强化学习进行量子计算
技术介绍
本说明书涉及量子计算。大规模量子计算机有潜力为某些类别的难题提供快速解决方案。在门模型量子计算机中，计算任务是通过实施通用量子门的序列来执行的，其每个都指定量子计算机演化的轨迹。量子门执行得越快，给定量子设备所拥有的计算能力就越大。
技术实现思路
本说明书描述了用于使用强化学习设计量子控制轨迹的方法和系统。一般而言，本说明书中描述的主题的一个创新方面可以在一种用于设计用于使用量子硬件实施量子门的量子控制轨迹的方法中实施，该方法包括以下动作：将量子门表示为控制动作序列；应用强化学习模型来迭代地调整控制动作序列中的每个控制动作，以确定实施量子门并在迭代调整期间减少量子门的泄漏、失真和总运行时间的量子控制轨迹，对于每个迭代，包括：由代理基于量子硬件中包括的量子系统的当前状态来确定用于迭代的控制动作；由训练环境使用所确定的控制动作和样本控制噪声将量子系统的当前状态更新为量子系统的后续状态；由代理使用i)惩罚泄漏、失真和总的门运行时间的通用控制成本函数作为强化学习折扣未来奖励(discountedfuturereward)函数，以及ii)量子系统的更新状态来确定折扣未来奖励；以及由代理并基于所确定的折扣未来奖励来调整用于迭代的一个或多个控制轨迹参数的值。该方面的其他实施方式包括对应的经典或量子计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序，各自被配置为执行方法的动作。一个或多个计算机的系统可以被配置为借助在系统上安装软件、固件、硬件或其组合来执行特定的操作或动作...

【技术保护点】
1.一种用于设计用于使用量子硬件实施量子门的量子控制轨迹的计算机实施的方法，所述方法包括：/n将所述量子门表示为控制动作序列；/n应用强化学习模型来迭代地调整所述控制动作序列中的每个控制动作，以确定实施所述量子门并在迭代调整期间减少所述量子门的泄漏、失真和总运行时间的量子控制轨迹，对于每个迭代，包括：/n由代理基于在所述量子硬件中包括的量子系统的当前状态来确定用于迭代的控制动作；/n由训练环境使用所确定的控制动作和样本控制噪声将所述量子系统的当前状态更新为所述量子系统的后续状态；/n由所述代理使用i)惩罚泄漏、失真和总的门运行时间的通用控制成本函数作为强化学习折扣未来奖励函数，以及ii)所述量子系统的更新状态来确定折扣未来奖励；以及/n由所述代理并基于所确定的折扣未来奖励来调整用于迭代的一个或多个控制轨迹参数的值。/n

【技术特征摘要】
【国外来华专利技术】1.一种用于设计用于使用量子硬件实施量子门的量子控制轨迹的计算机实施的方法，所述方法包括：
将所述量子门表示为控制动作序列；
应用强化学习模型来迭代地调整所述控制动作序列中的每个控制动作，以确定实施所述量子门并在迭代调整期间减少所述量子门的泄漏、失真和总运行时间的量子控制轨迹，对于每个迭代，包括：
由代理基于在所述量子硬件中包括的量子系统的当前状态来确定用于迭代的控制动作；
由训练环境使用所确定的控制动作和样本控制噪声将所述量子系统的当前状态更新为所述量子系统的后续状态；
由所述代理使用i)惩罚泄漏、失真和总的门运行时间的通用控制成本函数作为强化学习折扣未来奖励函数，以及ii)所述量子系统的更新状态来确定折扣未来奖励；以及
由所述代理并基于所确定的折扣未来奖励来调整用于迭代的一个或多个控制轨迹参数的值。

2.根据权利要求1所述的方法，其中，所述代理包括第一神经网络，并且其中，基于在所述量子硬件中包括的量子系统的当前状态来确定用于迭代的控制动作包括：
提供表示所述量子系统的当前状态的参数值的向量作为第一神经网络的输入；以及
获得表示所述控制动作的参数值的向量作为第一神经网络的输出。

3.根据权利要求2所述的方法，其中，所述表示所述控制动作的参数值包括表示所述控制动作的每个分量的相应概率分布的值，当被所述代理采样时，定义所述控制动作。

4.根据权利要求2或3所述的方法，其中，由所述代理并基于所确定的折扣未来奖励来调整一个或多个控制轨迹参数的值包括：
调整第一神经网络，包括基于所确定的折扣未来奖励来调整第一神经网络参数的值；
使用调整后的第一神经网络来确定调整后的用于迭代的控制动作；以及
使用调整后的用于迭代的控制动作来调整用于迭代的控制轨迹参数的值。

5.根据权利要求4所述的方法，其中，调整第一神经网络参数的值包括应用梯度下降方法，其学习率是由所确定的折扣未来奖励来确定的。

6.根据任一前述权利要求所述的方法，其中，所述代理包括被配置为确定所述折扣未来奖励的第二神经网络。

7.根据任一前述权利要求所述的方法，其中，使用i)惩罚泄漏、失真和总的门运行时间的通用控制成本函数作为强化学习折扣未来奖励函数，以及ii)所述量子系统的更新状态来确定折扣未来奖励包括：基于更新的通用控制成本函数来评估所述控制动作序列中的未来位置的加权通用控制成本函数的总和。

8.根据权利要求6所述的方法，其中，应用所述强化模型还包括在每次迭代时通过以下步骤来训练第一神经网络和第二神经网络：
从所述代理并从不同的可能控制轨迹中对i)不同控制轨迹下的量子状态的完整序列，以及ii)不同控制轨迹的通用控制成本函数值的完整序列进行采样；...

【专利技术属性】
技术研发人员：Y牛，H内文，V斯梅良斯基，SB卡斯特里洛，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人