【技术实现步骤摘要】
一种辅助决策方法、装置、介质及电子装置
[0001]本专利技术属于量子计算
,特别是一种辅助决策方法、装置、介质及电子装置。
技术介绍
[0002]量子计算机是一类遵循量子力学规律进行高速数学和逻辑运算、存储及处理量子信息的物理装置。当某个装置处理和计算的是量子信息,运行的是量子算法时,它就是量子计算机。量子计算机因其具有相对普通计算机更高效的处理数学问题的能力,例如,能将破解RSA密钥的时间从数百年加速到数小时,故成为一种正在研究中的关键技术。
[0003]目前,深度强化学习已经广泛应用于辅助决策领域,然而,现有的辅助决策网络缺少对决策数据进行全局时序交互编码的能力,导致无法充分地从决策数据中学习特征,对于数据量的依赖性过强。
技术实现思路
[0004]本专利技术的目的是提供一种辅助决策方法、装置、介质及电子装置,旨在降低辅助决策对数据量的依赖性。
[0005]本申请的一个实施例提供了一种辅助决策方法,所述方法包括:
[0006]对决策数据进行特征编码,得到编码矩阵;
[0007]将所述编码矩阵输入至训练好的策略网络和价值网络,得到策略网络输出的行动概率和价值网络输出的状态价值期望,所述策略网络和价值网络包括参数不同的量子全局时序编码线路,所述量子全局时序编码线路用于基于编码矩阵计算特征向量,所述行动概率和状态价值期望是基于所述特征向量确定的;
[0008]输出所述行动概率和状态价值期望,以指示基于所述行动概率和状态价值期望制定行动方案。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种辅助决策方法,其特征在于,所述方法包括:对决策数据进行特征编码,得到编码矩阵;将所述编码矩阵输入至训练好的策略网络和价值网络,得到策略网络输出的行动概率和价值网络输出的状态价值期望,所述策略网络和价值网络包括参数不同的量子全局时序编码线路,所述量子全局时序编码线路用于基于编码矩阵计算特征向量,所述行动概率和状态价值期望是基于所述特征向量确定的;输出所述行动概率和状态价值期望,以指示基于所述行动概率和状态价值期望制定行动方案。2.如权利要求1所述的方法,其特征在于,所述量子全局时序编码线路包括局部编码线路,所述局部编码线路包括局部加载线路、变分编码线路、重上传线路;所述局部加载线路、变分编码线路、重上传线路均包括作用于每个量子比特上的单量子逻辑门,所述变分编码线路还包括作用于两个量子比特上的CNOT门。3.如权利要求2所述的方法,其特征在于,所述局部加载线路包括的单量子逻辑门的第一参数是基于所述一维向量的元素确定的,所述变分编码线路包括的单量子逻辑门的第二参数是基于训练确定的,所述重上传线路包括的单量子逻辑门的第三参数是基于所述一维向量的元素和第四参数确定的,所述第四参数是基于训练确定的。4.如权利要求3所述的方法,其特征在于,所述编码矩阵包括l个具有n个时间节点的一维向量,所述量子全局时序编码线路包括m个局部编码线路,所述局部加载线路包括的ln/m个单量子逻辑门用于将编码矩阵中的ln/m个元素加载至量子比特,所述变分编码线路包括的单量子逻辑门和CNOT门用于对加载后的量子比特进行变分量子编码,所述重上传线路包括的单量子逻辑门用于重上传编码后的量子比特,所述m个局部编码线路分别用于处理编码矩阵中的ln/m个元素,共同实现对编码矩阵的全局时序编码;所述l、n、m根据预先要求设定。5.如权利要求1所述的方法,其特征在于,所述将所述编码矩阵输入至训练好的策略网络和价值网络之前,所述方法还包括:随机生成策略函数的第一优化参数和价值函数的第二优化参数,得到待训练的策略网络、待训练的价值网络;接收将作为训练决策数据并进行特征编码,得到训练编码矩阵,所述包括从环境中获取的数据;基于所述训练编码矩阵和待训练的策略网络、待训练的价值网络确定D
×
T个训练行动概率、D
×
T个训练行动奖励、D
×
T个D
×
T个训练状态价值期望;基于D
×
T个训练行动概率、D
×
T个训练行动奖励、D
×
T个D
×
T个训练状态价值期望确定训练好的策略网络和价值网络。6.如权利要求5所述的方法,其特征在于,所述基于所述训练编码矩阵和待训练的策略网...
【专利技术属性】
技术研发人员:请求不公布姓名,窦猛汉,请求不公布姓名,请求不公布姓名,
申请(专利权)人:本源量子计算科技合肥股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。