一种辅助决策方法、装置、介质及电子装置制造方法及图纸

技术编号:38642257 阅读:10 留言:0更新日期:2023-08-31 18:35
本发明专利技术公开了一种辅助决策方法、装置、介质及电子装置,方法包括:对决策数据进行特征编码,得到编码矩阵;将所述编码矩阵输入至训练好的策略网络和价值网络,得到策略网络输出的行动概率和价值网络输出的状态价值期望,所述策略网络和价值网络包括参数不同的量子全局时序编码线路,所述量子全局时序编码线路用于基于编码矩阵计算特征向量,所述行动概率和状态价值期望是基于所述特征向量确定的;输出所述行动概率和状态价值期望,以指示基于所述行动概率和状态价值期望制定行动方案。可降低辅助决策对数据量的依赖性。辅助决策对数据量的依赖性。辅助决策对数据量的依赖性。

【技术实现步骤摘要】
一种辅助决策方法、装置、介质及电子装置


[0001]本专利技术属于量子计算
,特别是一种辅助决策方法、装置、介质及电子装置。

技术介绍

[0002]量子计算机是一类遵循量子力学规律进行高速数学和逻辑运算、存储及处理量子信息的物理装置。当某个装置处理和计算的是量子信息,运行的是量子算法时,它就是量子计算机。量子计算机因其具有相对普通计算机更高效的处理数学问题的能力,例如,能将破解RSA密钥的时间从数百年加速到数小时,故成为一种正在研究中的关键技术。
[0003]目前,深度强化学习已经广泛应用于辅助决策领域,然而,现有的辅助决策网络缺少对决策数据进行全局时序交互编码的能力,导致无法充分地从决策数据中学习特征,对于数据量的依赖性过强。

技术实现思路

[0004]本专利技术的目的是提供一种辅助决策方法、装置、介质及电子装置,旨在降低辅助决策对数据量的依赖性。
[0005]本申请的一个实施例提供了一种辅助决策方法,所述方法包括:
[0006]对决策数据进行特征编码,得到编码矩阵;
[0007]将所述编码矩阵输入至训练好的策略网络和价值网络,得到策略网络输出的行动概率和价值网络输出的状态价值期望,所述策略网络和价值网络包括参数不同的量子全局时序编码线路,所述量子全局时序编码线路用于基于编码矩阵计算特征向量,所述行动概率和状态价值期望是基于所述特征向量确定的;
[0008]输出所述行动概率和状态价值期望,以指示基于所述行动概率和状态价值期望制定行动方案。
[0009]可选的,所述量子全局时序编码线路包括局部编码线路,所述局部编码线路包括局部加载线路、变分编码线路、重上传线路;所述局部加载线路、变分编码线路、重上传线路均包括作用于每个量子比特上的单量子逻辑门,所述变分编码线路还包括作用于两个量子比特上的CNOT门。
[0010]可选的,所述局部加载线路包括的单量子逻辑门的第一参数是基于所述一维向量的元素确定的,所述变分编码线路包括的单量子逻辑门的第二参数是基于训练确定的,所述重上传线路包括的单量子逻辑门的第三参数是基于所述一维向量的元素和第四参数确定的,所述第四参数是基于训练确定的。
[0011]可选的,所述编码矩阵包括l个具有n个时间节点的一维向量,所述量子全局时序编码线路包括m个局部编码线路,所述局部加载线路包括的ln/m个单量子逻辑门用于将编码矩阵中的ln/m个元素加载至量子比特,所述变分编码线路包括的单量子逻辑门和CNOT门用于对加载后的量子比特进行变分量子编码,所述重上传线路包括的单量子逻辑门用于重
上传编码后的量子比特,所述m个局部编码线路分别用于处理编码矩阵中的ln/m个元素,共同实现对编码矩阵的全局时序编码;所述l、n、m根据预先要求设定。
[0012]可选的,所述将所述编码矩阵输入至训练好的策略网络和价值网络之前,所述方法还包括:
[0013]随机生成策略函数的第一优化参数和价值函数的第二优化参数,得到待训练的策略网络、待训练的价值网络;
[0014]接收将作为训练决策数据并进行特征编码,得到训练编码矩阵,所述包括从环境中获取的数据;
[0015]基于所述训练编码矩阵和待训练的策略网络、待训练的价值网络确定D
×
T个训练行动概率、D
×
T个训练行动奖励、D
×
T个D
×
T个训练状态价值期望;
[0016]基于D
×
T个训练行动概率、D
×
T个训练行动奖励、D
×
T个D
×
T个训练状态价值期望确定训练好的策略网络和价值网络。
[0017]可选的,所述基于所述训练编码矩阵和待训练的策略网络、待训练的价值网络确定D
×
T个训练行动概率、D
×
T个训练行动奖励、D
×
T个D
×
T个训练状态价值期望,包括:
[0018]将训练编码矩阵输入至待训练的策略网络、待训练的价值网络,得到训练行动概率和训练状态价值期望,以指示基于所述训练行动概率和训练状态价值期望制定训练行动方案;
[0019]接收所述是基于所述训练行动方案确定的;
[0020]将所述作为新的以及执行步骤所述将作为训练决策数据;
[0021]迭代执行预设次数D
×
T,并将D
×
T次迭代按照预设要求划分成D组,每一组中迭代执行的次数均为T,得到D
×
T个训练行动概率、D
×
T个训练行动奖励、D
×
T个D
×
T个训练状态价值期望。
[0022]可选的,所述基于D
×
T个训练行动概率、D
×
T个训练行动奖励、D
×
T个D
×
T个训练状态价值期望确定训练好的策略网络和价值网络,包括:
[0023]基于D
×
T个训练行动概率、D
×
T个训练行动奖励、D
×
T个D
×
T个训练状态价值期望更新所述第一优化参数和第二优化参数;
[0024]将更新得到的所述第一优化参数和第二优化参数作为新的所述第一优化参数和第二优化参数;
[0025]基于新的所述第一优化参数和第二优化参数得到新的待训练的策略网络、待训练的价值网络,并执行所述接收
[0026]在迭代更新预设次数之后,得到训练好的策略网络和价值网络。
[0027]本申请的又一实施例提供了一种辅助决策装置,所述装置包括:
[0028]编码模块,用于对决策数据进行特征编码,得到编码矩阵;
[0029]数据处理模块,用于将所述编码矩阵输入至训练好的策略网络和价值网络,得到策略网络输出的行动概率和价值网络输出的状态价值期望,所述策略网络和价值网络包括参数不同的量子全局时序编码线路,所述量子全局时序编码线路用于基于编码矩阵计算特
征向量,所述行动概率和状态价值期望是基于所述特征向量确定的;
[0030]输出模块,用于输出所述行动概率和状态价值期望,以指示基于所述行动概率和状态价值期望制定行动方案。
[0031]本申请的又一实施例提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项中所述的方法。
[0032]本申请的又一实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项中所述的方法。
[0033]由于量子态具有量子叠加和量子纠缠的特性,同一个量子态可以表示出决策数据的多种特征,因此,本专利技术实施例提供的量子全局时序编码线路利用少量的量子态就可以学习数据中丰富的特征,减少对数据量的依赖性;与现有技术相比,本专利技术提供的一种辅助决策方法利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种辅助决策方法,其特征在于,所述方法包括:对决策数据进行特征编码,得到编码矩阵;将所述编码矩阵输入至训练好的策略网络和价值网络,得到策略网络输出的行动概率和价值网络输出的状态价值期望,所述策略网络和价值网络包括参数不同的量子全局时序编码线路,所述量子全局时序编码线路用于基于编码矩阵计算特征向量,所述行动概率和状态价值期望是基于所述特征向量确定的;输出所述行动概率和状态价值期望,以指示基于所述行动概率和状态价值期望制定行动方案。2.如权利要求1所述的方法,其特征在于,所述量子全局时序编码线路包括局部编码线路,所述局部编码线路包括局部加载线路、变分编码线路、重上传线路;所述局部加载线路、变分编码线路、重上传线路均包括作用于每个量子比特上的单量子逻辑门,所述变分编码线路还包括作用于两个量子比特上的CNOT门。3.如权利要求2所述的方法,其特征在于,所述局部加载线路包括的单量子逻辑门的第一参数是基于所述一维向量的元素确定的,所述变分编码线路包括的单量子逻辑门的第二参数是基于训练确定的,所述重上传线路包括的单量子逻辑门的第三参数是基于所述一维向量的元素和第四参数确定的,所述第四参数是基于训练确定的。4.如权利要求3所述的方法,其特征在于,所述编码矩阵包括l个具有n个时间节点的一维向量,所述量子全局时序编码线路包括m个局部编码线路,所述局部加载线路包括的ln/m个单量子逻辑门用于将编码矩阵中的ln/m个元素加载至量子比特,所述变分编码线路包括的单量子逻辑门和CNOT门用于对加载后的量子比特进行变分量子编码,所述重上传线路包括的单量子逻辑门用于重上传编码后的量子比特,所述m个局部编码线路分别用于处理编码矩阵中的ln/m个元素,共同实现对编码矩阵的全局时序编码;所述l、n、m根据预先要求设定。5.如权利要求1所述的方法,其特征在于,所述将所述编码矩阵输入至训练好的策略网络和价值网络之前,所述方法还包括:随机生成策略函数的第一优化参数和价值函数的第二优化参数,得到待训练的策略网络、待训练的价值网络;接收将作为训练决策数据并进行特征编码,得到训练编码矩阵,所述包括从环境中获取的数据;基于所述训练编码矩阵和待训练的策略网络、待训练的价值网络确定D
×
T个训练行动概率、D
×
T个训练行动奖励、D
×
T个D
×
T个训练状态价值期望;基于D
×
T个训练行动概率、D
×
T个训练行动奖励、D
×
T个D
×
T个训练状态价值期望确定训练好的策略网络和价值网络。6.如权利要求5所述的方法,其特征在于,所述基于所述训练编码矩阵和待训练的策略网...

【专利技术属性】
技术研发人员:请求不公布姓名窦猛汉请求不公布姓名请求不公布姓名
申请(专利权)人:本源量子计算科技合肥股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1