【技术实现步骤摘要】
一种智能体导航方法、装置、存储介质及电子装置
[0001]本申请属于量子计算
,特别是涉及一种智能体导航方法、装置、存储介质及电子装置。
技术介绍
[0002]量子计算机是一类遵循量子力学规律进行高速数学和逻辑运算、存储及处理量子信息的物理装置。当某个装置处理和计算的是量子信息,运行的是量子算法时,它就是量子计算机。量子计算机因其具有相对普通计算机更高效的处理数学问题的能力,例如,能将破解RSA密钥的时间从数百年加速到数小时,故成为一种正在研究中的关键技术。
[0003]强化学习是机器学习的一个分支,相比于机器学习经典的有监督学习和无监督学习,强化学习最大的特点是在交互中学习(Learning from Interaction),智能体(Agent)在与地图环境的交互中根据获得的奖励或惩罚不断的学习知识,使得智能体可以在当前地图环境中寻找到通往目标位置的路径。目前的强化学习方法都是基于经典计算机实现的,模型计算复杂度较高,参数量较多,强化学习模型的运行效率较低,所以智能体基于经典计算机实现的强化学习网络寻找到通 ...
【技术保护点】
【技术特征摘要】
1.一种智能体导航方法,其特征在于,所述方法包括:将智能体的初始位置输入变分量子线路中,得到所述智能体的多个奖励值;所述变分量子线路是基于所述智能体所在的地图中训练得到,所述地图中包括至少一个障碍物;根据所述多个奖励值对所述智能体进行移动操作,确定所述智能体的当前位置;若当前位置不是目标位置,则将所述当前位置作为所述初始位置,并返回执行所述将所述智能体的初始位置输入变分量子线路中,得到所述智能体的多个奖励值,直至所述智能体移动到目标位置。2.根据权利要求1所述的方法,其特征在于,奖励值与移动操作一一对应;所述根据所述多个奖励值对所述智能体进行移动操作,确定所述智能体的当前位置,包括:确定所述多个奖励值中的最大奖励值,基于最大奖励值对应的移动操作对所述智能体进行移动操作,确定所述智能体的当前位置。3.根据权利要求1或2所述的方法,其特征在于,所述将智能体的初始位置输入变分量子线路中,得到所述智能体的多个奖励值之前,所述方法还包括:对所述智能体所在的地图的每一位置进行二进制编码;根据所述智能体所在位置的二进制编码,得到所述智能体的初始位置。4.根据权利要求3所述的方法,其特征在于,所述量子线路包括:编码层、含参变分层和测量层;所述将智能体的初始位置输入变分量子线路中,得到所述智能体的多个奖励值,包括:基于所述编码层将所述初始位置编码至预设数量个量子比特上;基于所述含参变分层对编码后的预设数量个量子比特进行量子态演化;基于所述测量层对演化后每一量子比特的量子态进行测量,计算每一量子态期望值,得到多个奖励值。5.根据权利要求3所述的方法,其特征在于,所述编码层包括依次作用于每一量子比特的第一RX门和第一R...
【专利技术属性】
技术研发人员:窦猛汉,请求不公布姓名,请求不公布姓名,
申请(专利权)人:本源量子计算科技合肥股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。