一种基于光子神经网络的路径规划设备及路径规划方法技术

技术编号:29252672 阅读:24 留言:0更新日期:2021-07-13 17:22
本发明专利技术实施例提供了一种基于光子神经网络的路径规划设备及路径规划方法,可以先基于待规划路径的场景中的历史状态信息,来得到对应的历史操作价值,进而基于历史状态信息对应的历史操作信息以及对应的历史操作价值,对光子神经网络模型进行训练,得到训练完成的光子神经网络模型;最后,将待规划路径的场景中的当前状态信息输入至训练完成的光子神经网络模型中,可以得到该训练完成的光子神经网络模型输出的路径规划设备的路径规划信息。在本发明专利技术实施例中,由于光子神经网络在处理线性运算时可以以光速进行,而且能耗小,因此,采用光子神经网络模型进行路径规划,可以缩短路径规划过程中的时间开销,提高了路径规划的效率。

【技术实现步骤摘要】
一种基于光子神经网络的路径规划设备及路径规划方法
本专利技术涉及通信
,特别是涉及一种基于光子神经网络的路径规划设备及路径规划方法。
技术介绍
近几十年,人工智能领域取得了前所未有的发展,而机器学习是人工智能领域的核心,是使机器具有智能的根本途径。通过机器学习,可以使得机器由最初完成简单的数据分类任务发展到可以实现更为复杂的任务,例如,使用强化学习方法进行路径规划,其中,强化学习方法是一种借鉴“经验”的闭环学习方法,其主要是通过智能体与环境之间不断地进行信息交互,从而达到自主学习的过程。然而,专利技术人发现,现有技术中的强化学习方法均应用于电子设备,但是,现有的电子设备在进行路径规划时需要执行复杂矩阵乘法,而该电子设备在执行复杂矩阵乘法时需要消耗大量计算时间,不能进一步降低路径规划的时间开销。
技术实现思路
本专利技术实施例的目的在于提供一种基于光子神经网络的路径规划设备及路径规划方法,以降低路径规划的时间开销,提高路径规划的效率。具体技术方案如下:第一方面,本专利技术实施例提供了一种基于光子神经网络的路径规划设备,该设备包括:判决模块、临时存储器以及光子神经网络模块,临时存储器分别与判决模块和光子神经网络模块连接,判决模块还与光子神经网络模块连接;判决模块,用于获取待规划路径的场景中的历史状态信息,并基于历史状态信息,确定对应的历史操作信息,其中,历史状态信息包括:路径规划设备的历史位置信息、历史目标位置信息、历史障碍物位置信息,历史操作信息为对路径规划设备进行移动的操作;临时存储器,用于获取基于待规划路径的场景对历史操作信息作出的历史奖励值,并基于历史操作信息以及对应的历史奖励值,确定历史操作信息对应的历史操作价值;光子神经网络模块,用于获取多个历史操作信息以及对应的多个历史操作价值,并基于多个历史操作信息和对应的多个历史操作价值,对光子神经网络模型进行训练,得到训练完成的光子神经网络模型;光子神经网络模块,还用于获取待规划路径的场景中的当前状态信息,并将当前状态信息输入至训练完成的光子神经网络模型中,得到训练完成的光子神经网络模型输出的路径规划设备的路径规划信息。可选的,判决模块,具体用于:基于历史状态信息、随机判决概率与对应的衰减系数,确定对应的历史操作信息。可选的,判决模块,具体用于:基于所述随机判决概率对应的衰减系数对所述随机判决概率进行衰减;在衰减后的随机判决概率大于预设阈值时,随机选择与所述历史状态信息对应的历史操作信息;在所述衰减后的随机判决概率小于或等于所述预设阈值时,获取所述光子神经网络模型基于所述历史状态信息输出的不同操作信息对应的第一预测操作价值;并在所述不同操作信息中,选择最大的第一预测操作价值对应的操作信息作为所述历史状态信息对应的历史操作信息。可选的,光子神经网络模型为基于马赫-曾德尔干涉仪的多层光子神经网络;光子神经网络模块,具体用于将多个历史操作信息对应的光信号输入至多层光子神经网络,得到多层光子神经网络基于多个历史操作信息输出的第二预测操作价值;光子神经网络模块,还用于基于第二预测操作价值和多个历史操作信息对应的多个历史操作价值,调整光子神经网络的权值,以对光子神经网络模型进行训练,并得到训练完成的光子神经网络模型。可选的,临时存储器,还用于存储历史操作信息以及对应的历史操作价值;光子神经网络模块,具体用于获取临时存储器中存储的多个历史操作信息以及对应的多个历史操作价值,并基于多个历史操作信息和对应的多个历史操作价值,对光子神经网络模型进行训练,得到训练完成的光子神经网络模型。第二方面,本专利技术实施例还提供了一种基于光子神经网络的路径规划方法,应用于基于光子神经网络的路径规划设备,设备包括:判决模块、临时存储器以及光子神经网络模块,临时存储器分别与判决模块和光子神经网络模块连接,判决模块还与光子神经网络模块连接;该方法包括:判决模块获取待规划路径的场景中的历史状态信息,并基于历史状态信息,确定对应的历史操作信息,其中,历史状态信息包括:路径规划设备的历史位置信息、历史目标位置信息、历史障碍物位置信息,历史操作信息为对路径规划设备进行移动的操作;临时存储器获取基于待规划路径的场景对历史操作信息作出的历史奖励值,并基于历史操作信息以及对应的历史奖励值,确定历史操作信息对应的历史操作价值;光子神经网络模块获取多个历史操作信息以及对应的多个历史操作价值,并基于多个历史操作信息和对应的多个历史操作价值,对光子神经网络模型进行训练,得到训练完成的光子神经网络模型;光子神经网络模块获取待规划路径的场景中的当前状态信息,并将当前状态信息输入至训练完成的光子神经网络模型中,得到训练完成的光子神经网络模型输出的路径规划设备的路径规划信息。可选的,基于历史状态信息,确定对应的历史操作信息,包括:基于历史状态信息、随机判决概率与对应的衰减系数,确定对应的历史操作信息。可选的,基于历史状态信息、随机判决概率与对应的衰减系数,确定对应的历史操作信息,包括:基于随机判决概率对应的衰减系数对随机判决概率进行衰减;在衰减后的随机判决概率大于预设阈值时,随机选择与历史状态信息对应的历史操作信息;在衰减后的随机判决概率小于或等于预设阈值时,获取光子神经网络模型基于历史状态信息输出的不同操作信息对应的第一预测操作价值;并在不同操作信息中,选择最大的第一预测操作价值对应的操作信息作为历史状态信息对应的历史操作信息。可选的,光子神经网络模型为基于马赫-曾德尔干涉仪的多层光子神经网络;基于多个历史操作信息和对应的历史操作价值,对光子神经网络模型进行训练,得到训练完成的光子神经网络模型,包括:将多个历史操作信息对应的光信号输入至多层光子神经网络,得到多层光子神经网络基于多个历史操作信息输出的第二预测操作价值;基于第二预测操作价值和多个历史操作信息对应的多个历史操作价值,调整光子神经网络的权值,以对光子神经网络模型进行训练,并得到训练完成的光子神经网络模型。可选的,在基于历史操作信息以及对应的历史奖励值,确定历史操作信息对应的历史操作价值之后,该方法还包括:临时存储器将历史操作信息以及对应的历史操作价值存储至临时存储器;光子神经网络模块获取多个历史操作信息以及对应的多个历史操作价值,并基于多个历史操作信息和对应的多个历史操作价值,对光子神经网络模型进行训练,得到训练完成的光子神经网络模型,包括:光子神经网络模块获取临时存储器中存储的多个历史操作信息以及对应的多个历史操作价值,并基于多个历史操作信息和对应的多个历史操作价值,对光子神经网络模型进行训练,得到训练完成的光子神经网络模型。本专利技术实施例有益效果:本专利技术实施例提供的一种基于光子神经网络的路径规划设备及路径规划方法,可以先基于待规划路径的场景中的历史状态信息,来得到对应的历史操作价值,进而基于本文档来自技高网...

【技术保护点】
1.一种基于光子神经网络的路径规划设备,其特征在于,所述设备包括:判决模块、临时存储器以及光子神经网络模块,所述临时存储器分别与所述判决模块和所述光子神经网络模块连接,所述判决模块还与所述光子神经网络模块连接;/n所述判决模块,用于获取待规划路径的场景中的历史状态信息,并基于所述历史状态信息,确定对应的历史操作信息,其中,所述历史状态信息包括:所述路径规划设备的历史位置信息、历史目标位置信息、历史障碍物位置信息,所述历史操作信息为对所述路径规划设备进行移动的操作;/n所述临时存储器,用于获取基于所述待规划路径的场景对所述历史操作信息作出的历史奖励值,并基于所述历史操作信息以及对应的历史奖励值,确定所述历史操作信息对应的历史操作价值;/n所述光子神经网络模块,用于获取多个所述历史操作信息以及对应的多个历史操作价值,并基于多个所述历史操作信息和对应的多个所述历史操作价值,对光子神经网络模型进行训练,得到训练完成的光子神经网络模型;/n所述光子神经网络模块,还用于获取所述待规划路径的场景中的当前状态信息,并将所述当前状态信息输入至所述训练完成的光子神经网络模型中,得到所述训练完成的光子神经网络模型输出的所述路径规划设备的路径规划信息。/n...

【技术特征摘要】
1.一种基于光子神经网络的路径规划设备,其特征在于,所述设备包括:判决模块、临时存储器以及光子神经网络模块,所述临时存储器分别与所述判决模块和所述光子神经网络模块连接,所述判决模块还与所述光子神经网络模块连接;
所述判决模块,用于获取待规划路径的场景中的历史状态信息,并基于所述历史状态信息,确定对应的历史操作信息,其中,所述历史状态信息包括:所述路径规划设备的历史位置信息、历史目标位置信息、历史障碍物位置信息,所述历史操作信息为对所述路径规划设备进行移动的操作;
所述临时存储器,用于获取基于所述待规划路径的场景对所述历史操作信息作出的历史奖励值,并基于所述历史操作信息以及对应的历史奖励值,确定所述历史操作信息对应的历史操作价值;
所述光子神经网络模块,用于获取多个所述历史操作信息以及对应的多个历史操作价值,并基于多个所述历史操作信息和对应的多个所述历史操作价值,对光子神经网络模型进行训练,得到训练完成的光子神经网络模型;
所述光子神经网络模块,还用于获取所述待规划路径的场景中的当前状态信息,并将所述当前状态信息输入至所述训练完成的光子神经网络模型中,得到所述训练完成的光子神经网络模型输出的所述路径规划设备的路径规划信息。


2.根据权利要求1所述的设备,其特征在于,所述判决模块,具体用于:
基于所述历史状态信息、随机判决概率与对应的衰减系数,确定对应的历史操作信息。


3.根据权利要求2所述的设备,其特征在于,所述判决模块,具体用于:
基于所述随机判决概率对应的衰减系数对所述随机判决概率进行衰减;
在衰减后的随机判决概率大于预设阈值时,随机选择与所述历史状态信息对应的历史操作信息;
在所述衰减后的随机判决概率小于或等于所述预设阈值时,获取所述光子神经网络模型基于所述历史状态信息输出的不同操作信息对应的第一预测操作价值;并在所述不同操作信息中,选择最大的第一预测操作价值对应的操作信息作为所述历史状态信息对应的历史操作信息。


4.根据权利要求1所述的设备,其特征在于,所述光子神经网络模型为基于马赫-曾德尔干涉仪的多层光子神经网络;
所述光子神经网络模块,具体用于将所述多个历史操作信息对应的光信号输入至所述多层光子神经网络,得到所述多层光子神经网络基于所述多个历史操作信息输出的第二预测操作价值;
所述光子神经网络模块,还用于基于所述第二预测操作价值和多个所述历史操作信息对应的多个所述历史操作价值,调整所述光子神经网络的权值,以对所述光子神经网络模型进行训练,并得到训练完成的光子神经网络模型。


5.根据权利要求1所述的设备,其特征在于,所述临时存储器,还用于存储所述历史操作信息以及对应的历史操作价值;
所述光子神经网络模块,具体用于获取所述临时存储器中存储的多个所述历史操作信息以及对应的多个历史操作价值,并基于多个所述历史操作信息和对应的多个所述历史操作价值,对光子神经网络模型进行训练,得到训练完成的光子神经网络模型。


6.一种基于光子神经网络的路径规划方法,其特征在于,应用于基于光子神经网络的路径规划设备,所述设备包括:判决模块、临时存储器以及光子神经网络模块,所述临时存储器分别与所述判决模块和所述光子神经网络模块连接,所述判决模块还与所述光子神经网络模块连...

【专利技术属性】
技术研发人员:张天胡富荣杨志伟赵婉玉戴键徐坤
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1