【技术实现步骤摘要】
一种虚实无缝迁移方法、系统、电子设备及介质
[0001]本专利技术涉及表征学习和强化学习
,特别是涉及一种虚实无缝迁移方法、系统、电子设备及介质。
技术介绍
[0002]强化学习的应用落地是强化学习领域的一个重要研究课题。由于强化学习为了安全、高效的考虑,一般需要在虚拟仿真场景中学习策略,所以虚实迁移、高维观测样本的高效利用与策略的泛化性是强化学习应用落地的难点问题。目前主要将表征学习方法与强化学习方法结合来提高样本利用率与策略泛化性从而实现虚实无缝迁移。
[0003]带有孪生网络的表征学习是目前较为通用的自监督表征架构,通常以两个或多个具有相同语义的增强后的数据作为输入,经过具有相同架构的孪生编码器,输出低维表征信息。基于对比的表征方法会根据低维表征的相似程度,拉近同语义的表征,远离不同语义的表征;基于提升的表征方法同样只根据低维表征的相似程度,拉近同语义表征的距离。带有孪生网络的表征学习可以使编码器忽略高维原始数据的表面因素并学习数据的内部一致信息,例如遮挡不变性、旋转不变性和颜色不变性。
[0004]但是将带有表征学习与强化学习作为两个独立的子模块分别训练会造成如下问题:
[0005]1、表征学习的损失尝试将同语义高维观测映射到同一低维空间,但基于奖励反馈的强化学习损失会拉开低维表征的距离,导致价值网络会学习到一些过拟合特征来区别这些不同的低维表征。
[0006]2、与强化学习分开训练的表征网络会丢失与任务决策相关的特征,导致策略泛化性差。
技术实现思路
[ ...
【技术保护点】
【技术特征摘要】
1.一种虚实无缝迁移方法,其特征在于,所述方法包括:获取虚拟环境下智能体与环境的交互数据;所述交互数据包括当前状态的观测、动作、下一状态的观测和奖励值;其中,所述动作是根据所述当前状态的观测,经过表征网络和决策网络的选择后得到的;所述下一状态的观测和所述奖励值是根据所述动作确定的;所述观测包括图像数据和雷达数据;对所述当前状态的观测进行数据增强,得到增强后的观测;将所述增强后的观测输入孪生表征网络进行降维,得到向量化状态数据;所述孪生表征网络包括所述表征网络和与所述表征网络架构相同参数不同的目标表征网络;将所述向量化状态数据和对应的动作输入孪生价值网络,得到对应的价值;所述孪生价值网络包括价值网络和与所述价值网络架构相同参数不同的目标价值网络;根据所述向量化状态数据、所述对应的价值和所述下一状态的观测,构造表征损失函数;根据所述表征损失函数,应用梯度下降法,对所述孪生表征网络、所述孪生价值网络和所述决策网络进行训练,并记录总的训练次数;判断所述总的训练次数是否大于预设阈值;当所述总的训练次数小于等于预设阈值时,重新获取虚拟环境下智能体与环境的交互数据,继续训练;当所述总的训练次数大于预设阈值时,得到训练好的表征网络和训练好的决策网络;获取真实环境下的当前状态的观测,并将真实环境下的所述当前状态的观测输入至所述训练好的表征网络和训练好的决策网络,得到响应于真实环境下的所述当前状态的观测的动作。2.根据权利要求1所述的虚实无缝迁移方法,其特征在于,所述获取智能体与环境的交互数据,具体包括:获取所述智能体在所述环境的当前状态的观测;向所述智能体的表征网络输入所述当前状态的观测,所述表征网络用于对所述当前状态的观测进行降维;向所述智能体的决策网络输入降维后的当前状态的观测,所述决策网络用于生成响应于所述当前状态的观测的动作;利用所述智能体向所述环境输出所述动作;利用所述智能体从所述环境获取响应于所述动作的下一个状态的观测和奖励值,并将所述当前状态的观测、所述动作、所述下一个状态的观测和所述奖励值作为交互数据。3.根据权利要求1所述的虚实无缝迁移方法,其特征在于,对所述当前状态的观测进行数据增强,得到增强后的观测,具体包括:应用第一增强算法对所述当前状态的观测进行数据增强,得到第一增强后的观测;应用第二增强算法对所述当前状态的观测进行数据增强,得到第二增强后的观测,并将所述第一增强后的观测和所述第二增强后的观测作为增强后的观测;所述数据增强算法包括图像数据增强算法和雷达数据增强算法;所述图像数据增强算法包括图像椒盐噪声增强、图像高斯增强、图像高斯模糊和图像随机剪裁;所述雷达数据增强算法为雷达射线随机失效;所述第一增强算法为图像数据增强算法中的一种或者所述雷达数据增强算法;所述
第二增强算法为图像数据增强算法中的一种或者所述雷达数据增强算法并且所述第一增强算法和所述第二增强算法采用的是不同的算法。4.根据权利要求3所述的虚实无缝迁移方法,其特征在于,将所述增强后的观测输入孪生表征网络进行降维,得到向量化状态数据,具体包括:将所述第一增强后的图像观测输入所述表征网络进行降维,得到第一向量化状态数据;将所述第一增强后的雷达观测输入所述表征网络进行降维,得到第二向量化状态数据;将所述第一向量化状态数据和所述第二向量化状态数据进行拼接,得到第三向量化状态数据;将所述第二增强后的图像观测输入所述目标表征网络进行降维,得到第四向量化状态数据;将所述第二增强后的雷达观测输入所述目标表征网络进行降维,得到第五向量化状态数据;将所述第四向量化状态数据和所述第五向量化状态数据进行拼接,得到第六向量化状态数据,并以所述第三向量化状态数据和所述第六向量化状态数据作为向量化状态数据。5.根据权利要求4所述的虚实无缝迁移方法,其特征在于,所述表征网络和所述目标表征网络所述表征网络均采用二维卷积神经网络对所述第一增强后的观测和所述第二增强后的观测中的图像数据进降维;所述表征网络和所述目标表征网络所述表征网络均采用一维卷积神经网络对所述第一增强后的观测和所述第二增强后的观测中的雷达数据进降维。6.根据权利要求4所述的虚实无缝迁移方法,其特征在于,根据所述向量化状态数据、所述对应的价值和所述下一状态的观测,构造表征损失函数,具体包括:应用对比学习方法,构造表征损失:sim(c,b)=c
T
b;其中,sim()为采用向量点积的相似度计算函数,x
i
为第i组交互数据的第...
【专利技术属性】
技术研发人员:骆祥峰,张朕煜,谢少荣,王欣芝,逄涛,徐宏,高明柯,
申请(专利权)人:华东计算技术研究所中国电子科技集团公司第三十二研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。