【技术实现步骤摘要】
一种基于强化学习的视触融合精细操作方法
本专利技术涉及航天器轨道控制方法,特别涉及一种基于强化学习的视触融合精细操作方法。
技术介绍
传统的在轨精细操作是基于手眼相机的视觉信号和压力传感器的压力信号实现对操作部位的插拔和切割等精细操作,视觉信号和触觉信息的分离导致信息的不完备,同时末端操作器的精细操控难以应对操作部位尺寸、形状等场景变化的空间操作任务,执行效率低、鲁棒性差、精度不足。因此,针对失效目标的在轨操作任务,提供一种基于强化学习的视触融合精细操作方法实为必要,用以解决视触融合和基于强化学习的精细操作问题。
技术实现思路
本专利技术的目的在于提供一种基于强化学习的视触融合精细操作方法,将视觉信号和触觉信号等不同模态的信号进行表征,实现视触信息融合,并基于视触融合信息开展基于强化学习精细操作技术研究,建立状态-动作对的映射关系,寻找得到操控目标的最优动作序列,提高在轨操控的控制精度和柔顺性,使操控平台具备一定的自主操作能力,实现对目标的精细操作。一种基于强化学习的视触融合精细操作方法,该方法包含以下步骤:S1、通过卷积神经网络对视觉信号进行处理,得到视觉表征的特征向量;S2、通过对触觉序列的分段、特征提取和聚类处理,得到触觉表征的特征向量;S3、基于视觉表征的特征向量和触觉表征的特征向量,并利用联合核稀疏编码,获得视触融合信息;S4、基于所述视触融合信息,采用DDPG算法,训练策略网络生成下一步的运动轨迹,训练价值网络来评价当前运动轨迹的优劣;通过与空间 ...
【技术保护点】
1.一种基于强化学习的视触融合精细操作方法,其特征在于,该方法包含以下步骤:/nS1、通过卷积神经网络对视觉信号进行处理,得到视觉表征的特征向量;/nS2、通过对触觉序列的分段、特征提取和聚类处理,得到触觉表征的特征向量;/nS3、基于视觉表征的特征向量和触觉表征的特征向量,并利用联合核稀疏编码,获得视触融合信息;/nS4、基于所述视触融合信息,采用DDPG算法,训练策略网络生成下一步的运动轨迹,训练价值网络来评价当前运动轨迹的优劣;通过与空间机器人操作系统环境的接触交互,获取指定任务的控制策略,实现动作序列的优化。/n
【技术特征摘要】
1.一种基于强化学习的视触融合精细操作方法,其特征在于,该方法包含以下步骤:
S1、通过卷积神经网络对视觉信号进行处理,得到视觉表征的特征向量;
S2、通过对触觉序列的分段、特征提取和聚类处理,得到触觉表征的特征向量;
S3、基于视觉表征的特征向量和触觉表征的特征向量,并利用联合核稀疏编码,获得视触融合信息;
S4、基于所述视触融合信息,采用DDPG算法,训练策略网络生成下一步的运动轨迹,训练价值网络来评价当前运动轨迹的优劣;通过与空间机器人操作系统环境的接触交互,获取指定任务的控制策略,实现动作序列的优化。
2.如权利要求1所述的基于强化学习的视触融合精细操作方法,其特征在于,
所述步骤S2中,进一步包含:
所述卷积神经网络是以原始图像数据作为输入,采用AlexNet网络模型中的结构参数,所述卷积神经网络包含卷积层、池化层和全连接层;
所述卷积层通过卷积核对输入层进行特征提取,所述卷积核对卷积神经网络的输入层进行扫描,对于每一个位置,输入层与卷积核的对应元素进行点积运算,得到该区域的局部特征,其中,卷积核对输入层每完成一遍扫描,完成一次卷积操作,得到一张特征图谱,多个卷积核分别将每次卷积操作得到的特征图谱依次排列,输出一个三维的卷积特征图谱,最终得到视觉图像的特征表示。
3.如权利要求1所述的基于强化学习的视触融合精细操作方法,其特征在于,
所述步骤S2中,进一步包含:
所述触觉序列的分段是指在得到触觉序列化的动态数据的基础上,对其进行整体建模,在时间维度将触觉序列进行切分建模,将触觉序列划分为一系列子触觉序列。
4.如权利要求3所述的基于强化学习的视触融合精细操作方法,其特征在于,
所述触觉序列的特征提取进一步包含:
基于线性动态系统的方法对每组子触觉序列进行特征提取,线性动态系统的表达式如下:
x(t+1)=Ax(t)+Bv(t)
y(t)=Cx(t)+w(t)
其中,x(t)∈Rp为t时刻的隐状态序列;y(t)为t时刻的系统实际输出值;A∈Rn×n为隐状态动态矩阵,C∈Rp×n为系统的隐状态输出矩阵,w(t)~N(0,R),Bv(t)~N(0,Q)分别表示估计值和状态噪声;观测矩阵元组(A,C)分别刻画系统的动态性和空间形态,将其作为输入触觉序列的特征描...
【专利技术属性】
技术研发人员:孙俊,武海雷,孙玥,楚中毅,韩飞,朱文山,
申请(专利权)人:上海航天控制技术研究所,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。