一种基于强化学习的视触融合精细操作方法技术

技术编号:24322654 阅读:41 留言:0更新日期:2020-05-29 17:11
本发明专利技术公开了一种基于强化学习的视触融合精细操作方法,包含:通过卷积神经网络对视觉信号进行处理,得到视觉表征的特征向量;通过对触觉序列的分段、特征提取和聚类处理,得到触觉表征的特征向量;利用联合核稀疏编码,获得视触融合信息;基于视触融合信息,采用DDPG算法,训练策略网络生成下一步的运动轨迹,并训练值函数网络来评价当前运动轨迹的优劣;通过与环境的接触交互,获取指定任务的控制策略,实现动作序列的优化。本发明专利技术使机器人能够获得更加全面的外界信息,提高机器人的信息感知和精细操作精度以及任务决策的正确率等,为失效目标的在轨模块更换、帆板辅助展开等操作任务提供了技术支撑。

【技术实现步骤摘要】
一种基于强化学习的视触融合精细操作方法
本专利技术涉及航天器轨道控制方法,特别涉及一种基于强化学习的视触融合精细操作方法。
技术介绍
传统的在轨精细操作是基于手眼相机的视觉信号和压力传感器的压力信号实现对操作部位的插拔和切割等精细操作,视觉信号和触觉信息的分离导致信息的不完备,同时末端操作器的精细操控难以应对操作部位尺寸、形状等场景变化的空间操作任务,执行效率低、鲁棒性差、精度不足。因此,针对失效目标的在轨操作任务,提供一种基于强化学习的视触融合精细操作方法实为必要,用以解决视触融合和基于强化学习的精细操作问题。
技术实现思路
本专利技术的目的在于提供一种基于强化学习的视触融合精细操作方法,将视觉信号和触觉信号等不同模态的信号进行表征,实现视触信息融合,并基于视触融合信息开展基于强化学习精细操作技术研究,建立状态-动作对的映射关系,寻找得到操控目标的最优动作序列,提高在轨操控的控制精度和柔顺性,使操控平台具备一定的自主操作能力,实现对目标的精细操作。一种基于强化学习的视触融合精细操作方法,该方法包含以下步骤:S1、通过卷积神经网络对视觉信号进行处理,得到视觉表征的特征向量;S2、通过对触觉序列的分段、特征提取和聚类处理,得到触觉表征的特征向量;S3、基于视觉表征的特征向量和触觉表征的特征向量,并利用联合核稀疏编码,获得视触融合信息;S4、基于所述视触融合信息,采用DDPG算法,训练策略网络生成下一步的运动轨迹,训练价值网络来评价当前运动轨迹的优劣;通过与空间机器人操作系统环境的接触交互,获取指定任务的控制策略,实现动作序列的优化。优选地,所述步骤S2中,进一步包含:所述卷积神经网络是以原始图像数据作为输入,采用AlexNet网络模型中的结构参数,所述卷积神经网络包含卷积层、池化层和全连接层;所述卷积层通过卷积核对输入层进行特征提取,所述卷积核对卷积神经网络的输入层进行扫描,对于每一个位置,输入层与卷积核的对应元素进行点积运算,得到该区域的局部特征,其中,卷积核对输入层每完成一遍扫描,完成一次卷积操作,得到一张特征图谱,多个卷积核分别将每次卷积操作得到的特征图谱依次排列,输出一个三维的卷积特征图谱,最终得到视觉图像的特征表示。优选地,所述步骤S2中,进一步包含:所述触觉序列的分段是指在得到触觉序列化的动态数据的基础上,对其进行整体建模,在时间维度将触觉序列进行切分建模,将触觉序列划分为一系列子触觉序列。优选地,所述触觉序列的特征提取进一步包含:基于线性动态系统的方法对每组子触觉序列进行特征提取,线性动态系统的表达式如下:x(t+1)=Ax(t)+Bv(t)y(t)=Cx(t)+w(t)其中,x(t)∈Rp为t时刻的隐状态序列;y(t)为t时刻的系统实际输出值;A∈Rn×n为隐状态动态矩阵,C∈Rp×n为系统的隐状态输出矩阵,w(t)~N(0,R),Bv(t)~N(0,Q)分别表示估计值和状态噪声;观测矩阵元组(A,C)分别刻画系统的动态性和空间形态,将其作为输入触觉序列的特征描述子,在求得特征描述子后使用马丁距离作为度量计算动态特征(A,C)之间的距离。优选地,所述触觉序列的聚类处理进一步包含:在求得特征描述子后使用马丁距离作为度量计算动态特征(A,C)之间的距离后,使用K-Medoid算法进行聚类,计算出特征描述子与各自聚类中心之间的最小距离,在此基础上进行分组,将多个聚类中心和分组构建为码书,每组特征描述子(A,C)被称为码词;使用码书对触觉序列表征得到系统包模型,由特征词频率算法统计码词在码书中的分布特点,并形成特征向量;当在第i组触觉序列,第j组码词出现的次数为cij次,则有:其中,m为触觉序列个数;k为聚类中心点个数;hij表示在第i组触觉序列,第j组码词出现的频率,即提取的一组触觉特征向量。优选地,所述步骤S3中进一步包含:深度稀疏编码方法挖掘不同模态的潜在子空间描述形式,并建立联合核稀疏编码来对多模态信息进行联合建模,融合不同模态信息的相容部分,并剔除不相容部分;核稀疏编码通过建立一个高维特征空间,取代原来的空间,以便从字典中捕捉信号的非线性结构,具体如下:当编码之前有M个模态信息,Nm是训练样本的个数,Mm代表第m个模态数据特征描述,m=1,2,…M;用映射函数将训练样本映射到一个更高维空间,将φm(·):Mm→Hm作为从Mm映射到高维积空间Hm的隐式非线性映射,则φm(Om)称为高维空间的字典,且将联合核稀疏编码放松为组联合核稀疏编码,要求对应同一个组内的元素被同时激活。优选地,所述步骤S4中的DDPG算法包含策略网络和价值网络,所述策略网络包括策略估计网络和策略现实网络,所述策略估计网络用于输出实时的动作,供所述策略现实网络使用,所述策略现实网络用于更新价值网络;所述价值网络包括价值估计网络和价值现实网络,均是用于输出当前状态的价值,所述价值估计网络的输入是当前策略施加动作;所述策略估计网络和所述价值估计网络用于产生训练数据集,所述策略现实网络和所述价值现实网络用于训练优化网络参数。与现有技术相比,本专利技术的有益效果在于:本专利技术利用触觉和视觉的多模态信息之间的冗余性和互补性,使得机器人能够获得更加全面的外界信息,并基于强化学习进行柔性灵巧手的精细操作训练,提高机器人的信息感知和精细操作精度以及任务决策的正确率等,为失效目标的在轨模块更换、帆板辅助展开等操作任务提供了技术支撑。附图说明图1为本专利技术的视触融合状态感知流程图;图2为本专利技术的基于强化学习的精细操作任务流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1-图2结合所示,本专利技术提供了一种基于强化学习的视触融合精细操作方法,主要包括视触融合和基于强化学习的视触融合精细操作,包括如下步骤:S1、通过卷积神经网络对视觉信号进行处理,得到视觉表征的特征向量。所述步骤S1中,所述卷积神经网络包含卷积层、池化层和全连接层。示例地,所述卷积神经网络的结构采用AlexNet网络模型中的结构参数,包含五层卷积层、三层池化层和两层全连接层。具体地,卷积层通过卷积核对输入层进行特征提取,卷积核对神经网络输入层进行扫描,对于每一个位置,输入层与卷积核的对应元素进行点积运算,得到该区域的局部特征。卷积核对输入层每完成一遍扫描,即完成一次卷积操作,得到一张特征图谱;对于多个卷积核,将每次卷积操作得到的特征图谱依次排列,输出一个三维的卷积特征图谱。分别在第1、2和5层卷积层后加入步长为2的最大值池本文档来自技高网...

【技术保护点】
1.一种基于强化学习的视触融合精细操作方法,其特征在于,该方法包含以下步骤:/nS1、通过卷积神经网络对视觉信号进行处理,得到视觉表征的特征向量;/nS2、通过对触觉序列的分段、特征提取和聚类处理,得到触觉表征的特征向量;/nS3、基于视觉表征的特征向量和触觉表征的特征向量,并利用联合核稀疏编码,获得视触融合信息;/nS4、基于所述视触融合信息,采用DDPG算法,训练策略网络生成下一步的运动轨迹,训练价值网络来评价当前运动轨迹的优劣;通过与空间机器人操作系统环境的接触交互,获取指定任务的控制策略,实现动作序列的优化。/n

【技术特征摘要】
1.一种基于强化学习的视触融合精细操作方法,其特征在于,该方法包含以下步骤:
S1、通过卷积神经网络对视觉信号进行处理,得到视觉表征的特征向量;
S2、通过对触觉序列的分段、特征提取和聚类处理,得到触觉表征的特征向量;
S3、基于视觉表征的特征向量和触觉表征的特征向量,并利用联合核稀疏编码,获得视触融合信息;
S4、基于所述视触融合信息,采用DDPG算法,训练策略网络生成下一步的运动轨迹,训练价值网络来评价当前运动轨迹的优劣;通过与空间机器人操作系统环境的接触交互,获取指定任务的控制策略,实现动作序列的优化。


2.如权利要求1所述的基于强化学习的视触融合精细操作方法,其特征在于,
所述步骤S2中,进一步包含:
所述卷积神经网络是以原始图像数据作为输入,采用AlexNet网络模型中的结构参数,所述卷积神经网络包含卷积层、池化层和全连接层;
所述卷积层通过卷积核对输入层进行特征提取,所述卷积核对卷积神经网络的输入层进行扫描,对于每一个位置,输入层与卷积核的对应元素进行点积运算,得到该区域的局部特征,其中,卷积核对输入层每完成一遍扫描,完成一次卷积操作,得到一张特征图谱,多个卷积核分别将每次卷积操作得到的特征图谱依次排列,输出一个三维的卷积特征图谱,最终得到视觉图像的特征表示。


3.如权利要求1所述的基于强化学习的视触融合精细操作方法,其特征在于,
所述步骤S2中,进一步包含:
所述触觉序列的分段是指在得到触觉序列化的动态数据的基础上,对其进行整体建模,在时间维度将触觉序列进行切分建模,将触觉序列划分为一系列子触觉序列。


4.如权利要求3所述的基于强化学习的视触融合精细操作方法,其特征在于,
所述触觉序列的特征提取进一步包含:
基于线性动态系统的方法对每组子触觉序列进行特征提取,线性动态系统的表达式如下:
x(t+1)=Ax(t)+Bv(t)
y(t)=Cx(t)+w(t)
其中,x(t)∈Rp为t时刻的隐状态序列;y(t)为t时刻的系统实际输出值;A∈Rn×n为隐状态动态矩阵,C∈Rp×n为系统的隐状态输出矩阵,w(t)~N(0,R),Bv(t)~N(0,Q)分别表示估计值和状态噪声;观测矩阵元组(A,C)分别刻画系统的动态性和空间形态,将其作为输入触觉序列的特征描...

【专利技术属性】
技术研发人员:孙俊武海雷孙玥楚中毅韩飞朱文山
申请(专利权)人:上海航天控制技术研究所
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1