双向融合机制下基于多模态数据特征提取与机器人的位姿估计方法技术

技术编号:31309709 阅读:16 留言:0更新日期:2021-12-12 21:37
本发明专利技术涉及一种双向融合机制下基于多模态数据特征提取与机器人的位姿估计方法,是针对现有同类方法较难应用和效果较差的技术问题而设计。该方法的步骤如下:步骤(1)双层融合机制下基于双层CNN

【技术实现步骤摘要】
双向融合机制下基于多模态数据特征提取与机器人的位姿估计方法


[0001]本专利技术涉及机器人的数据提取,是一种双向融合机制下基于多模态数据特征提取与机器人的位姿估计方法。

技术介绍

[0002]目前,机器人在位姿估计时一般使用单张图片或者单个周期的点云数据,上述方法使机器人对场景边界识别能力较弱,场景特征表征不足,容易导致机器人位姿估计精度较低。另一些采用三阶段式或6D式,如中国专利文献中披露的申请号201810757384.X,申请公布日2019.02.05,专利技术名称“一种三阶段式点云配准方法的移动机器人V

SLAM方法”;再如中国专利文献中披露的申请号202110443857.0,申请公布日2021.06.25,专利技术名称“基于模板匹配的无纹理平面结构工业零件识别和6D位姿估计方法”;但上述方法过于复杂,较难实现和操作,其工作原理和方法有待进一步改进。

技术实现思路

[0003]为克服上述不足,本专利技术的目的是向本领域提供一种双向融合机制下基于多模态数据特征提取与机器人的位姿估计方法,使其主要解决现有同类方法较难应用,以及应用效果较差的技术问题。其目的是通过如下技术方案实现的。
[0004]一种双向融合机制下基于多模态数据特征提取与机器人的位姿估计方法,该方法根据机器人多帧视觉图片和多个周期点云数据,分别对多帧视觉图片和多个周期的点云数据在每个时间序列中进行加权融合以实现机器人对场景语义特征的理解;利用关键点的信息,简化关键点算法,实现机器人位姿估计;其特征在于该方法的具体步骤如下:步骤(1)双层融合机制下基于双层CNN

BIGRU的场景理解和场景边界识别采用对多帧图片数据和多周期点云数据分别机型CNN

BIGRU的场景理解;首先,采用embedding层对图片/数据转换成特征向量矩阵;其次,将上面的特征向量输入到CNN

BIGRU中,通过前向和后向的训练,结合误差修正,实现卷积核的确定;再次,为了丰富场景的表达信息,丰富场景语义,将图片和点云深层语义进行特征融合;步骤(2)基于全局特征提取出的逐点特征送入实例语义分割和三维关键点投票模块,得到逐点三维关键点;最后利用最小二乘拟合算法估计姿态。
[0005]所述步骤(1)中,特征融合图i表达式为:
[0006]c
i
=TimeDistribution(S

CNN
i
,S

BIGRU
i
)(公式1)
[0007]两种数据源在同一观测周期的语义进行特征融合,表达式为:
[0008]c
j
=αc
i
+βc
i'
j∈(K...N)(公式2)
[0009]并将特征融合后的局部特征构建全局特征,实现特定时间序列内场景的初步理解,那么全局特征表示为:
[0010][0011]其中,w
j
表示权重,本文采用时间衰减β
T

t
w(T是观测周期最后一帧图片或者最后一个周期点云数据的时间戳,t表示在观观测时间周期内的任意一个时间戳)的原则,从而越早的图片/点云数据,对现在的场景识别影响性较小,相反,越晚的图片/点云数据对现在的场景识别影响性越大。
[0012]所述步骤(2)中,首先,基于第一步的全局特征,采用实例语义分割模型和三维关键点检测模型实现场景三维关键点提取;其次,结合历史存在的地图信息,提前对地图进行实例语义分割模型和三维关键点检测模型处理,并提取三维关键点提取,然后采用最小二乘法拟合,结合误差最小的实现机器人位姿估计。
[0013]上述该方法在双向融合机制下,利用卷积神经网络和双向门控循环单元分别提取多帧视觉图片和多个周期点云数据局部和全局深层特征,并将视觉图片和点云图片的局部特征和全局特征在深度学习网络中进行共享,在输出阶段涉及一种有效的关键点算法,简化机器人关键点定位的算法。
[0014]本专利技术应用范围广,步骤简单,可实施性强,精确度较高;适用于多模态数据特征提取与机器人的位姿估计,以及同类机器人技术上的应用。
附图说明
[0015]图1是本专利技术的全局特征数据采集工作原理方框图。
[0016]图2是本专利技术的流程方框图。
具体实施方式
[0017]现结合附图,对本专利技术的具体实施步骤进行进一步的具体描述。如图1和图2所示,该方法对于技术目的拆解为两个子问题解决来提出技术方案:(1)如何根据机器人多帧视觉图片和多个周期点云数据,分别对多帧视觉图片和多个周期的点云数据在每个时间序列中进行加权融合以实现机器人对场景语义特征的理解。众所周知,机器人对场景相似的单帧图片或者单个周期的点云数据的场景识别能力较差,需要关联前面的图片或者点云数据增强场景表征能力,分别采用图片数据和点云数据对场景进行识别后,如何融合两者的优点,充分利用彼此的局部信息和全局信息,以实现定位关键点的识别,实现场景边界的有效识别。(2)如何利用关键点的信息,简化关键点算法,实现机器人位姿估计。
[0018]该方法具体如下:步骤(1)双层融合机制下基于双层CNN

BIGRU的场景理解和场景边界识别,如图1所示,采用对多帧图片数据和多周期点云数据分别机型CNN

BIGRU的场景理解。
[0019]首先,采用embedding层对图片/数据转换成特征向量矩阵;其次,将上面的特征向量输入到CNN

BIGRU中,通过前向和后向的训练,结合误差修正,实现卷积核的确定。上述基于卷积核提取每一个图片的深层语义特征和图片序列的特征;同理,基于卷积核提取每一个周期点云数据的深层语义特征和点云周期序列的特征。再次,为了丰富场景的表达信息,丰富场景语义,将图片和点云深层语义进行特征融合。
[0020]特征融合图i表达式为:
[0021]c
i
=TimeDistribution(S

CNN
i
,S

BIGRU
i
)
ꢀꢀꢀ
(公式1)
[0022]两种数据源在同一观测周期的语义进行特征融合,表达式为:
[0023]c
j
=αc
i
+βc
i'
j∈(K...N)
ꢀꢀꢀ
(公式2)
[0024]并将特征融合后的局部特征构建全局特征,实现特定时间序列内场景的初步理解,那么全局特征表示为:
[0025][0026]其中,w
j
表示权重,本文采用时间衰减β
T

t
w(T是观测周期最后一帧图片或者最后一个周期点云数据的时间戳,t表示在观观测时间周期内的任意一个时间戳)的原则,从而越早的图片/点云数据,对现在的场景识别影响性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种双向融合机制下基于多模态数据特征提取与机器人的位姿估计方法,该方法根据机器人多帧视觉图片和多个周期点云数据,分别对多帧视觉图片和多个周期的点云数据在每个时间序列中进行加权融合以实现机器人对场景语义特征的理解;利用关键点的信息,简化关键点算法,实现机器人位姿估计;其特征在于该方法的具体步骤如下:步骤(1)双层融合机制下基于双层CNN

BIGRU的场景理解和场景边界识别采用对多帧图片数据和多周期点云数据分别机型CNN

BIGRU的场景理解;首先,采用embedding层对图片/数据转换成特征向量矩阵;其次,将上面的特征向量输入到CNN

BIGRU中,通过前向和后向的训练,结合误差修正,实现卷积核的确定;再次,为了丰富场景的表达信息,丰富场景语义,将图片和点云深层语义进行特征融合;步骤(2)基于全局特征提取出的逐点特征送入实例语义分割和三维关键点投票模块,得到逐点三维关键点;最后利用最小二乘拟合算法估计姿态。2.根据权利要求1所述的双向融合机制下基于多模态数据特征提取与机器人的位姿估计方法,其特征在于所述步骤(1)中,特征融合图i表达式为:c
i
=TimeDistribution(S

CNN
i
...

【专利技术属性】
技术研发人员:彭松璧占善华周晓霞刘加强张秀英
申请(专利权)人:广州西威科智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1