一种基于多模态信息的机器人动作识别方法技术

技术编号：40521016 阅读：6 留言：0更新日期：2024-03-01 13:39

本发明专利技术公开了一种基于多模态信息的机器人动作识别方法，其包括以下步骤：视觉和运动学信息提取、基于图的多模态特征融合学习、图谱特征空间中的多重关系建模、整合损失函数。本发明专利技术取得的有益效果：利用手术机器人中腹腔镜的视频信息和机器人机械臂的运动学信息，通过融合网络来建立互补信息，并对这两个模态的信息进行深度融合，以实现高精准度的手术动作识别。直接从手术机器人系统中采集出运动学数据，更加具有灵活和可靠性。达到了识别精度高和系统鲁棒性能较好的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及动作识别方法的，具体涉及一种基于多模态信息的机器人动作识别方法。

技术介绍

1、外科医生以手术机器人辅助为病人进行微创手术并非新鲜事，而精准度是手术成功与否的关键。训练机器人手势辨识能力的方法主要是利用运动学数据或[卷积神经网路」技术加强视觉图像处理。不过，一些复杂和程序多的手术，机械人需要频繁地转换状态做出不同动作，对手势辨识能力要求更高。

2、公告号为cn114723963a的中国专利技术专利申请文件公开了一种基于视觉和运动学信号的任务动作及物体物理属性的识别方法，包括如下步骤：s1：对执行操作任务时同步采集的视觉运动学信息进行预处理；s2：采用先计算经验特征再利用神经网络处理的方式提取视觉运动学信息中的有效特征；s3：基于最大似然估计理论，以加权组合的形式实现视觉运动学特征的融合；s4：实现融合特征与动作类型，物体属性组合标签的映射建模。然而这种加权融合的方式过于简单直接，无法在特征空间层面进行深层次的多模态信息融合，存在识别精度和系统鲁棒性能无法满足使用需求的问题。

技术实现思路

1、为了解决上述技术问题，本专利技术的目的在于提供一种基于多模态信息的机器人动作识别方法，其包括以下步骤：视觉和运动学信息提取、基于图的多模态特征融合学习、图谱特征空间中的多重关系建模、整合损失函数，该基于多模态信息的机器人动作识别方法具有识别精度高和系统鲁棒性能较好的优点。

2、为实现上述专利技术目的，本专利技术采取的技术方案如下：

3、一种基于

4、s1、视觉和运动学信息提取：使用相机拍摄所述机器人获得视觉信息，通过cnn网络和时间卷积网络对视觉信息进行处理，产生空间-时间视觉特征其中t表示时间步长，t表示时间总长；获取机器人的运动学数据，通过时间卷积网络和长短期记忆网络并行处理运动学数据，获得运动学特征

5、s2、基于图的多模态特征融合学习：将图表示为其中节点边(vi，r，vj)∈ε，节点为特征描述符，并初始化为视觉特征和运动学特征，特征描述符通过聚合来自相邻节点的信息，以参数化的传播规则进行更新，记第l+1层图网络中节点vi的隐藏状态其中是第l层图网络中节点vi的隐藏状态，是第l层图网络中节点vj的隐藏状态，是与节点i相连的所有节点的索引集，r为多模态特征间相互关系，fm(·，·)表示累积来自关系邻居的传入信息的函数，σ(·)是元素明智非线性激活；

6、s3、图谱特征空间中的多重关系建模：

7、计算与每个节点相关的最终输出：

8、

9、其中表示i在r类型的关系下在的邻居集合，从关系节点j转发消息更新到节点i阐述为代表一个可训练的转换矩阵，参数ci，r是一个与图的结构相关的归一化常数；

10、s4、整合损失函数：在多模态信息相互作用以捕捉联合知识后，关系图学习层为节点产生更新的表示。

11、通过这样的设置：利用手术机器人中腹腔镜的视频信息和机器人机械臂的运动学信息，通过融合网络来建立互补信息，并对这两个模态的信息进行深度融合，以实现高精准度的手术动作识别。直接从手术机器人系统中采集出动力学数据，更加具有灵活和可靠性。达到了识别精度高和系统鲁棒性能较好的优点。

12、作为优选，所述机器人包括左臂和右臂，在所述步骤s1中，还包括以下步骤：

13、关于视觉信息，对于每个时间步长t，当前视频帧的rgb图像it被转发到一个标准的cnn骨干网，利用一个18层的深度残差网络产生一个空间特征向量ut，通过整个视频样本得到一系列的将被输入到时间卷积模块，时间卷积模块采用编码器-解码器操作，分层捕捉多时间尺度的跨帧关系，产生更强的空间-时间视觉特征

14、

15、通过这样的设置：实现了提取视觉特征的功能。

16、作为优选，在所述步骤s1中，还包括以下步骤：

17、时间卷积网络的输入是将所有时间步骤的运动学变量堆叠起来，然后进行时间卷积、汇集、通道归一化和上采样，将运动学特征编码为同时长短期记忆网络通过输入之前所有步骤的运动学序列，获得当前步骤的特征以捕捉运动的长期依赖性，然后，和被平均化，以表示运动学特征为kt。

18、通过这样的设置：实现了提取运动学特征的功能。

19、作为优选，所述机器人包括左臂和右臂，在所述步骤s1中，还包括以下步骤：

20、将机器人左臂运动学特征和机器人右臂运动学特征分别编码为

21、通过这样的设置：实现机器人左臂和机器人右臂不同的运动学特征提取，满足使得机器人左臂和机器人右臂进行不同操作时也能够保证其识别精确度，具有左右臂的机器人能够更方便用于手术操作。

22、作为优选，在所述步骤s2中，还包括以下步骤：

23、图学习模块有三个节点实体分别对应视觉特征、机器人左臂运动学特征和机器人右臂运动学特征，其相关的特征描述符h1，h2，h3被初始化为

24、通过这样的设置：采用设计的图学习模块来融合上述提取的每个时间步骤的高层嵌入

25、这些特征已经获得了每个时间序列数据来源中的时间信息。图学习层在可区分的信息传递框架中发挥作用。

26、实现特征描述符初始化为视觉特征和运动学特征的功能。

27、作为优选，在所述步骤s3中，还包括以下步骤：

28、基数分解的正则化策略适用于

29、通过这样的设置：防止多关系数据的参数数量的快速增长。

30、作为优选，在所述步骤s4中，还包括以下步骤：

31、把改写为作为图学习后视觉特征、机器人左臂运动学特征和机器人右臂运动学特征的特征集，将一系列连接起来以传达联合知识。

32、通过这样的设置：实现联合知识的传达。

33、作为优选，在所述步骤s4中，还包括以下步骤：

34、将转发到全连接神经网络以获得每一帧的分类预测值

35、

36、其中wfc和b分别为线性层神经网络可训练的权重和偏置。

37、通过这样的设置：实现分类预测值的计算。

38、作为优选，在所述步骤s4中，还包括以下步骤：

39、使用加权交叉熵损失来解决训练样本的类间不平衡。

40、通过这样的设置：能够有效减弱类间不平衡对训练结果的影响。

41、作为优选，在所述步骤s4中，还包括以下步骤：

42、优化如下的损失函数：

43、

44、其中表示多模式输入空间，表示手势类别，α表示类平衡权重，θ表示可训练层的mrg-net参数。

45、通过这样的设置：实现损失函数的优化。

46、相对于现有技术，本专利技术取得了有益的技术效果：

47、1、本专利技术基于机器人系统本身可以采集到的手术视频和动力学数据，能充分利用视频-动力学数据在特征层面进行深层融合分析，实本文档来自技高网...

【技术保护点】

1.一种基于多模态信息的机器人动作识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态信息的机器人动作识别方法，其特征在于，所述机器人包括左臂和右臂，在所述步骤S1中，还包括以下步骤：

3.根据权利要求1所述的基于多模态信息的机器人动作识别方法，其特征在于，在所述步骤S1中，还包括以下步骤：

4.根据权利要求1所述的基于多模态信息的机器人动作识别方法，其特征在于，所述机器人包括左臂和右臂，在所述步骤S1中，还包括以下步骤：

5.根据权利要求4所述的基于多模态信息的机器人动作识别方法，其特征在于，在所述步骤S2中，还包括以下步骤：

6.根据权利要求1所述的基于多模态信息的机器人动作识别方法，其特征在于，在所述步骤S3中，还包括以下步骤：

7.根据权利要求1所述的基于多模态信息的机器人动作识别方法，其特征在于，在所述步骤S4中，还包括以下步骤：

8.根据权利要求7所述的基于多模态信息的机器人动作识别方法，其特征在于，在所述步骤S4中，还包括以下步骤：

9.根据权利要求1

10.根据权利要求1所述的基于多模态信息的机器人动作识别方法，其特征在于，在所述步骤S4中，还包括以下步骤：

...

【技术特征摘要】

1.一种基于多模态信息的机器人动作识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态信息的机器人动作识别方法，其特征在于，所述机器人包括左臂和右臂，在所述步骤s1中，还包括以下步骤：

3.根据权利要求1所述的基于多模态信息的机器人动作识别方法，其特征在于，在所述步骤s1中，还包括以下步骤：

4.根据权利要求1所述的基于多模态信息的机器人动作识别方法，其特征在于，所述机器人包括左臂和右臂，在所述步骤s1中，还包括以下步骤：

5.根据权利要求4所述的基于多模态信息的机器人动作识别方法，其特征在于，在所述步骤s2中，还包括以下步骤：...

【专利技术属性】
技术研发人员：窦琪，龙永灏，
申请(专利权)人：香港中文大学深港创新研究院福田，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人