一种面向教育机器人视觉理解的头部姿态估计方法及系统技术方案

技术编号:31021238 阅读:16 留言:0更新日期:2021-11-30 03:10
本发明专利技术公开了一种面向教育机器人视觉理解的头部姿态估计方法及系统。该方法包括步骤:分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据;分别对不同时刻的所述3D点云数据和所述红外图像数据进行预处理;分别将预处理后的不同时刻的所述3D点云数据和所述红外图像数据输入到训练好的头部姿态识别模型,获取不同时刻的头部姿态识别结果;根据不同时刻的头部姿态识别结果的变化,确定学习者的动作指令,根据所述动作指令生成所述教育机器人的控制指令。本发明专利技术可以使教育机器人准确理解学习者的意图,促进精准化教学和个性化学习。进精准化教学和个性化学习。进精准化教学和个性化学习。

【技术实现步骤摘要】
一种面向教育机器人视觉理解的头部姿态估计方法及系统


[0001]本专利技术属于模式识别与信息处理
,更具体地,涉及一种面向教育机器人视觉理解的头部姿态估计方法及系统。

技术介绍

[0002]学习者头部姿态估计是课堂教学环境下人与机器人交互中的一种重要手段。它是机器人视觉中的一个关键问题,是基于图像的行为识别的基础技术。头部姿态估计可广泛用于辅助驾驶、虚拟现实、人机交互、残疾人辅助等。由于低年龄儿童语言系统尚未发育完全,对于情感的表达更多是用于肢体,尤其是点头、摇头、注视等。伴随着近年来教育机器人的发展,头部姿态估计用于教育机器人场景的越来越多。头部姿态估计的难点在于:

头部是一个类似刚体,除面部外没有更多的细节辅助信息;

不同性别、年龄、民族的头部信息差异大;

不同远近尺度的信息变化大;

易受到学习环境光照变化的影响等。
[0003]传统的头部姿态估计方法大多是基于2D图像的卷积神经网络模型。该模型方法的基本流程为:

通过2D训练图片进入2D卷积处理,通过不断训练来更新卷积内的参数;

通过卷积层后,进入最大池化层和全局归一化层;

得出3个欧拉角,计算预测值与真实值的损失,进行反向传播;
[0004]但是,该类传统方法的局限性体现在两方面。首先,训练的图像都是2D图像,缺少三维空间信息,不能准确捕获离教育机器人较远的学习者的图像信息。其次,传统头部姿态估计方法的另一个局限就是学习环境的光照变化,光照过强或过弱,都会导致头部细节的丢失,有时还会产生阴影。

技术实现思路

[0005]针对现有技术的至少一个缺陷或改进需求,本专利技术提供了一种面向教育机器人视觉理解的头部姿态估计方法及系统,可以使教育机器人准确理解学习者的意图,促进精准化教学和个性化学习。
[0006]为实现上述目的,按照本专利技术的第一方面,提供了一种面向教育机器人视觉理解的头部姿态估计方法,包括步骤:
[0007]分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据;
[0008]分别对不同时刻的所述3D点云数据和所述红外图像数据进行预处理;
[0009]分别将预处理后的不同时刻的所述3D点云数据和所述红外图像数据输入到训练好的头部姿态识别模型,获取不同时刻的头部姿态识别结果;
[0010]根据不同时刻的头部姿态识别结果的变化,确定学习者的动作指令,根据所述动作指令生成所述教育机器人的控制指令。
[0011]优选的,所述头部姿态识别模型包括第一分支、第二分支、concat拼接层和基于全连接层的回归网络,所述第一分支包括3D图卷积神经网络和全连接层,所述第二分支包括
Resnet网络和全连接层;
[0012]所述第一分支用于从输入的所述3D点云数据中提取第一特征向量;
[0013]所述第二分支用于从输入的所述红外图像数据中提取第二特征向量;
[0014]所述concat拼接层用于对所述第一特征向量和所述第二特征向量进行拼接;
[0015]所述分类网络用于根据拼接后的特征向量输出头部姿态识别结果。
[0016]优选的,所述3D图卷积神经网络包括第一注意力机制、第一层3D图卷积、第二注意力机制、第二层3D图卷积和第三注意力机制;
[0017]所述第一注意力机制用于接收所述3D点云数据,产生全局注意信息并输入给所述第一层3D图卷积;
[0018]所述第一层3D图卷积用于提取特征信息并输出给所述第二注意力机制;
[0019]所述第二注意力机制用于产生精细化注意信息并输出给所述第二层3D图卷积;
[0020]所述第二层3D图卷积用于进一步提取特征信息并输出给所述第三注意力机制。
[0021]优选的,其特征在于,所述第一注意力机制、所述第二注意力机制、所述第三注意力机制均为8头部注意力机制,所述第二注意力机制和所述第三注意力机制分别将参数乘以各自权重系数加到所述第一注意力机制上,来调整全局的注意信息,所述第一层3D图卷积、所述第二层3D图卷积的参数共享。
[0022]优选的,所述分类网络包括3个连续的全连接层,这3个全连接层相互间也有连接。
[0023]优选的,所述头部姿态识别模型的训练包括步骤:
[0024]构建训练样本集和测试样本集;
[0025]利用训练样本集对所述头部姿态识别模型进行训练,将训练样本的预测头部姿态欧拉角与真实头部姿态欧拉角通过MSE损失函数来计算损失,使用Nadam优化器进行梯度优化,初始学习率设置为0.01,在几个epoch训练轮次之后通过余弦退火算法来降低学习率,使网络学习得更稳定,直到损失值不再下降为止;
[0026]利用测试样本集对所述头部姿态识别模型进行微调学习,学习率设置为5e

6。
[0027]优选的,所述确定学习者的动作指令,根据所述动作指令生成所述教育机器人的控制指令,包括步骤:
[0028]若识别到当前时刻的头部姿态与上一时刻的头部姿态变化超过预设角度阈值,则视为学习者发出动作指令,进一步判断该动作指令是否为预设动作指令之一,若是则生成所述教育机器人的控制指令。
[0029]按照本专利技术的第二方面,提供了一种面向教育机器人视觉理解的头部姿态估计系统,包括:
[0030]获取模块,用于分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据;
[0031]预处理模块,用于分别对不同时刻的所述3D点云数据和所述红外图像数据进行预处理;
[0032]识别模块,用于分别将预处理后的不同时刻的所述3D点云数据和所述红外图像数据输入到训练好的头部姿态识别模型,获取不同时刻的头部姿态识别结果;
[0033]控制模块,用于根据不同时刻的头部姿态识别结果的变化,确定学习者的动作指令,根据所述动作指令生成所述教育机器人的控制指令。
[0034]总体而言,本专利技术与现有技术相比,具有有益效果:
[0035](1)因此,本专利技术引入3D扫描仪作为传感器,获取结构光数据,通过采集深度信息,有效应对尺度变化的影响。结构光对人体头部进行重建模,可以获取更多头部细节信息,增加姿态估计的准确性。
[0036](2)在教育机器人平台上构建的红外相机传感器,可不受可见光的光照变化影响,保留更多细节。
[0037](3)在实际的家庭教育场景中,各种影响因素非常复杂,光照影响、人机相对位置、其余干扰遮挡、多个学生主体选择等,两种模态的信息经过三层密集连接融合,相互辅助,极大的提高的姿态的识别准确率,可以对教育机器人做出更准确的行为指令。
附图说明
[0038]图1是本专利技术实施例的面向教育机器人视觉理解的头部姿态估计方法的流程图;
[0039]图2是本专利技术实施例的教育机器人结构及应用示意图;...

【技术保护点】

【技术特征摘要】
1.一种面向教育机器人视觉理解的头部姿态估计方法,其特征在于,包括步骤:分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据;分别对不同时刻的所述3D点云数据和所述红外图像数据进行预处理;分别将预处理后的不同时刻的所述3D点云数据和所述红外图像数据输入到训练好的头部姿态识别模型,获取不同时刻的头部姿态识别结果;根据不同时刻的头部姿态识别结果的变化,确定学习者的动作指令,根据所述动作指令生成所述教育机器人的控制指令。2.如权利要求1所述的一种面向教育机器人视觉理解的头部姿态估计方法,其特征在于,所述头部姿态识别模型包括第一分支、第二分支、concat拼接层和基于全连接层的回归网络,所述第一分支包括3D图卷积神经网络和全连接层,所述第二分支包括Resnet网络和全连接层;所述第一分支用于从输入的所述3D点云数据中提取第一特征向量;所述第二分支用于从输入的所述红外图像数据中提取第二特征向量;所述concat拼接层用于对所述第一特征向量和所述第二特征向量进行拼接;所述分类网络用于根据拼接后的特征向量输出头部姿态识别结果。3.如权利要求2所述的一种面向教育机器人视觉理解的头部姿态估计方法,其特征在于,所述3D图卷积神经网络包括第一注意力机制、第一层3D图卷积、第二注意力机制、第二层3D图卷积和第三注意力机制;所述第一注意力机制用于接收所述3D点云数据,产生全局注意信息并输入给所述第一层3D图卷积;所述第一层3D图卷积用于提取特征信息并输出给所述第二注意力机制;所述第二注意力机制用于产生精细化注意信息并输出给所述第二层3D图卷积;所述第二层3D图卷积用于进一步提取特征信息并输出给所述第三注意力机制。4.如权利要求3所述的一种面向教育机器人视觉理解的头部姿态估计方法,其特征在于,所述第一注意力机制、所述第二注意力机制、所述第三注意力机制均为8头部注意力机制,所述第二注意力机制和所述第三注意力机制分别将参数乘以各自权重系数加到所述第一注意力机制上,来调整全局的注意信息,所述第一层3D图卷积、所述第二层3D图卷积的参数共享。5.如权利要求3所述的一种面向教育机器人视觉理解的头部姿态估计方法,其特征在于,所述分类网络包括3个连续的全连接层,这3个全连接层相互间也有连接。6.如权利要求1所述的一种面向教育机器人视觉理解的头部姿态估计方法,其特征在于,所述头部姿态识别模型的训练包括步骤:构建训练样本集和测试样本集;利用训练样本集对所述头部姿态识别模型进行训练,将训练样本的预测头部姿态欧拉角与真实头部姿态欧拉角...

【专利技术属性】
技术研发人员:刘海张昭理时振武童宇航吴远芳李林峰赵万里张胜强
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1