人体指向预测方法技术

技术编号:39495734 阅读:9 留言:0更新日期:2023-11-24 11:22
本申请公开了一种人体指向预测方法

【技术实现步骤摘要】
人体指向预测方法、装置、机器人及存储介质


[0001]本申请涉及多模态数据处理
,更具体的说,是涉及一种人体指向预测方法

装置

机器人及存储介质


技术介绍

[0002]随着技术的发展,人机交互的使用越来越广泛,更自由的人机交互可以脱离平台的遥控,实现更加自由的交互,并允许机器人进行一些自主行为

人体指向可以在人机交互中发挥重要作用,更加准确的人机交互方案可以带来更好的体验

[0003]传统的人体指向预测方案主要有基于穿戴式设备的人体指向预测方法,或者是基于单一图像模态数据的人体指向预测方法

基于穿戴式设备的方案需要用户佩戴指定硬件传感器,通过传感器获取人体姿态,从而预测人体指向,这种方式成本较高,且不方便用户的使用

基于单一图像模态数据进行人体指向预测的方案,一般是在对人体拍摄的
RGB
图像中标记出人体部位,如头部

手臂等位置,进而基于人体部位通过几何关系计算人体指向的地面坐标点

这种方案仅考虑了单一的图像模态数据,使得人体指向预测结果的准确性较低


技术实现思路

[0004]鉴于上述问题,提出了本申请以便提供一种人体指向预测方法

装置

机器人及存储介质,以实现提升人体指向预测结果的准确度的目的

具体方案如下:
[0005]第一方面,提供了一种人体指向预测方法,包括:
[0006]获取对人体拍摄的目标图像,以及人体的深度点云图;
[0007]获取用户的语音指令,并对所述语音指令进行识别,得到识别文本;
[0008]分别对所述目标图像

所述深度点云图和所述识别文本进行编码,并将各个编码结果进行拼接,得到多模态特征;
[0009]基于所述多模态特征,确定人体指向点坐标

[0010]优选地,对所述目标图像

所述深度点云图进行编码的过程,包括:
[0011]按照所述深度点云图和所述目标图像间的映射关系,将所述深度点云图和所述目标图像拼接,得到双模态图像数据;
[0012]采用图像编码器对所述双模态图像数据进行编码,得到图像特征;
[0013]对所述识别文本进行编码的过程,包括:
[0014]采用文本编码器提取所述识别文本的语义特征;
[0015]将各个编码结果进行拼接,得到多模态特征的过程,包括:
[0016]将所述图像特征和所述语义特征进行拼接,得到多模态特征

[0017]优选地,基于所述多模态特征,确定人体指向点坐标的过程,包括:
[0018]基于所述多模态特征,预测至少两个人体关键点的坐标及第一人体指向点坐标,所述人体关键点为与人体指向动作相关的人体部位的坐标点;
[0019]基于所述至少两个人体关键点的坐标,计算第二人体指向点坐标;
[0020]基于所述第一人体指向点坐标和
/
或所述第二人体指向点坐标,确定最终的人体指向点坐标

[0021]优选地,所述至少两个人体关键点的坐标为在所述目标图像的坐标系下的二维坐标,则基于所述至少两个人体关键点的坐标,计算第二人体指向点坐标的过程,包括:
[0022]通过所述目标图像和所述深度点云图间的配准映射关系,确定所述至少两个人体关键点在所述深度点云图中各自对应的三维坐标;
[0023]确定所述至少两个人体关键点的三维坐标组成的直线在人体指向平面上的交点,将所述交点的坐标作为所述第二人体指向点坐标

[0024]优选地,所述人体指向平面为水平面或垂直于所述水平面的竖直面

[0025]优选地,在基于所述多模态特征,预测至少两个人体关键点的坐标的同时,还预测得到每个所述人体关键点的坐标的置信度;
[0026]则基于所述第一人体指向点坐标和
/
或所述第二人体指向点坐标,确定最终的人体指向点坐标的过程,包括:
[0027]若各所述人体关键点的坐标的置信度均不低于设定置信度阈值,则将所述第二人体指向点坐标确定为最终的人体指向点坐标,否则,将所述第一人体指向点坐标确定为最终的人体指向点坐标

[0028]优选地,若所述识别文本中包含有位置指示信息,则在确定了所述最终的人体指向点坐标之后,还包括:
[0029]检测所述最终的人体指向点坐标的位置,与所述识别文本中包含的位置指示信息是否相符;
[0030]若是,则确认所述最终的人体指向点坐标正确

[0031]优选地,该方法应用于机器人,在检测到所述最终的人体指向点坐标的位置与所述识别文本中包含的位置指示信息不相符时,该方法还包括:
[0032]控制所述机器人按照所述识别文本中包含的位置指示信息前进一段距离

[0033]优选地,分别对所述目标图像

所述深度点云图和所述识别文本进行编码,并将各个编码结果进行拼接得到多模态特征,基于所述多模态特征,确定人体指向点坐标的过程,通过预训练的人体指向预测模型实现;
[0034]所述人体指向预测模型采用标注有标签的多模态训练样本训练得到,所述多模态训练样本包括:包含有人体的训练图像

对应的深度点云训练图及用户下达的训练语音指令,所述标签包括:所述训练图像中人体关键点坐标,及用户指向的目标坐标

[0035]优选地,在所述人体指向预测模型的训练过程,其训练损失包括:
[0036]基于模型预测的所述第一人体指向点坐标与所述标签中的用户指向的目标坐标,计算的第一损失;
[0037]基于模型预测的每一人体关键点的坐标与所述标签中的人体关键点坐标,计算的第二损失

[0038]优选地,若所述多模态训练样本中的训练语音指令对应的识别文本中包含有位置指示信息,则所述训练损失还包括:
[0039]基于模型预测的所述第一人体指向点坐标与所述训练语音指令对应的识别文本
中包含的位置指示信息,计算的第三损失;
[0040]和
/
或,
[0041]基于模型预测的所述第二人体指向点坐标与所述训练语音指令对应的识别文本中包含的位置指示信息,计算的第四损失

[0042]优选地,所述目标图像为
RGB
图像

红外图像或灰度图像,所述深度点云图为
itof
图像或
3D
雷达图

[0043]第二方面,提供了一种人体指向预测装置,包括:
[0044]多模态图像获取单元,用于获取对人体拍摄的目标图像,以及人体的深度点云图;
[0045]语音指令本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种人体指向预测方法,其特征在于,包括:获取对人体拍摄的目标图像,以及人体的深度点云图;获取用户的语音指令,并对所述语音指令进行识别,得到识别文本;分别对所述目标图像

所述深度点云图和所述识别文本进行编码,并将各个编码结果进行拼接,得到多模态特征;基于所述多模态特征,确定人体指向点坐标
。2.
根据权利要求1所述的方法,其特征在于,对所述目标图像

所述深度点云图进行编码的过程,包括:按照所述深度点云图和所述目标图像间的映射关系,将所述深度点云图和所述目标图像拼接,得到双模态图像数据;采用图像编码器对所述双模态图像数据进行编码,得到图像特征;对所述识别文本进行编码的过程,包括:采用文本编码器提取所述识别文本的语义特征;将各个编码结果进行拼接,得到多模态特征的过程,包括:将所述图像特征和所述语义特征进行拼接,得到多模态特征
。3.
根据权利要求1所述的方法,其特征在于,基于所述多模态特征,确定人体指向点坐标的过程,包括:基于所述多模态特征,预测至少两个人体关键点的坐标及第一人体指向点坐标,所述人体关键点为与人体指向动作相关的人体部位的坐标点;基于所述至少两个人体关键点的坐标,计算第二人体指向点坐标;基于所述第一人体指向点坐标和
/
或所述第二人体指向点坐标,确定最终的人体指向点坐标
。4.
根据权利要求3所述的方法,其特征在于,所述至少两个人体关键点的坐标为在所述目标图像的坐标系下的二维坐标,则基于所述至少两个人体关键点的坐标,计算第二人体指向点坐标的过程,包括:通过所述目标图像和所述深度点云图间的配准映射关系,确定所述至少两个人体关键点在所述深度点云图中各自对应的三维坐标;确定所述至少两个人体关键点的三维坐标组成的直线在人体指向平面上的交点,将所述交点的坐标作为所述第二人体指向点坐标
。5.
根据权利要求4所述的方法,其特征在于,所述人体指向平面为水平面或垂直于所述水平面的竖直面
。6.
根据权利要求3所述的方法,其特征在于,在基于所述多模态特征,预测至少两个人体关键点的坐标的同时,还预测得到每个所述人体关键点的坐标的置信度;则基于所述第一人体指向点坐标和
/
或所述第二人体指向点坐标,确定最终的人体指向点坐标的过程,包括:若各所述人体关键点的坐标的置信度均不低于设定置信度阈值,则将所述第二人体指向点坐标确定为最终的人体指向点坐标,否则,将所述第一人体指向点坐标确定为最终的人体指向点坐标
。7.
根据权利要求3所述的方法,其特征在于,若所述识别文本中包含有位置指示信息,
则在确定了所述最终的人体指向点坐标之后,还包括:检测所述最终的人体指向点坐标的位置,与所述识别文本中包含的位置指示信息是否相符;若是,则确认所述最终的人体指向点坐标正确
。8.
根据权利要求7所述的方法,其特征在于,该方法应用于机器人,在检测到所述最终的人体指向点坐标的位置与所述识别文本中包含的位置指示信息不相符时,该方法还包括:...

【专利技术属性】
技术研发人员:吴嘉嘉李渊强张圆胡金水殷兵
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1