当前位置: 首页 > 专利查询>浙江大学专利>正文

一种实时动作识别人机交互系统技术方案

技术编号:26690466 阅读:65 留言:0更新日期:2020-12-12 02:41
本发明专利技术公开了一种实时动作识别人机交互系统,该系统在AI加速模块上单独处理图像信息和进行动作识别模型推理,提高算法执行的效率,并且在获取人体骨骼关键点时先计算先验位置再准确定位,极大地降低计算量,使得交互系统具有实时性;并且使用Atlas 200DK进行模型推理时无需额外配置任何机器学习环境,只需将已有模型转换至其架构下即可使用;动作识别模型基于时空图卷积网络搭建,推理时采用变底数的softmax函数来对其进行指数和概率归一化计算,并设计动作状态切换逻辑,防止动作误识别,提高准确率;另外针对动作识别网络,给出一种采集数据集和归一化人体骨骼关键点数据的方法,使得整个交互系统具有可移植性和通用性。

【技术实现步骤摘要】
一种实时动作识别人机交互系统
本专利技术属于人体行为检测及人机交互领域,尤其涉及一种通过动作识别实现人机交互的方式。
技术介绍
人机交互是人与机器人之间进行交流通信的一种方式,目前主流的人机交互方式包括语音交互、视觉交互、传感器交互、多通道交互等。对于机器人来说,其目前的应用领域主要为安防巡检、物流运输等,这些领域主要位于室外或工厂、仓库等环境空旷且噪声嘈杂的场景,语音交互的方式容易受到干扰,很难达到实时准确的效果。而传感器交互的方式,虽然能够保证获取的数据准确,但需要人佩戴相应的传感设备,交互的通用性和便用性较差。从日常信息获取的方式来说,70%以上的信息都是由视觉获取,在人机交互过程中,通过视觉的方式,机器人可以获取更多维度的信息,同时也保证了可以远距离的进行人机交互,适用于户外的场景。近年来,随着基于视觉的人机交互研究的深入,其衍生出了很多领域,包括手势识别、人体姿势识别、动作识别、面部表情识别等。对于户外或者工厂环境内作业的机器人来说,人机交互过程要求具有较高的准确率,常用的交互方式为识别目标较大的人体姿势识别和动作识别。...

【技术保护点】
1.一种实时动作识别人机交互系统,其特征在于,包括视频采集设备、主机、AI加速模块和机器人控制器等。通过主机驱动视频采集设备获取视频流,可以将视频分解为图像帧序列;将获取的图像帧发送到AI加速模块,AI加速模块搭载人体骨骼关键点检测模型和动作识别模型,图像帧序列输入人体骨骼关键点检测模型可以得到所有骨骼关键点的位置以及关键点之间的连接关系,标准化骨骼关键点序列并输入动作识别模型推理得到动作ID,向机器人控制器发送对应动作指令;机器人控制器可以控制机器人执行对应动作。/n

【技术特征摘要】
1.一种实时动作识别人机交互系统,其特征在于,包括视频采集设备、主机、AI加速模块和机器人控制器等。通过主机驱动视频采集设备获取视频流,可以将视频分解为图像帧序列;将获取的图像帧发送到AI加速模块,AI加速模块搭载人体骨骼关键点检测模型和动作识别模型,图像帧序列输入人体骨骼关键点检测模型可以得到所有骨骼关键点的位置以及关键点之间的连接关系,标准化骨骼关键点序列并输入动作识别模型推理得到动作ID,向机器人控制器发送对应动作指令;机器人控制器可以控制机器人执行对应动作。


2.如权利要求1所述实时动作识别人机交互系统,其特征在于,通过以下操作优化所述人体骨骼关键点检测模型:
(1.1)对输入的图像帧利用AI加速模块中的硬件解码方式进行解码;
(1.2)降低输入图像帧的像素大小;
(1.3)减少获取的骨骼关键点的数量;
(1.4)先对人体骨骼关键点检测模型原始输出heatmap提取局部最大值,获取到骨骼关键点的先验位置,再将heatmap的维度扩展为与输入图像帧相同,利用已知的先验位置得到对应骨骼关键点在输入图像帧的位置。


3.如权利要求1所述实时动作识别人机交互系统,其特征在于,所述标准化骨骼关键点序列具体为:
(2.1)统一序列帧数:将原始帧数或标准帧数分段,求解每段区间内需要删除或插值计算的帧数,通过查表的方式决定删除帧或者插值帧的索引;
(2.2)标准化序列数据:对于骨骼关键点序列的前k帧数据,选取某一个关键点在这k帧中的平均位置作为标准化后骨架序列的坐标原点,选取某两个相邻关键点之间长度在这k帧中的平均值作为标准化后骨架序列的单位长度,根据坐标原点和单位长度将原始骨架序列映射为标准骨架序列。


4.如权利要求3所述实时动作识别人机交互系统,其特征在于,所述统一序列帧数具体为:
(2.1.1)设原始骨骼关键点序列的帧数为Tori,标准的帧数为Tstd,则需要删除或者插值计算的总帧数为|Tori-Tstd|;
(2.1.2)令Tmax=MAX(Tori,Tstd),将Tmax分段,每段的帧数为Tinter,一共有个区间段,取整忽略最后一个非整区间段,表示向下取整;
(2.1.3)那么Tmax所代表序列的第i个区间段需要删除或插值计算的帧数change_numi为:



其中,表示对取余数。
(2.1.4)构建一个表数据table_list,table_listj为表数据的第j行,表示需要删除或插值的j帧对应的帧位置索...

【专利技术属性】
技术研发人员:朱秋国王裕霞张家释
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1