【技术实现步骤摘要】
基于人工智能的时空动作识别方法及相关设备
[0001]本申请涉及人工智能
,尤其涉及一种基于人工智能的时空动作识别方法及相关设备。
技术介绍
[0002]在金融、银行或医疗康复领域内,需要对视频中的每个人进行时空动作识别判断是否存在异常行为,确保银行客户或患者的安全。在时空动作识别任务中不仅需要识别视频中动作出现的区间和对应的类别,还要在空间范围内用一个包围框标记出人员的空间位置。
[0003]目前,常常需要检测出视频帧中的人员,然后将固定的时间间隔内的视频帧作为该人员的上下文信息,直接获取动作识别结果,然而,这种方式忽略了不同动作发生的时间间隔差异很大的现象,且没有考虑人员与环境、其他人和对象的交互信息,导致时空动作识别结果的误差较大。
技术实现思路
[0004]鉴于以上内容,有必要提出一种基于人工智能的时空动作识别方法及相关设备,以解决如何提高时空动作识别结果的准确率这一技术问题,其中,相关设备包括基于人工智能的时空动作识别装置、电子设备及存储介质。
[0005]本申请提供基于人工智 ...
【技术保护点】
【技术特征摘要】
1.一种基于人工智能的时空动作识别方法,其特征在于,所述方法包括:搭建第一识别网络,所述第一识别网络包括目标检测模块、交互特征提取模块和动作识别模块,所述目标检测模块用于定位待识别视频帧中所有识别对象的位置信息,所述交互特征提取模块用于提取待识别视频帧中各识别对象与环境和其他识别对象之间的交互信息,所述动作识别模块用于识别待识别视频帧中所有识别对象的动作类别;训练所述第一识别网络以获取第二识别网络,所述第二识别网络的输入为视频片段,输出为所述视频片段对应的待识别视频帧中各识别对象的位置信息和动作类别,所述待识别视频帧为所述视频片段的中间位置的视频帧;从待识别视频中选取任意一个待识别视频帧前后预设时间段内的视频帧以组成一个视频片段,调整所述待识别视频的播放速度以获取所述待识别视频帧对应的多个视频片段;将所述多个视频片段依次输入所述第二识别网络,输出每一个视频片段的初始识别结果,所述初始识别结果包括所述待识别视频帧中各识别对象的初始位置信息和初始动作类别;融合不同视频片段的初始识别结果得到所述待识别视频帧的时空动作识别结果,所述时空动作识别结果包括所述待识别视频帧中各识别对象的优化位置信息和优化动作类别。2.如权利要求1所述的基于人工智能的时空动作识别方法,其特征在于,所述搭建第一识别网络包括:所述目标检测模块的输入为所述待识别视频帧,输出所述待识别视频帧中所有识别对象的位置信息,所述位置信息包括包围识别对象的矩形框的中心点坐标和宽高尺寸;基于所述识别对象的矩形框对所述待识别视频帧进行裁剪,得到各识别对象的裁剪图;所述交互特征提取模块的输入为所述视频片段和各识别对象的裁剪图,所述交互特征提取模块包括环境特征提取层和交互特征提取层;所述环境特征提取层用于提取所述视频片段的静态特征和动态特征,并将所述静态特征和所述动态特征拼接在一起作为环境特征;在所述交互特征提取层中,利用卷积神经网络对各识别对象的裁剪图进行多次卷积操作得到每个识别对象的姿态特征,拼接所述姿态特征和所述环境特征以获取每个识别对象的第一交互特征,所述第一交互特征用于表征识别对象与环境之间的交互信息;基于自注意力机制对不同识别对象的第一交互特征进行处理以构建每个识别对象的第二交互特征,所述第二交互特征用于表征识别对象与其他识别对象之间的交互信息;将相同识别对象的所述第一交互特征和所述第二交互特征相加得到各识别对象的融合交互特征后,将所述融合交互特征输入所述动作识别模块,得到所述待识别视频帧中所有识别对象的动作类别;将所述待识别视频帧中所有识别对象的所述位置信息和所述动作类别作为所述第一识别网络的输出结果。3.如权利要求2所述的基于人工智能的时空动作识别方法,其特征在于,所述拼接所述姿态特征和所述环境特征以获取每个识别对象的第一交互特征之前,所述方法还包括:对每个识别对象的姿态特征执行ROI Align操作,所述ROI Align操作用于将不同尺寸
的姿态特征处理为预设尺寸。4.如权利要求2所述的基于人工智能的时空动作识别方法,其特征在于,所述基于自注意力机制对不同识别对象的第一交互特征进行处理以构建每个识别对象的第二交互特征包括:将所有识别对象的第一交互特征沿着列方向按照预设顺序进行排列,得到第一交互矩阵,所述第一交互矩阵中的每一行对应一个识别对象的第一交互特征;对所述第一交互矩阵与参数化矩阵相乘得到Q矩阵、K矩阵和V矩阵,所述Q矩阵,所述K矩阵和所述V矩阵分别包括所有识别对象的Q向量、K向量和V向量;基于自注意力机制对所述Q矩阵、所述K矩阵和所述V矩阵进行处理以构建第二交互矩阵,所述第二交互矩阵中的每一行对应一个识别对象的第二交互特征,所述第二交互矩阵满足关系式:其中,Q,K,V分别表示Q矩阵、K矩阵和V矩阵,K
T
表示K矩阵的转置,d为所有识别对象的数量,F2所述第二交互矩阵;从所述第二交互矩阵提取每个识别对象的第二交互特征。5.如权利要求1所述的基于人工智能的时空动作识别方法,其特征在于,所述训练所述第一识别网络以获取第二识别网络包括:采集多个带有标注信息的视频片段以构建训练集,所述标注信息包括所述视频片段对应的待检测视频帧中所有识别对象的真实位置信息和真实动作类别;从所述训练集中挑选视频片段并输入所述第一识别网络以获取识别结果,所...
【专利技术属性】
技术研发人员:何辰立,张恒源,陆进,陈远旭,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。