【技术实现步骤摘要】
一种融合视觉知识图谱的动作类别识别方法和装置
[0001]本专利技术涉及计算机视觉领域,尤其涉及一种融合视觉知识图谱的动作类别识别方法和装置。
技术介绍
[0002]随着深度学习和大规模数据集的快速发展,基于视频的人类活动理解取得了巨大进步。动作识别是视频理解的一个重要问题,动作识别是指:在一段包括有运动过程的视频片段中,识别出该运动所对应的动作类别。例如,从一段人在运动场所进行体育运动的视频中,识别出该人所进行的体育运动类别。
[0003]现有方法将动作识别视为一个高级视频分类问题,并专注于设计表示学习的主干。另外,由于缺乏对运动是身体部位运动和物体相互作用的时空进化的理解,这些方法在识别具有复杂动态的混乱动作时经常会遇到性能瓶颈。
[0004]在另外一种现有方法中,主要关注场景中的整个人的运动状态,而没有对视频中的身体部位运动进行深入研究。最近,相关专家试图通过部分人类运动的状态注释来探索人类的活动知识。但它适用于图像域中的人机交互,而无需学习视频中的人类动态。更重要的是,与人机交互类别相比,人类行为指的是更抽象的概念,该方法缺乏用判别语义来描述人类行为的常识性知识。
[0005]因此,当前的动作识别方案可解释性不强,且对动作类别的识别还不够准确,识别效率不高。
技术实现思路
[0006]本专利技术旨在至少解决现有技术中存在的技术问题,为此,本专利技术第一方面提出一种融合视觉知识图谱的动作类别识别方法,所述方法包括:
[0007]获取视频图像中的目标对象在进行目标运 ...
【技术保护点】
【技术特征摘要】
1.一种融合视觉知识图谱的动作类别识别方法,其特征在于,所述方法包括:获取视频图像中的目标对象在进行目标运动过程中的各个动作状态对应的三元组信息,所述三元组信息包括所述目标对象的身体部位、所述身体部位的子动作状态、所述身体部位的交互对象;其中,一个所述动作状态对应多组所述三元组信息;将所述三元组信息分别与预设的视觉知识图谱中的多个标准动作的三元组信息进行匹配,得到与所述三元组信息匹配度大于预设匹配度阈值的的标准动作的数量;根据所述数量确定各个所述三元组信息与所述标准动作的匹配程度权值,得到每个所述动作状态包括的多组三元组信息的多个匹配程度权值;根据所述多个匹配程度权值确定各个所述动作状态相对于所述目标运动的动作类别识别的重要性;获取所述重要性大于预设重要性阈值的多个第一动作状态,并分别确定所述多个第一动作状态对应在所述视觉知识图谱中的多个目标标准动作;构建由所述多个目标标准动作组成的动作类别知识图谱;利用预先获取的语言先验三元组信息和所述第一动作状态的三元组信息,确定与所述目标运动的动作类别识别最相关的目标三元组信息;将所述目标三元组信息与所述动作类别知识图谱进行匹配,得到所述目标运动对应的目标动作类别。2.根据权利要求1所述的方法,其特征在于,所述根据所述数量确定各个所述三元组信息与所述标准动作的匹配程度权值,包括:根据预先设置的所述数量与所述匹配程度权值的对应关系,确定所述数量对应的三元组信息与所述标准动作的匹配程度权值;所述对应关系根据所述数量越多,所述匹配程度权值越低的原则设置。3.根据权利要求1所述的方法,其特征在于,所述根据所述多个匹配程度权值确定各个所述动作状态相对于所述目标运动的动作类别识别的重要性,包括:对每个所述动作状态包括的多组三元组信息的多个匹配程度权值进行求和,得到多个和值;将所述多个和值进行归一化,并将所述归一化的结果作为所述动作状态相对于所述目标运动的动作类别识别的重要性。4.根据权利要求1所述的方法,其特征在于,在确定与所述目标运动的动作类别识别最相关的目标三元组信息之前,还包括:提取所述视频图像的特征向量;将所述特征向量输入预设的图像描述生成模型,得到所述特征向量对应的语义描述语句;所述图像描述生成模型所采用的词典为维基百科;利用BERT模型提取所述语义描述语句中的三元组信息,得到语言先验三元组信息;所述三元组信息包括:目标对象的身体部位、身体部位的子动作状态、所述身体部位的交互对象。5.根据权利要求1所述的方法,其特征在于,所述确定与所述目标运动的动作类别识别最相关的目标三元组信息,包括:将预先获取的语言先验三元组信息和所述第一动作状态的三元组信息相乘,得到乘积
三元组信息;将所述乘积三元组信息作为与所述目标运动对应的动作类别最相关的目标三元组信息。6.根据权利要求1所述的方法,其特征在于,在将所述三元组信息分别与预设的视觉知识图谱中的多个标准动作进行匹配之前,还包括:从目标图像数据集中获取目标对象运动过程中的图像;提取所述图像中的...
【专利技术属性】
技术研发人员:谢雪梅,黄继磊,陈嘉慧,殷文杰,
申请(专利权)人:琶洲实验室黄埔,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。