一种融合视觉知识图谱的动作类别识别方法和装置制造方法及图纸

技术编号:39294927 阅读:10 留言:0更新日期:2023-11-07 11:02
本发明专利技术公开了一种融合视觉知识图谱的动作类别识别方法和装置,获取视频图像中的目标对象在进行目标运动过程中的各个动作状态对应的三元组信息,将三元组信息分别与预设的视觉知识图谱中的多个标准动作的三元组信息进行匹配;根据数量确定各个三元组信息与标准动作的匹配程度权值,得到每个动作状态包括的多组三元组信息的多个匹配程度权值;构建由多个目标标准动作组成的动作类别知识图谱;将目标三元组信息与动作类别知识图谱进行匹配,得到目标运动对应的目标动作类别。本方案可解释性较强,并且,有预设的视觉知识图谱做支撑,大大提高了识别效率;识别结果是经过了视觉信息和语言信息筛选之后得到的结果,大大提升了识别准确度。准确度。准确度。

【技术实现步骤摘要】
一种融合视觉知识图谱的动作类别识别方法和装置


[0001]本专利技术涉及计算机视觉领域,尤其涉及一种融合视觉知识图谱的动作类别识别方法和装置。

技术介绍

[0002]随着深度学习和大规模数据集的快速发展,基于视频的人类活动理解取得了巨大进步。动作识别是视频理解的一个重要问题,动作识别是指:在一段包括有运动过程的视频片段中,识别出该运动所对应的动作类别。例如,从一段人在运动场所进行体育运动的视频中,识别出该人所进行的体育运动类别。
[0003]现有方法将动作识别视为一个高级视频分类问题,并专注于设计表示学习的主干。另外,由于缺乏对运动是身体部位运动和物体相互作用的时空进化的理解,这些方法在识别具有复杂动态的混乱动作时经常会遇到性能瓶颈。
[0004]在另外一种现有方法中,主要关注场景中的整个人的运动状态,而没有对视频中的身体部位运动进行深入研究。最近,相关专家试图通过部分人类运动的状态注释来探索人类的活动知识。但它适用于图像域中的人机交互,而无需学习视频中的人类动态。更重要的是,与人机交互类别相比,人类行为指的是更抽象的概念,该方法缺乏用判别语义来描述人类行为的常识性知识。
[0005]因此,当前的动作识别方案可解释性不强,且对动作类别的识别还不够准确,识别效率不高。

技术实现思路

[0006]本专利技术旨在至少解决现有技术中存在的技术问题,为此,本专利技术第一方面提出一种融合视觉知识图谱的动作类别识别方法,所述方法包括:
[0007]获取视频图像中的目标对象在进行目标运动过程中的各个动作状态对应的三元组信息,所述三元组信息包括所述目标对象的身体部位、所述身体部位的子动作状态、所述身体部位的交互对象;其中,一个所述动作状态对应多组所述三元组信息;
[0008]将所述三元组信息分别与预设的视觉知识图谱中的多个标准动作的三元组信息进行匹配,得到与所述三元组信息匹配度大于预设匹配度阈值的的标准动作的数量;
[0009]根据所述数量确定各个所述三元组信息与所述标准动作的匹配程度权值,得到每个所述动作状态包括的多组三元组信息的多个匹配程度权值;
[0010]根据所述多个匹配程度权值确定各个所述动作状态相对于所述目标运动的动作类别识别的重要性;
[0011]获取所述重要性大于预设重要性阈值的多个第一动作状态,并分别确定所述多个第一动作状态对应在所述视觉知识图谱中的多个目标标准动作;
[0012]构建由所述多个目标标准动作组成的动作类别知识图谱;
[0013]利用预先获取的语言先验三元组信息和所述第一动作状态的三元组信息,确定与
所述目标运动的动作类别识别最相关的目标三元组信息;
[0014]将所述目标三元组信息与所述动作类别知识图谱进行匹配,得到所述目标运动对应的目标动作类别。
[0015]可选地,所述根据所述数量确定各个所述三元组信息与所述标准动作的匹配程度权值,包括:
[0016]根据预先设置的所述数量与所述匹配程度权值的对应关系,确定所述数量对应的三元组信息与所述标准动作的匹配程度权值;所述对应关系根据所述数量越多,所述匹配程度权值越低的原则设置。
[0017]可选地,所述根据所述多个匹配程度权值确定各个所述动作状态相对于所述目标运动的动作类别识别的重要性,包括:
[0018]对每个所述动作状态包括的多组三元组信息的多个匹配程度权值进行求和,得到多个和值;
[0019]将所述多个和值进行归一化,并将所述归一化的结果作为所述动作状态相对于所述目标运动的动作类别识别的重要性。
[0020]可选地,在确定与所述目标运动的动作类别识别最相关的目标三元组信息之前,还包括:
[0021]提取所述视频图像的特征向量;
[0022]将所述特征向量输入预设的图像描述生成模型,得到所述特征向量对应的语义描述语句;所述图像描述生成模型所采用的词典为维基百科;
[0023]利用BERT模型提取所述语义描述语句中的三元组信息,得到语言先验三元组信息;所述三元组信息包括:目标对象的身体部位、身体部位的子动作状态、所述身体部位的交互对象。
[0024]可选地,所述确定与所述目标运动的动作类别识别最相关的目标三元组信息,包括:
[0025]将预先获取的语言先验三元组信息和所述第一动作状态的三元组信息相乘,得到乘积三元组信息;
[0026]将所述乘积三元组信息作为与所述目标运动对应的动作类别最相关的目标三元组信息。
[0027]可选地,在将所述三元组信息分别与预设的视觉知识图谱中的多个标准动作进行匹配之前,还包括:
[0028]从目标图像数据集中获取目标对象运动过程中的图像;
[0029]提取所述图像中的基元,并对所述基元配置标签,所述标签为所述基元所属的标准动作类别;所述基元包括所述目标对象的身体部位、所述身体部位的子动作状态、所述身体部位的交互对象;
[0030]根据所述基元和所述标签构建视觉知识图谱;其中,所述视觉知识图谱中的节点信息为所述目标对象的身体部位、所述身体部位的子动作状态、所述身体部位的交互对象的特征组合,连接所述节点的边表示所述节点之间的视觉联系,所述标签作为所述节点信息的标准动作。
[0031]可选地,所述将所述目标三元组信息与所述动作类别知识图谱进行匹配,得到所
述目标运动对应的目标动作类别,包括:
[0032]将所述目标三元组信息与所述动作类别知识图谱中的标准动作的三元组信息进行匹配,得到多个匹配值;
[0033]将所述多个匹配值中的最大值对应的标准动作,确定为与所述目标运动匹配的目标标准动作;
[0034]获取所述目标标准动作的标签,将所述标签中包括的动作类别作为所述目标运动对应的目标动作类别。
[0035]可选地,所述视觉知识图谱中还包括各个所述标准动作类别对应的知识库,在得到所述目标运动对应的目标动作类别之后,还包括:
[0036]接收用户输入的关于所述目标动作类别的问题;
[0037]利用预设的问题编码表确定所述问题对应的问题编码;
[0038]利用所述问题编码从所述知识库获取所述问题的答案,并输出所述答案。
[0039]本专利技术第二方面提出一种融合视觉知识图谱的动作类别识别装置,所述装置包括:
[0040]三元组信息获取模块,用于获取视频图像中的目标对象在进行目标运动过程中的各个动作状态对应的三元组信息,所述三元组信息包括所述目标对象的身体部位、所述身体部位的子动作状态、所述身体部位的交互对象;其中,一个所述动作状态对应多组所述三元组信息;
[0041]第一匹配模块,用于将所述三元组信息分别与预设的视觉知识图谱中的多个标准动作的三元组信息进行匹配,得到与所述三元组信息匹配度大于预设匹配度阈值的的标准动作的数量;
[0042]匹配程度权值确定模块,用于根据所述数量确定各个所述三元组信息与所述标准动作的匹配程度权值,得到每个所述动作状本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合视觉知识图谱的动作类别识别方法,其特征在于,所述方法包括:获取视频图像中的目标对象在进行目标运动过程中的各个动作状态对应的三元组信息,所述三元组信息包括所述目标对象的身体部位、所述身体部位的子动作状态、所述身体部位的交互对象;其中,一个所述动作状态对应多组所述三元组信息;将所述三元组信息分别与预设的视觉知识图谱中的多个标准动作的三元组信息进行匹配,得到与所述三元组信息匹配度大于预设匹配度阈值的的标准动作的数量;根据所述数量确定各个所述三元组信息与所述标准动作的匹配程度权值,得到每个所述动作状态包括的多组三元组信息的多个匹配程度权值;根据所述多个匹配程度权值确定各个所述动作状态相对于所述目标运动的动作类别识别的重要性;获取所述重要性大于预设重要性阈值的多个第一动作状态,并分别确定所述多个第一动作状态对应在所述视觉知识图谱中的多个目标标准动作;构建由所述多个目标标准动作组成的动作类别知识图谱;利用预先获取的语言先验三元组信息和所述第一动作状态的三元组信息,确定与所述目标运动的动作类别识别最相关的目标三元组信息;将所述目标三元组信息与所述动作类别知识图谱进行匹配,得到所述目标运动对应的目标动作类别。2.根据权利要求1所述的方法,其特征在于,所述根据所述数量确定各个所述三元组信息与所述标准动作的匹配程度权值,包括:根据预先设置的所述数量与所述匹配程度权值的对应关系,确定所述数量对应的三元组信息与所述标准动作的匹配程度权值;所述对应关系根据所述数量越多,所述匹配程度权值越低的原则设置。3.根据权利要求1所述的方法,其特征在于,所述根据所述多个匹配程度权值确定各个所述动作状态相对于所述目标运动的动作类别识别的重要性,包括:对每个所述动作状态包括的多组三元组信息的多个匹配程度权值进行求和,得到多个和值;将所述多个和值进行归一化,并将所述归一化的结果作为所述动作状态相对于所述目标运动的动作类别识别的重要性。4.根据权利要求1所述的方法,其特征在于,在确定与所述目标运动的动作类别识别最相关的目标三元组信息之前,还包括:提取所述视频图像的特征向量;将所述特征向量输入预设的图像描述生成模型,得到所述特征向量对应的语义描述语句;所述图像描述生成模型所采用的词典为维基百科;利用BERT模型提取所述语义描述语句中的三元组信息,得到语言先验三元组信息;所述三元组信息包括:目标对象的身体部位、身体部位的子动作状态、所述身体部位的交互对象。5.根据权利要求1所述的方法,其特征在于,所述确定与所述目标运动的动作类别识别最相关的目标三元组信息,包括:将预先获取的语言先验三元组信息和所述第一动作状态的三元组信息相乘,得到乘积
三元组信息;将所述乘积三元组信息作为与所述目标运动对应的动作类别最相关的目标三元组信息。6.根据权利要求1所述的方法,其特征在于,在将所述三元组信息分别与预设的视觉知识图谱中的多个标准动作进行匹配之前,还包括:从目标图像数据集中获取目标对象运动过程中的图像;提取所述图像中的...

【专利技术属性】
技术研发人员:谢雪梅黄继磊陈嘉慧殷文杰
申请(专利权)人:琶洲实验室黄埔
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1